极客时间-轻松学习，高效学习-极客邦

林彦

2018-01-28

强化学习里累积奖赏的状态-动作值函数如何获得。对话后对状态的改变和后续动作的选择造成图像与推测的差距缩小或放大，差距的改变，特别是改变的值范围很大时，如何转换成合适数值的奖赏，期望有相应的理论支持。





我们在线，来聊聊吧