林彦
2018-01-28
强化学习里累积奖赏的状态-动作值函数如何获得。对话后对状态的改变和后续动作的选择造成图像与推测的差距缩小或放大,差距的改变,特别是改变的值范围很大时,如何转换成合适数值的奖赏,期望有相应的理论支持。
我们在线,来聊聊吧
✕
您好,当前有专业客服人员在线,让我们来帮助您吧。
我们在线,来聊聊吧