极客时间-轻松学习，高效学习-极客邦

林彦

2018-02-02

如果这个问题使用深度强化学习，感觉上这个场景是状态转移概率函数和奖赏函数都难以直接获取的免模型学习。传统的蒙特卡罗和时序差分学习都是基于采样轨迹的值来迭代更新策略。这个问题中后手能采样到的轨迹中和最优策略有可能差异会较大，这样很难生成最优策略。

不知道分成子域后这个问题是否可能有解决。



 2

我们在线，来聊聊吧