kenan
2025-08-26
来自北京
基线的作用:降低策略梯度的方差,训练加速,引入无偏性是不会改变梯度期望,基线也可以降低波动性来降低梯度方差。 注:代码中还是用OpenAI的Gym,已经不再维护了。建议使用Gymnasium这库。 这样可以让课程进了保证在相对较新的状态。