罗辑
2026-01-29
来自马来西亚
老师请问。关于J(θ)的计算,公式里面本来是算期望,我们通常采用蒙特卡洛方法,通过对收集到的有限条轨迹进行采样平均来估计。 但在代码实现中,貌似不是这样实现的,代码中,相对discounted_returns做了一个标准化归一化处理。 discounted_returns = (discounted_returns - discounted_returns.mean()) / (discounted_returns.std() + 1e-7) 然后再和概率相乘累加 loss -= log_prob * G_t 是不是代码实现的归一化,达到 对有限条轨迹的采样取平均 一样的效果? 我的理解对吗?