强化学习快速入门与实战
H 博士 & 袁从德
AI 资深研究员、AI 创业公司 CTO
868 人已学习
新⼈⾸单¥59
强化学习快速入门与实战
15
15
1.0x
00:00/00:00
登录|注册

07|基础策略梯度法:Policy Gradient

你好!欢迎来到强化学习的第七讲。在前几节课中,我们重点学习了基于价值的强化学习方法(如 Q-learning、DQN),这类方法通过估计状态或动作的价值函数间接指导决策。但在连续动作、高维状态或需要随机策略的复杂场景中,这类方法会因“需枚举动作”“价值估计难”等问题陷入瓶颈。
为突破这些局限,策略梯度方法应运而生——它不依赖价值函数间接优化,而是直接对策略建模并通过梯度上升最大化累积奖励,就像让智能体从“推测哪个方向有收益”转向“直接朝着高收益方向调整行动策略”。接下来,我们将深入拆解这一“直接优化策略”的核心方法。
通过本节课的学习,你将能够:
理解策略梯度的核心逻辑:掌握策略参数化表示()、目标函数()与策略梯度定理的数学意义,明白“如何通过梯度让策略向高奖励方向迭代”。
掌握完整算法流程:从初始化参数、与环境交互收集轨迹,到计算累积折扣回报、估计梯度并更新策略,清晰拆解每一步的实现逻辑。
辩证看待方法优劣:明确策略梯度在连续动作空间、随机策略学习上的独特优势,以及样本效率低、梯度方差大等局限性。
了解改进与应用脉络:知晓 A2C/A3C、PPO 等改进算法的核心思路,以及策略梯度在机器人控制、游戏 AI、自动驾驶等领域的实际价值。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 策略梯度方法是为了解决基于价值的强化学习方法在复杂场景中遇到的问题,直接对策略进行建模,并通过梯度上升最大化累积奖励。 2. 目标函数$J(\theta)$表示智能体在与环境交互的过程中能够获得最大的期望累积回报,通过梯度上升的方法来找到使得目标函数最大化的策略参数$\theta$。 3. 策略梯度方法的优势在于能够应对连续动作空间、高维状态空间和随机策略需求的场景,但也存在样本效率低、梯度方差大等局限性。 4. 策略梯度算法的执行流程包括初始化策略参数、与环境交互并收集轨迹、计算累积折扣回报、计算策略梯度以及更新策略参数。 5. 策略梯度方法凭借可学习随机策略、收敛性有理论支撑、适配高维状态空间及连续动作空间等核心优势,在博弈、机器人控制等多个领域展现出独特价值,但同时也面临着样本效率低、方差大且收敛慢、缺乏全局最优解保证等固有局限性。 6. 在高维状态空间的环境中,策略梯度方法具有较强的适应性,能够通过神经网络等模型直接处理高维状态,学习到有效的策略。 7. 策略梯度方法能够很好地处理连续动作空间的问题,例如在机器人控制领域,能够方便地让机器人学习到如何根据当前的状态调整关节角度,以完成特定的任务。 8. 策略梯度方法需要与环境进行大量的交互来收集轨迹,导致样本的利用率很低,这在一些真实环境中是一个很大的问题。 9. 优势函数定义为动作价值函数与状态价值函数的差值,即 $A (s_t, a_t) = Q (s_t, a_t) - V (s_t)$。它衡量了在状态$s_t$下选择动作$a_t$相对于平均水平的优势。 10. Actor-Critic 方法是将策略梯度方法和价值函数方法结合起来的一种混合方法,能够提高样本效率、降低方差和加快收敛速度。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《强化学习快速入门与实战》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部