15｜强化学习前沿：从离散控制到连续控制

H 博士 & 袁从德

你好！欢迎来到强化学习的第十五讲。在前几讲中，我们学习的 DQN 等经典算法在 Atari 游戏这类离散动作场景中表现出色，但当面对现实世界里机械臂关节控制、自动驾驶转向调节等连续动作任务时，传统离散化动作的思路会导致动作空间呈指数级膨胀（比如 6 个关节的机械臂，仅精度到 0.01 就有 200⁶ 种动作组合），让算法完全无法落地。而深度确定性策略梯度（DDPG）算法，正是为突破“连续动作空间困境”而生，它将确定性策略与深度学习结合，为连续控制任务提供了高效解决方案。
通过本节课的学习，你将能够：
清晰区分离散控制与连续控制的核心差异，理解连续控制任务的技术瓶颈；
掌握确定性策略梯度（DPG）的核心原理，明确其适配连续动作空间的本质原因；
拆解深度确定性策略梯度（DDPG）的算法架构与核心组件，理解目标网络、经验回放等机制的作用；
结合代码实例与实验场景，洞悉 DDPG 的训练流程与实际应用价值。
一、控制任务的核心分类与技术演进在深入强化学习算法之前，我们首先需要厘清“控制”的本质，以及离散控制与连续控制的核心区别——这是理解连续控制算法设计逻辑的基础，也是从经典强化学习走向前沿应用的关键一步。
1.1 什么是控制控制问题由观测（observations）和动作（actions）构成。智能体在每一个时间步 t 接收到一个观测向量 xt​∈Rn，并输出一个动作向量 at​∈Rd。观测向量中包含一个特殊的分量，即奖励 rt​ 奖励所在的分量索引在整个智能体生命周期中是固定不变。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
法语
德语
日语
韩语
俄语
西班牙语
解释
总结

1. 离散控制与连续控制的核心差异：需要理解离散控制和连续控制在动作空间的性质、决策逻辑、典型场景和策略输出形式上的本质差异。 2. DDPG算法的核心设计逻辑：采用了Actor-Critic架构分离“动作生成”与“价值评估”，并通过目标网络、经验回放等机制解决了连续控制中的训练稳定性问题。 3. DDPG的训练全流程：包括Ornstein-Uhlenbeck噪声探索、经验存储、Critic网络更新Q值、Actor网络沿梯度优化策略以及目标网络软更新等完整步骤。 4. DDPG的适用场景与优势：明确了DDPG在机器人控制、自动驾驶等连续动作任务中的落地价值，以及与传统离散控制算法、随机策略梯度算法的核心差异。 5. DDPG算法在实验验证中的表现：在经典控制任务和复杂的机器人控制任务中，DDPG算法展现出了强大的性能，为连续动作控制提供了坚实的基础。 6. DDPG算法的局限性：存在数据效率方面的局限性，需要大量训练样本才能学习到较好的策略，以及探索策略相对固定的问题。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《强化学习快速入门与实战》，新⼈⾸单¥59

立即购买

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论