02｜基于价值的强化学习：从Q-learning到Deep Q-Network

H 博士 & 袁从德

你好！欢迎来到强化学习的第二节课。上一节课我们了解了强化学习的基础知识和马尔可夫决策过程，今天我们将聚焦于基于价值的强化学习算法——从经典的 Q-learning 到结合深度学习的 Deep Q-Network（DQN）。
通过本节课的学习，你将能够：
理解价值函数在强化学习中的核心作用
掌握 Q-learning 算法的原理和实现方法
了解 DQN 如何解决 Q-learning 的局限性
掌握 DQN 的关键创新点和训练流程
通过代码示例直观感受两种算法的工作机制
一、强化学习的价值视角：为什么需要 Q 函数？在强化学习中，智能体的目标是通过与环境交互最大化累积奖励。但面对复杂环境，我们需要一种工具来评估“在某个状态下采取某个动作是否划算”——这就是价值函数的作用。
想象你在玩游戏时，面对屏幕上的画面（状态），需要选择向左、向右或跳跃（动作）。经验丰富的玩家会根据当前画面判断“哪个动作更可能赢得游戏”，这种判断本质上就是对动作价值的评估。
智能体处于某状态时，依据当前状态与可选动作，查询  Q-table，就能得到对应的  Q 值。Q-Learning 算法通过不断与环境交互（试错），更新 Q 表中的 Q 值，让智能体逐渐学到：在什么状态下，执行什么动作，能获得更高的长期收益，最终掌握最优决策策略（比如游戏通关、机器人高效导航）。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
法语
德语
日语
韩语
俄语
西班牙语
解释
总结

1. 强化学习的核心概念包括奖励、回报和价值函数，其中奖励是环境对智能体动作的即时反馈，回报是从当前时刻开始的累积折扣奖励，而动作价值函数（Q函数）则是在状态下采取动作后能获得的期望回报。 2. Q-learning算法通过不断与环境交互，更新Q表中的Q值，让智能体逐渐学到在什么状态下执行什么动作能获得更高的长期收益，最终掌握最优决策策略。 3. DQN（Deep Q-Network）结合了深度学习和Q-learning算法，通过神经网络来拟合Q函数，从而解决了Q-learning算法在状态和动作连续空间时无法存储的问题。 4. 最优动作价值函数是在所有可能的策略中能获得的最大Q值，它能直接告诉我们在任何状态下该做什么动作，是强化学习的目标之一。 5. Q表是存储状态-动作-Q值对应关系的数据结构，通过查询Q表可以得到对应的Q值，是Q-learning算法的核心逻辑之一。 6. DQN的关键创新包括经验回放、目标网络和损失函数设计，这些创新使得DQN能够成功训练并提高训练稳定性。 7. DQN的训练流程包括初始化、与环境交互、训练网络、定期同步目标网络等步骤，通过这些步骤逐步学习到最优的Q值函数。 8. DQN的代码实战包括环境设置、DQN模型定义、经验回放缓冲区定义、训练过程定义和主循环执行，这些步骤展示了如何使用DQN解决强化学习问题。 9. DQN的训练过程中，通过计算Q值、目标Q值和损失，并进行梯度下降优化，逐步学习到最优的Q值函数，指导智能体选择最优的动作策略。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《强化学习快速入门与实战》，新⼈⾸单¥59

立即购买

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论