强化学习快速入门与实战
H 博士 & 袁从德
AI 资深研究员、AI 创业公司 CTO
45 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已更新 2 讲/共 25 讲
强化学习快速入门与实战
15
15
1.0x
00:00/16:52
登录|注册

开篇词|让我们带你游览强化学习的游乐园

讲述:张浩AI版大小:19.30M时长:16:52
你好,欢迎来到「强化学习」游乐园。
强化学习大热,最近可以回望到 2024 年。
2024 年 2 月,DeepSeek 首次祭出后来成为大模型推理杀手锏的 GRPO,针对大语言模型的设定对 PPO 进行了精巧的改造。在 GRPO 的驱动下,DeepSeekMath 在数学推理领域取得了优异的效果。
同年 3 月,图灵奖授予强化学习奠基人安德鲁·巴托和理查德·萨顿,表彰他们在 20 世纪 80 年代构建的强化学习理论框架及其教科书《强化学习:导论》的深远影响。这一奖项被视为对强化学习学科地位的官方定调,其理论价值与深度学习三巨头(2018 年图灵奖得主)的贡献并列,标志着 RL 成为 AI 核心支柱之一
作为学习多年 RL,啃过半本《强化学习:导论》的 RLer,得知这一消息时,我的心情仿佛自己所在门派的祖师当上了武林盟主。
此后,“强化学习”这一字眼开始逐渐占据各大媒体的重要版面。在 AI 各领域,又不断有强化学习驱动的方法取得各种亮眼成绩。整个 2024 年,就像一场高潮迭起的大戏。而这出戏的最高潮,显然是 2025 年春节前 DeepSeek-R1 横空出世。可以说,DeepSeek-R1 在春节期间火热程度甚至不亚于春晚。
虽然这几年,机器学习、人工智能、ChatGPT、AGI 等等概念已经一遍一遍冲击着普通人,但 DeepSeek-R1 这个由中国团队开发的神器,其在推理领域的卓越表现,尤其是 Aha Moment,还是再次超出了大家对人工智能的预期。
我在春节期间,就收到了多个亲友的邀请来给他们科普强化学习。等春节结束回到公司后,发现公司领导层开始要求全公司从上到下都要重视 RL,要把 RL 应用在每个项目中,所有项目都要上马,All in RL。我相信,这种情况肯定同样发生在很多公司中。
然而,面对这一火热场景,我的心情却是既兴奋又迷惑。
因为我曾经在 RL 的学习和使用中踩过多个坑,知道零基础入门这一学科的不易。RL 领域很迷人,但同时也很复杂,像一个美丽又危险的游乐园。如果没有向导,难免会踩很多的坑。

“噫吁嚱,危乎高哉!蜀道之难 难于上青天”

从理论的角度,RL 因为涉及时序和反馈,其复杂度高于其他机器学习科目。比如,通常都说值迭代方法脱胎于“贝尔曼迭代”,但是如果深究为何贝尔曼迭代就能获得最优解,则需要进一步学习 Banach 不动点定理,那么也需要学习泛函分析和拓扑学。
从工程的角度,RL 涉及分布式计算和同步 / 异步更新,且 RL 采样效率低,需要大量反馈,想将一个 RL 系统在实际大规模环境应用,所需的工程 trick 一点不少于其他领域。
此外,RL 中的概念复杂,术语众多:
value-based vs policy-based
policy iteration vs value iteration
model-based vs model free
on policy vs off policy
online RL vs offline RL
state function vs state-action function
actor vs critic
stochastic policy vs determinstic policy
……
而且不同流派的 RLer,对上述概念的使用还存在混杂的情况,更让人头晕眼花。我在刚入门的时候就曾经苦恼于“为何策略迭代和值迭代的函数如此之像,而策略梯度与值函数却又如此不同?”
无论是再好的老师,在讲述 RL 时上述概念都无法绕过。每个 RLer 都经历过苦思冥想推公式、辨析概念以及面对代码运行不如预期一筹莫展的情况。
RL 是一个学习曲线陡峭的学科。这一点对初学者过于不友好。在开始学习的时候,基础理论、概念以及代码的学习都要注意控制难度。

“吾生也有涯,而知也无涯。以有涯随无涯,殆已!”

犹记得上一次 RL 爆火是 2016 年,那一年横空出世的是 AlphaGo。DeepMind 通过蒙特卡洛树搜索(MCTS)与深度学习的结合,首次让 AI 在围棋中战胜人类冠军,证明了 RL 在复杂决策中的潜力。
也是在那一年,我博士毕业进入企业工作,应公司要求开始转向研究 RL。在开展 RL 研究的过程中,也亲眼目睹了 RL 在各领域产生的一系列突破。
学术界,Dueling DQN、Double DQN、A3C、PPO、TD3、Soft Actor-Critic 等方法层出不穷。
效果上,AlphaGo Zero 摒弃人类棋谱,仅用自我对弈和 RL 便达到超人类水平。 AlphaZero 将游戏扩展至国际象棋和日本将棋,证明通用棋类 AI 的可行性。2019 年 OpenAI 开发的 OpenAI Five,通过多智能体强化学习在 5v5 团队游戏中击败职业选手,展示了 RL 在动态协作中的潜力。AlphaStar :DeepMind 的《星际争霸》AI,结合分层强化学习和多任务学习,在部分场景中战胜人类。
与 RL 汹涌澎湃发展成为鲜明对比的,则是我面对这个领域时的无奈与无助。
每天打开 Google Alert,新的 RL 工作像潮水般涌来。arXiv 上一天就有几百篇强化学习论文上传。与此同时,从各个角度解读 RL 的文章也层出不穷,关于 RL 与神经科学、控制论、经济学相关联的研究遍地开花。自己所关注的 RL 大神每 4 天就发表一篇文章……
而我,作为一个在史诗级大浪潮前刚学会踩水的菜鸟,心情从一开始的兴奋激动,逐渐变得迷惑和消沉,深深体会到了什么叫“吾生也有涯,而知也无涯”。
强化学习的发展过快,整个领域的理论基础虽然已经坚如磐石,但是各种流派的起落速度很快。比如 2018 年之后,“Control as Inference” 以及各种与最大熵相关的方法迅速崛起,最近一年策略梯度法变体横扫各大领域……
RL 是一个快速发展的学科,我们需要关注新领域的发展,但是若在这方面花费过多精力,则会使得自己焦虑,于学习无助反而有害。

“初极狭,才通人。复行数十步,豁然开朗……寻向所志,遂迷,不复得路。”

相比于其他学科,强化学习的“学科交叉感”尤其强。其内容博大精深,与很多控制论、神经科学、心理学、经济学的研究存在交叉。强化学习就像一个大型游乐园,其中有很多岔路会将你引导到一些好玩但危险的项目中,但是这些项目未必是你实际喜欢的,或者未必是能解决你所面对的实际问题。
拿我自己的亲身经历来说,由于我对数学原理和神经科学的偏爱,我在研究 RL 的过程中不知不觉地对神经科学领域的 Karl Friston 的自由能理论(free energy principle)以及其与 RL 探索方法的内在联系而着迷。但“一入侯门深似海”,真的钻进自由能理论的口袋后,却迷失在了神经科学和变分推断的森林中。
现在回头去看,在知识森林中探索的感觉很好,尤其当我发现神经科学中的诸多理论都与 RL 有着奇妙的联系。但我也陷入了“知识的陷阱”——虽然看了很多,似乎也“学了很多”,但最终并没有在实际项目中落地。类似的,我也曾经花了大功夫来研究控制论中的 Hamilton-Jacobi-Bellman(HJB)方程与 RL 中值迭代的联系,花费了大量时间精力理清了其中的一些关系后,也没有找到合适的应用场景。
这种在交叉学科中“似乎学到了什么”的感觉我不认为是有害的,这些可能本身就是学习的乐趣。但是当我们在实际工作中需要应用 RL 解决问题时,则必须跳出这些“桃花源”,在有限的时间内应用正确的方法来解决问题。
RL 是一个强交叉学科,包罗万象又充满趣味,但初学者容易随着自己的好奇心走入“岔路”。

课程设计是怎样的?

毫无疑问,强化学习已经成为人工智能时代取得突破的必杀技。但是这把屠龙宝刀,我们该怎么使用呢?
有人说,读书就要读经典,读最原汁原味教材,最好的方式就是看 Sutton 的 RL 圣经。
有人说,读书效率太低,互动体验差,可以看一些高质量的视频教程,如 David Silver “Lectures on Reinforcement Learning” 或 Sergey Levine 的 CS294。
有人说,英文课程学起来效率还是太低,完全可以看中文好课,比如张伟楠、王树森、李宏毅等等老师的课程。
有人说,强化学习理论高深,容易晕头转向,可以去学习郭宪老师的《深入浅出强化学习》。
有人说,只看书不实践,还是无法深入掌握,推荐莫凡老师的《动手学强化学习》。
有人说,了解经典,更要了解前沿,汪军老师组织的 RL China 系列前沿专题一定不能错过。
……
我相信随着时间推移,还会有越来越多好的书籍、课程会被推出来。
在优质资料如此丰富的情况下,我们为何还要推出这样的入门专栏呢?
因为,对于基础不同的人,其使用屠龙宝刀的姿势应该不同。就说一个智能体,其 state 不同,action 也应该不同。
我假设读到这里的同学,都是抱着学习的兴趣或解决实际问题的需求来学习这个专栏的。而我的期待则是在陪伴你走过这个专栏后,你依旧会对 RL 充满兴趣,或找到了解决自己业务问题的方法。
可以说,我们的专栏,专治你的选择困难症,可以作为后续深入学习的启动器。
屠龙宝刀第一式——先把刀拿起来
我们的专栏将采用“理论、算法、实战”相结合的方式,循序渐进地带你掌握强化学习的核心知识与实践技能。与此同时,课程中还有几个亮点值得关注!
1.  难度适中,层层递进,注重对理论的理解而非推导
祖师爷 Sutton 的 RL 圣经前几章集中讲解了大量理论相关内容,比如贝尔曼迭代、时序差分、动态规划、蒙特卡洛……很多初学者读完前几章就被劝退了。
我们认为,对于初学者,在理解重要定理的同时,控制难度也很重要。无需将每个细节都死磕清楚。当然,想要入门 RL,MDP 数学理论依然是绕不开的部分。
因此,专栏的“基础篇”依旧花了大量的篇幅介绍强化学习的基础,比如 MDP、Value-based RL、Policy-based RL 以及动态规划和蒙特卡洛的基本思想。但我们努力做到难度适中。在介绍数理相关的定理时,尽量用形象生动的语言让你对艰深晦涩的理论有直观理解,而不是像学术领域那样给出严格但枯燥的证明。同时对于想要进一步在理论上深挖的同学,我们也会在专栏以及互动过程中提供进阶知识指引。
2.  与时俱进,注重梳理方法演进背后的思想
RL 变化日新月异,新方法层出不穷。在有限的篇幅下,为了尽量让你了解到实际应用中最有效的新方法,我们在“进阶篇”精心选择了少数几个当前蓬勃发展的方向进行介绍。
首当其冲的是大语言模型时代风头无两的策略梯度法——PPO 和 GRPO。这里我们专门使用三个章节介绍 PPO 的基础——策略梯度法、重要性采样和优势函数。当你完成这三节课的学习后,再学习 PPO 和 GRPO 以及 RLHF,就可以很容易理解这些算法看似复杂的形式背后的发展脉络,也会自然明白了为何 GRPO 相对 PPO 做了那样的改变。
此外,我们还覆盖了其他蓬勃发展的方向,如逆向强化学习、离线强化学习等。这些都是在实际业务中落地效果最好的方向。
3.  理论与实践结合,介绍 RL 的主要应用场景,并辅以代码加深理解
作为一门应用学科,只有理论讲解是远远不够的。因此,我们在每节课中都提供了配套代码作为简单示例,加深你对原理的理解。
同时,考虑大家需要在实际工作中使用 RL 的需求,我们在“应用篇”介绍了 RL 在多个领域的应用。包括推荐系统、机器人控制、金融交易、资源调度、自然语言处理、计算机视觉等等,同时我们也为对 RL 开发感兴趣的朋友介绍了 OpenAI Gym 和 Ray 这两大平台。希望这门课可以助力你的职业发展。
当今时代,学习资料已经不稀缺了,但稀缺的是驱动力和行动力。
这个专栏的定位就是对想入门强化学习的朋友做一个冷启,在介绍基本知识技能的同时,尽量激发你的兴趣。同时,严格控制课程的深度和广度,让你在最短的时间内对 RL 有基本了解,并可以上手做项目。
这不是一门速成课,因为 RL 学科无法速成。我们更像一个超级游乐园的导游,带你在短时间内玩遍游乐园最火爆、最热闹的项目,在陪你玩的过程中顺便讲一讲这些项目的注意事项和八卦趣事。提醒你留心一些特定角度的美景,在必要的时刻提醒你拍照留念,在短时间内经济实惠地打卡每一个最上镜的景点。并分享自己之前游玩时踩到的坑和有趣的事。

「我们」是谁?

你好,我是 H 博士,一名有着 10 年经验的 AI 算法工程师。2016 年我入坑强化学习,成为一名 RLer。那时候我翻遍了各大顶会的论文综述,面对每天更新上百篇的 RL 论文,从最初的兴奋逐渐变为后来的迷茫。2018 年我经过大量调研后,写了一篇文章《强化学习路在何方?》,后经朋友推荐发表在了知乎上,今天依旧得到点赞和关注,也让我从侧面切身感受到大家对强化学习的热情。这些年我一直保持对 RL 的关注,也在多个实际项目中应用 RL 方法,有些取得了成功,有些也不尽如人意。现在的我,对于学习 RL 有了新的体会:RL 本质上还是一门应用学科,对于大多数人,我们不仅要关心 RL 的发展路在何方,更要关心自己使用 RL 的路在何方?现在的我,真希望自己可以穿越回 10 年前,对那个面对小山一样高的论文堆迷茫的自己说:“一些方向可以点到为止,一些知识点不必过于死磕,以目标为导向,在仰望星空的同时也要脚踏实地,因为‘路在脚下’”。这句话也送给正在学习这篇文章的你!
这个专栏还有一位讲师,那就是袁从德老师。课程的的完成,离不开袁老师的巨大贡献。袁老师在对 RL 理论以及实践有着深刻的见解,发表过多篇行业论文。同时技术栈极为丰富全面,在广告推荐领域和大语言模型领域均有着多年实战经验,曾任职于阿里、腾讯等互联网一线大厂,目前为 AI 创业公司 CTO。本专栏的代码均出自袁老师之手。也正是在他的鼓励下,我才开始将自己在 RL 的积累整理成文稿,进而考虑发表,呈现在大家面前。

寄语:致每一位即将踏入强化学习游乐园的你

当你点开这个专栏时,或许正和多年前的我们一样,站在强化学习的大门前——既被那些战胜围棋冠军、玩转复杂游戏的 AI 奇迹所吸引,又对“贝尔曼方程”“策略梯度”这些术语感到陌生。请不必焦虑,因为每个 RLer 的起点,都是这样一场“兴奋与迷茫的拉锯战”。
2024 年图灵奖为强化学习正名,2025 年初 DeepSeek-R1 的惊艳表现,让这门曾藏于学术殿堂的学科突然闯入大众视野。但热潮之下,我们更想告诉你:RL 的魅力不在遥不可及的理论高峰,而在从“看懂公式”到“做出成果”的每一步跨越。
这门课虽然不会让你一夜成为专家,却能帮你避开我们曾踩过的坑:不必死磕泛函分析也能理解值迭代的核心,不用通读晦涩的论文也能抓住 PPO 与 GRPO 的演进逻辑。我们会用最直观的例子拆解 MDP 框架,用可运行的代码展示策略梯度的魔力,更会带你看到 RL 在推荐系统、机器人控制里的真实应用——因为真正的学习,永远是“知道原理”加“动手做到”。
如果你是程序员,希望这里的代码示例能让你快速上手;如果你是产品经理,期待这些应用场景能为你打开新思路;如果你只是 AI 爱好者,愿这些故事能让你看懂强化学习的“前世今生”。
最后想说:RL 就像一场没有终点的过山车,既有理论推导的陡峭爬升,也有实战成功的失重快感。不必追求“学完所有知识”,能带着明确的目标前进,就已走在正确的路上。
现在,请系好安全带,我们的游乐园之旅,开始了!
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 强化学习在人工智能领域备受关注,取得了许多重大突破,如DeepSeek-R1的问世和AlphaGo的成功。 2. 强化学习领域的复杂性和学习曲线陡峭,需要注意控制难度,尤其对初学者不太友好。 3. RL涉及众多概念和术语,如值迭代、策略迭代、模型基础等,需要认真学习和理解。 4. 强化学习领域的快速发展,需要关注新领域,但过度专注最新工作可能导致焦虑和无助。 5. RL的理论基础坚如磐石,但各种流派的起落速度很快,需要注意保持学习的平衡。 6. RL的发展对于初学者来说可能会带来困惑和消沉,需要注意调整心态和学习方法. 7. RL在各领域产生了一系列突破,如AlphaGo Zero、AlphaZero和OpenAI Five,展示了其在复杂决策和动态协作中的潜力。 8. 强化学习领域的发展对公司和个人带来了新的挑战和机遇,需要重视和应对。 9. 强化学习的复杂性涉及理论和工程两方面,需要综合考虑并寻求合适的学习和应用方法.

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《强化学习快速入门与实战》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
大纲
固定大纲
“噫吁嚱,危乎高哉!蜀道之难 难于上青天”
“吾生也有涯,而知也无涯。以有涯随无涯,殆已!”
“初极狭,才通人。复行数十步,豁然开朗……寻向所志,遂迷,不复得路。”
课程设计是怎样的?
「我们」是谁?
寄语:致每一位即将踏入强化学习游乐园的你
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部
文章页面操作
MAC
windows
作用
esc
esc
退出沉浸式阅读
shift + f
f11
进入/退出沉浸式
command + ⬆️
home
滚动到页面顶部
command + ⬇️
end
滚动到页面底部
⬅️ (仅针对订阅)
⬅️ (仅针对订阅)
上一篇
➡️ (仅针对订阅)
➡️ (仅针对订阅)
下一篇
command + j
page up
向下滚动一屏
command + k
page down
向上滚动一屏
p
p
音频播放/暂停
j
j
向下滚动一点
k
k
向上滚动一点
空格
空格
向下滚动一屏
播放器操作
MAC
windows
作用
esc
esc
退出全屏
⬅️
⬅️
快退
➡️
➡️
快进
空格
空格
视频播放/暂停(视频全屏时生效)