01｜强化学习概述：从马尔可夫决策过程到智能体与环境交互

H 博士 & 袁从德

欢迎来到强化学习的入门课程！本节课将带你走进强化学习的世界，通过清晰的概念讲解、直观的案例分析和实用的代码演示，帮助你建立对强化学习的基础认知。完成本节课的学习后，你将能够：
理解强化学习的核心概念、基本框架和价值
掌握马尔可夫决策过程的数学建模方法
通过代码示例直观感受强化学习的工作流程
一、强化学习的基础知识1.1 什么是强化学习你可能会好奇，机器是如何像人类一样通过“尝试 - 反馈”来学习技能的？强化学习（Reinforcement Learning，RL）正是这样一种机器学习技术——它能训练程序在特定环境中通过不断尝试，学会做出最优决策以实现目标。
强化学习是一种植根于试错学习（Trial-and-error learning）思想的智能化方法，其核心逻辑是通过与环境的持续交互不断优化系统决策能力，而这一技术的形成与发展走过了漫长的演进历程。
“强化”这一概念的起源可追溯至 1927 年，最初被用于描述巴甫洛夫条件反射实验中动物行为模式的增强现象。直到 20 世纪 60 年代，“强化”及“强化学习”等术语才正式进入工程领域，被用于定义基于试错机制的学习方法。进入 20 世纪 80 年代，强化学习算法迎来关键突破——在马尔可夫决策过程（Markov Decision Processes，MDP）框架下逐步构建起相对严谨的数学理论基础，为技术的规范化发展奠定了核心支撑，并在实际应用中开始展现突破性价值。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
法语
德语
日语
韩语
俄语
西班牙语
解释
总结

1. 强化学习是一种机器学习技术，通过与环境的持续交互不断优化系统决策能力，训练程序在特定环境中通过不断尝试，学会做出最优决策以实现目标。 2. 马尔可夫决策过程（MDP）是强化学习的基本框架，用五元组 $(S,A,P,R,\gamma)$ 描述，为强化学习提供了数学建模的“通用语言”，让各种复杂的决策问题转化为统一的数学形式。 3. 价值函数用于评估长期收益，解决延迟奖励问题，通过定义价值函数来表明当前状态下策略的长期影响。 4. 价值迭代算法是强化学习中用于求解最优价值函数和最优策略的重要算法，通过不断更新价值函数，使其收敛到最优价值函数。 5. 价值迭代算法通过状态转移函数和奖励函数，以及折扣因子的引入，实现了对最优策略的求解和展示。 6. 在网格世界例子中，如果我们希望机器人不仅要到达目标，还要尽可能收集路上的“金币”（增加中间奖励），需要修改代码以考虑这一目标。 7. 折扣因子 $\gamma$ 对学习过程具有重要影响，当 $\gamma=0$ 时，只关注即时奖励，而当 $\gamma=1$ 时，将长期奖励视为同等重要。 8. 强化学习的核心是学习如何在与环境的交互中做出最优决策，而马尔可夫决策过程为这种学习提供了坚实的数学基础。 9. 下一节课将深入探讨更复杂的强化学习算法及其应用场景，拓展对强化学习的认识。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《强化学习快速入门与实战》，新⼈⾸单¥59

立即购买

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论