极客时间
21天打卡行动 25/21
<<人工智能基础课27>> 困知勉行者勇:深度强化学习
回答老师问题:
深度强化学习的三种实现方式各具特色,各有千秋,那么能不能将它们优势互补,从而发挥更大的作用呢?
人工智能领域大多应用的应该是深度强化学习吧;
今日所学:
1,强化学习(reinforcement learning)实质上是智能系统从环境到行为的学习过程,智能体通过与环境的互动来改善自身的行为,改善准则是使某个累积奖励函数最大化
2,强化学习的特点在于由环境提供的强化信号只是对智能体所产生动作的好坏作一种评价,和监督学习中清晰明确的判定结果相比,环境的反馈只能提供很少的信息。所以强化学习需要在探索未知领域和遵从已有经验之间找到平衡。一方面,智能体要在陌生的环境中不断摸着石头过河,来探索新行为带来的奖励;另一方面,智能体也要避免在探索中玩儿脱,不能放弃根据已有经验来踏踏实实地获得最大收益的策略;
3,描述强化学习最常用的模式是马尔可夫决策过程(Markov decision process)。马尔可夫决策过程是由离散时间随机控制的过程;
4,深度强化学习(deep reinforcement learning)是深度学习和强化学习的结合,它将深度学习的感知能力和强化学习的决策能力熔于一炉,用深度学习的运行机制达到强化学习的优化目标,从而向通用人工智能迈进;
5,深度强化学习方法可以分成三类,分别是基于价值、基于策略和基于模型的深度强化学习。
6,基于价值(value-based)的深度强化学习的基本思路是建立一个价值函数的表示;
7,在没有“深度”的强化学习中,使用价值函数的算法叫做 Q 学习算法(Q-learning);
8,基于策略(strategy-based)的深度强化学习的基本思路就是直接搜索能够使未来奖励最大化的最优策略;
9,策略梯度方法的思想是直接使用逼近函数来近似表示和优化策略,通过增加总奖励较高情况的出现概率来逼近最优策略。其运算方式和深度学习中的随机梯度下降法类似,都是在负梯度的方向上寻找最值,以优化深度网络的参数。
10,一种实用的策略梯度方法是无监督强化辅助学习(UNsupervised REinforcement and Auxiliary Learning),简称UNREAL 算法。UNREAL 算法的核心是行动者 - 评论家(actor-critic)机制,两者分别代表两个不同的网络。
11,基于模型(model-based)的深度强化学习的基本思路是构造关于环境的模型,再用这个模型来指导决策。
重点提纯:
1,深度强化学习是深度学习和强化学习的结合,有望成为实现通用人工智能的关键技术;2,基于价值的深度强化学习的基本思路是建立价值函数的表示,通过优化价值函数得到最优策略;
3,基于策略的深度强化学习的基本思路是直接搜索能够使未来奖励最大化的最优策略;
4,基于模型的深度强化学习的基本思路是构造关于环境的转移概率模型,再用这个模型指导策略。
展开