极客时间-轻松学习，高效学习-极客邦

林彦

2018-02-08

据说AlphaGo Zero是将策略网络和价值网络合并成一个神经网络。

作者回复: 是的，而且只用到强化学习。



 1
Geek_59

2020-01-12

极客时间
21天打卡行动 25/21
<<人工智能基础课27>> 困知勉行者勇：深度强化学习
回答老师问题:
深度强化学习的三种实现方式各具特色，各有千秋，那么能不能将它们优势互补，从而发挥更大的作用呢？
人工智能领域大多应用的应该是深度强化学习吧;
今日所学:
1,强化学习（reinforcement learning）实质上是智能系统从环境到行为的学习过程，智能体通过与环境的互动来改善自身的行为，改善准则是使某个累积奖励函数最大化
2,强化学习的特点在于由环境提供的强化信号只是对智能体所产生动作的好坏作一种评价，和监督学习中清晰明确的判定结果相比，环境的反馈只能提供很少的信息。所以强化学习需要在探索未知领域和遵从已有经验之间找到平衡。一方面，智能体要在陌生的环境中不断摸着石头过河，来探索新行为带来的奖励；另一方面，智能体也要避免在探索中玩儿脱，不能放弃根据已有经验来踏踏实实地获得最大收益的策略;
3,描述强化学习最常用的模式是马尔可夫决策过程（Markov decision process）。马尔可夫决策过程是由离散时间随机控制的过程;
4,深度强化学习（deep reinforcement learning）是深度学习和强化学习的结合，它将深度学习的感知能力和强化学习的决策能力熔于一炉，用深度学习的运行机制达到强化学习的优化目标，从而向通用人工智能迈进;
5,深度强化学习方法可以分成三类，分别是基于价值、基于策略和基于模型的深度强化学习。
6,基于价值（value-based）的深度强化学习的基本思路是建立一个价值函数的表示;
7,在没有“深度”的强化学习中，使用价值函数的算法叫做 Q 学习算法（Q-learning）;
8,基于策略（strategy-based）的深度强化学习的基本思路就是直接搜索能够使未来奖励最大化的最优策略;
9,策略梯度方法的思想是直接使用逼近函数来近似表示和优化策略，通过增加总奖励较高情况的出现概率来逼近最优策略。其运算方式和深度学习中的随机梯度下降法类似，都是在负梯度的方向上寻找最值，以优化深度网络的参数。
10,一种实用的策略梯度方法是无监督强化辅助学习（UNsupervised REinforcement and Auxiliary Learning），简称UNREAL 算法。UNREAL 算法的核心是行动者 - 评论家（actor-critic）机制，两者分别代表两个不同的网络。
11,基于模型（model-based）的深度强化学习的基本思路是构造关于环境的模型，再用这个模型来指导决策。
重点提纯:
1,深度强化学习是深度学习和强化学习的结合，有望成为实现通用人工智能的关键技术；2,基于价值的深度强化学习的基本思路是建立价值函数的表示，通过优化价值函数得到最优策略；
3,基于策略的深度强化学习的基本思路是直接搜索能够使未来奖励最大化的最优策略；
4,基于模型的深度强化学习的基本思路是构造关于环境的转移概率模型，再用这个模型指导策略。

展开




历尽千帆

2019-02-19

经验回放能够克服数据之间的相关性，避免网络收敛到局部极小值。
为什么经验回放能够做到这些呢？希望老师解答

作者回复: 经验回放类似于统计学里的重采样，其实就是数据重复使用。克服相关性主要说的是时域相关性，回放时不能按顺序原封不动地拿来，而是要随机抽取。至于避免收敛到局部极小值，确实存在这样的好处，但背后的机制还需要更深的研究。




Andy

2018-04-11

王老师您好，上述强化学习中的Pa 是智能体在 t时刻做出的动作 a 使马尔可夫过程的状态从 t时刻的 ss 转移为 t+1 时刻的 s′的概率

请问这个概率是否包含智能体选择动作a的概率呢？还是说每次选择的都是特定的a?

作者回复: 每次选择都是特定的动作a，当选择的动作不同时，计算出来的概率也是不同的。




大聪小才

2018-02-15

突破奇点后，比人还聪明的agent，一定掌握了上文中的招数。如果我们想让一个agent降低一点"智商"，引出一个问题:上文中的招数可逆吗？

作者回复: 这两个问题可以等到造出老鼠水平的智能体再来讨论，人类的感知和决策方式我觉得不能简单地归到算法的范畴，即使真是算法，其复杂度也远超想象。



