人工智能基础课
王天一
工学博士,副教授
立即订阅
12221 人已学习
课程目录
已完结 58 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 人工智能:新时代的必修课
免费
数学基础 (7讲)
01 数学基础 | 九层之台,起于累土:线性代数
02 数学基础 | 月有阴晴圆缺,此事古难全:概率论
03 数学基础 | 窥一斑而知全豹:数理统计
04 数学基础 | 不畏浮云遮望眼:最优化方法
05 数学基础 | 万物皆数,信息亦然:信息论
06 数学基础 | 明日黄花迹难寻:形式逻辑
(课外辅导)数学基础 | 拓展阅读参考书
机器学习 (10讲)
07 机器学习 | 数山有路,学海无涯:机器学习概论
08 机器学习 | 简约而不简单:线性回归
09 机器学习 | 大道至简:朴素贝叶斯方法
10 机器学习 | 衍化至繁:逻辑回归
11 机器学习 | 步步为营,有章可循:决策树
12 机器学习 | 穷则变,变则通:支持向量机
13 机器学习 | 三个臭皮匠,赛过诸葛亮:集成学习
14 机器学习 | 物以类聚,人以群分:聚类分析
15 机器学习 | 好钢用在刀刃上:降维学习
(课外辅导)机器学习 | 拓展阅读参考书
人工神经网络 (7讲)
16 人工神经网络 | 道法自然,久藏玄冥:神经网络的生理学背景
17 人工神经网络 | 一个青年才俊的意外死亡:神经元与感知器
18 人工神经网络 | 左手信号,右手误差:多层感知器
19 人工神经网络 | 各人自扫门前雪:径向基函数神经网络
20 人工神经网络 | 看不见的手:自组织特征映射
21 人工神经网络 | 水无至清,人莫至察:模糊神经网络
(课外辅导)人工神经网络 | 拓展阅读参考书
深度学习 (7讲)
22 深度学习 | 空山鸣响,静水流深:深度学习概述
23 深度学习 | 前方有路,未来可期:深度前馈网络
24 深度学习 | 小树不修不直溜:深度学习中的正则化
25 深度学习 | 玉不琢不成器:深度学习中的优化
26 深度学习 | 空竹里的秘密:自编码器
27 深度学习 | 困知勉行者勇:深度强化学习
(课外辅导)深度学习 | 拓展阅读参考书
深度学习框架下的神经网络 (5讲)
28 深度学习框架下的神经网络 | 枯木逢春:深度信念网络
29 深度学习框架下的神经网络 | 见微知著:卷积神经网络
30 深度学习框架下的神经网络 | 昨日重现:循环神经网络
31 深度学习框架下的神经网络 | 左右互搏:生成式对抗网络
32 深度学习框架下的神经网络 | 三重门:长短期记忆网络
深度学习之外的人工智能 (4讲)
33 深度学习之外的人工智能 | 一图胜千言:概率图模型
34 深度学习之外的人工智能 | 乌合之众的逆袭:集群智能
35 深度学习之外的人工智能 | 授人以鱼不如授人以渔:迁移学习
36 深度学习之外的人工智能 | 滴水藏海:知识图谱
应用场景 (4讲)
37 应用场景 | 你是我的眼:计算机视觉
38 应用场景 | 嘿, Siri:语音处理
39 应用场景 | 心有灵犀一点通:对话系统
40 应用场景 | 数字巴别塔:机器翻译
加餐 (5讲)
课外谈 | “人工智能基础课”之二三闲话
推荐阅读 | 我与人工智能的故事
直播回顾 | 机器学习必备的数学基础
第2季回归 | 这次我们来聊聊机器学习
新书 | 《裂变:秒懂人工智能的基础课》
复习课 (7讲)
一键到达 | 数学基础复习课
一键到达 | 机器学习复习课
一键到达 | 人工神经网络复习课
一键到达 | 深度学习复习课
一键到达 | 深度学习框架下的神经网络复习课
一键到达 | 深度学习之外的人工智能复习课
一键到达 | 应用场景复习课
结束语 (1讲)
结课 | 溯洄从之,道阻且长
人工智能基础课
登录|注册

27 深度学习 | 困知勉行者勇:深度强化学习

王天一 2018-02-08
在 2017 年新鲜出炉的《麻省理工科技评论》十大突破性技术中,“强化学习”榜上有名。如果把时钟调回到一年多之前的围棋人机大战,彼时的深度强化学习在 AlphaGo 对李世乭的横扫中就已经初露峥嵘。而在进化版 AlphaGo Zero 中,深度强化学习更是大放异彩,AlphaGo Zero 之所以能够摆脱对人类棋谱的依赖,其原因就在于使用纯粹的深度强化学习进行端到端的自我对弈,从而超越了人类的围棋水平。
要介绍深度强化学习就不得不先说一说强化学习的故事。相比于纯人造的监督学习和无监督学习,强化学习的思想根源来自于认知科学。20 世纪初,美国心理学家爱德华·桑代克在对教育过程的研究中提出了强化学习的原始理论,而作为人工智能方法的强化学习则力图使计算机在没有明确指导的情况下实现自主学习,完成从数据到决策的转变。
强化学习(reinforcement learning)实质上是智能系统从环境到行为的学习过程,智能体通过与环境的互动来改善自身的行为,改善准则是使某个累积奖励函数最大化。具体来说,强化学习是基于环境反馈实现决策制定的通用框架,根据不断试错得到来自环境的奖励或者惩罚,从而实现对趋利决策信念的不断增强。它强调在与环境的交互过程中实现学习,产生能获得最大利益的习惯性行为。
强化学习的特点在于由环境提供的强化信号只是对智能体所产生动作的好坏作一种评价,和监督学习中清晰明确的判定结果相比,环境的反馈只能提供很少的信息。所以强化学习需要在探索未知领域和遵从已有经验之间找到平衡。一方面,智能体要在陌生的环境中不断摸着石头过河,来探索新行为带来的奖励;另一方面,智能体也要避免在探索中玩儿脱,不能放弃根据已有经验来踏踏实实地获得最大收益的策略。
描述强化学习最常用的模式是马尔可夫决策过程(Markov decision process)。马尔可夫决策过程是由离散时间随机控制的过程,可以用以下的四元组来定义
:由智能体和环境所处的所有可能状态构成的有限集合
:由智能体的所有可能动作构成的有限集合
:智能体在 时刻做出的动作 使马尔可夫过程的状态从 时刻的 转移为 时刻的 的概率
:智能体通过动作 使状态从 转移到 得到的实时奖励
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《人工智能基础课》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(4)

  • 林彦
    据说AlphaGo Zero是将策略网络和价值网络合并成一个神经网络。

    作者回复: 是的,而且只用到强化学习。

    2018-02-08
    1
  • 历尽千帆
    经验回放能够克服数据之间的相关性,避免网络收敛到局部极小值。
    为什么经验回放能够做到这些呢?希望老师解答

    作者回复: 经验回放类似于统计学里的重采样,其实就是数据重复使用。克服相关性主要说的是时域相关性,回放时不能按顺序原封不动地拿来,而是要随机抽取。至于避免收敛到局部极小值,确实存在这样的好处,但背后的机制还需要更深的研究。

    2019-02-19
  • Andy
    王老师您好,上述强化学习中的Pa 是智能体在 t时刻做出的动作 a 使马尔可夫过程的状态从 t时刻的 ss 转移为 t+1 时刻的 s′的概率

    请问这个概率是否包含智能体选择动作a的概率呢?还是说每次选择的都是特定的a?

    作者回复: 每次选择都是特定的动作a,当选择的动作不同时,计算出来的概率也是不同的。

    2018-04-11
  • 大聪小才
    突破奇点后,比人还聪明的agent,一定掌握了上文中的招数。如果我们想让一个agent降低一点"智商",引出一个问题:上文中的招数可逆吗?

    作者回复: 这两个问题可以等到造出老鼠水平的智能体再来讨论,人类的感知和决策方式我觉得不能简单地归到算法的范畴,即使真是算法,其复杂度也远超想象。

    2018-02-15
收起评论
4
返回
顶部