极客视点
极客时间编辑部
极客时间编辑部
113231 人已学习
免费领取
课程目录
已完结/共 3766 讲
2020年09月 (90讲)
时长 05:33
2020年08月 (93讲)
2020年07月 (93讲)
时长 05:51
2020年06月 (90讲)
2020年05月 (93讲)
2020年04月 (90讲)
2020年03月 (92讲)
时长 04:14
2020年02月 (87讲)
2020年01月 (91讲)
时长 00:00
2019年12月 (93讲)
2019年11月 (89讲)
2019年10月 (92讲)
2019年09月 (90讲)
时长 00:00
2019年08月 (91讲)
2019年07月 (92讲)
时长 03:45
2019年06月 (90讲)
2019年05月 (99讲)
2019年04月 (114讲)
2019年03月 (122讲)
2019年02月 (102讲)
2019年01月 (104讲)
2018年12月 (98讲)
2018年11月 (105讲)
时长 01:23
2018年10月 (123讲)
时长 02:06
2018年09月 (119讲)
2018年08月 (123讲)
2018年07月 (124讲)
2018年06月 (119讲)
时长 02:11
2018年05月 (124讲)
时长 03:16
2018年04月 (120讲)
2018年03月 (124讲)
2018年02月 (112讲)
2018年01月 (124讲)
时长 02:30
时长 02:34
2017年12月 (124讲)
时长 03:09
2017年11月 (120讲)
2017年10月 (86讲)
时长 03:18
时长 03:31
时长 04:25
极客视点
15
15
1.0x
00:00/03:15
登录|注册

DeepMind推出分布式训练框架IMPALA

讲述:丁婵大小:1.48M时长:03:15
深度强化学习(DeepRL)在很多任务中都取得了成功,从机器人的连续控制问题到围棋等游戏。不过这些领域中的进步还限制为单个任务,即在单个任务中对智能体进行调整和训练。
DeepMind 最近提出的 IMPALA 开始尝试利用单智能体同时处理多个任务,具有强大的可扩展性,同时也展示了积极的迁移性质。
与新架构同时提出的还有任务集合 DMLab-30,DMLab-30 是使用开源强化学习环境 DeepMind Lab 设计出的新型任务集合。任意 DeepRL 研究者都可以使用这些环境,在大量有趣的任务或多任务设置中测试系统。
这些任务被设计得尽可能多样化。它们具备不同的目标,有的是学习,有的是记忆,有的则是导航。此外,它们的视觉效果和环境设置也各不相同。
但是,从动作和观察空间来看,任务的环境基本上是一样的,允许单个智能体在该高度变化的任务集合的每一个环境中进行训练。
为了解决智能体在 DMLab-30 中进行训练的问题,DeepMind 开发了一种新型分布式智能体 IMPALA,它利用高效的 TensorFlow 分布式架构最大化数据吞吐量。
IMPALA 受流行的 A3C 架构的启发,A3C 架构使用多个分布式 actor 来学习智能体的参数。在此类模型中,每个 actor 使用策略参数的克隆在环境中动作。Actor 会周期性地暂停探索来共享梯度。
不过,在 IMPALA 中,不会用 actor 来计算梯度。它们只是用来收集经验,这些经验会传递给计算梯度的中央学习器,从而得到一个拥有独立 actor 和 learner 的模型。
现代计算系统有诸多优势,IMPALA 可以利用其优势,用单个 learner 或多个 learner 进行同步更新。以这种方式将学习和行动分离,有助于提高整个系统的吞吐量。
然而,将行动与学习分离会导致 actor 中的策略落后于 learner。为了弥补这一差异,IMPALA 中引入了 V-trace,一个条理化的离策略 actor critic 算法,它可以对 actor 落后的轨迹进行补偿。
相对于类似智能体而言,IMPALA 的优化模型可以处理一到两个数量级的更多经验,使得在极具挑战的环境中进行学习成为可能。
数据显示,IMPALA 的速度明显高于当前几种流行的 actor-critic 方法,此外,使用 IMPALA 的吞吐量增长与 actor 和 learner 的增加呈线性关系,这意味着分布式智能体模型和 V-trace 算法都能支持极大规模的实验,支持的规模甚至可以达到上千台机器。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
免费领取
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
10
沉浸
阅读
分享
手机端
快捷键
回顶部