DeepMind推出分布式训练框架IMPALA
极客时间编辑部
讲述:丁婵大小:1.48M时长:03:15
深度强化学习(DeepRL)在很多任务中都取得了成功,从机器人的连续控制问题到围棋等游戏。不过这些领域中的进步还限制为单个任务,即在单个任务中对智能体进行调整和训练。
DeepMind 最近提出的 IMPALA 开始尝试利用单智能体同时处理多个任务,具有强大的可扩展性,同时也展示了积极的迁移性质。
与新架构同时提出的还有任务集合 DMLab-30,DMLab-30 是使用开源强化学习环境 DeepMind Lab 设计出的新型任务集合。任意 DeepRL 研究者都可以使用这些环境,在大量有趣的任务或多任务设置中测试系统。
这些任务被设计得尽可能多样化。它们具备不同的目标,有的是学习,有的是记忆,有的则是导航。此外,它们的视觉效果和环境设置也各不相同。
但是,从动作和观察空间来看,任务的环境基本上是一样的,允许单个智能体在该高度变化的任务集合的每一个环境中进行训练。
为了解决智能体在 DMLab-30 中进行训练的问题,DeepMind 开发了一种新型分布式智能体 IMPALA,它利用高效的 TensorFlow 分布式架构最大化数据吞吐量。
IMPALA 受流行的 A3C 架构的启发,A3C 架构使用多个分布式 actor 来学习智能体的参数。在此类模型中,每个 actor 使用策略参数的克隆在环境中动作。Actor 会周期性地暂停探索来共享梯度。
不过,在 IMPALA 中,不会用 actor 来计算梯度。它们只是用来收集经验,这些经验会传递给计算梯度的中央学习器,从而得到一个拥有独立 actor 和 learner 的模型。
现代计算系统有诸多优势,IMPALA 可以利用其优势,用单个 learner 或多个 learner 进行同步更新。以这种方式将学习和行动分离,有助于提高整个系统的吞吐量。
然而,将行动与学习分离会导致 actor 中的策略落后于 learner。为了弥补这一差异,IMPALA 中引入了 V-trace,一个条理化的离策略 actor critic 算法,它可以对 actor 落后的轨迹进行补偿。
相对于类似智能体而言,IMPALA 的优化模型可以处理一到两个数量级的更多经验,使得在极具挑战的环境中进行学习成为可能。
数据显示,IMPALA 的速度明显高于当前几种流行的 actor-critic 方法,此外,使用 IMPALA 的吞吐量增长与 actor 和 learner 的增加呈线性关系,这意味着分布式智能体模型和 V-trace 算法都能支持极大规模的实验,支持的规模甚至可以达到上千台机器。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论