深度强化学习（DeepRL）在很多任务中都取得了成功，从机器人的连续控制问题到围棋等游戏。不过这些领域中的进步还限制为单个任务，即在单个任务中对智能体进行调整和训练。
DeepMind 最近提出的 IMPALA 开始尝试利用单智能体同时处理多个任务，具有强大的可扩展性，同时也展示了积极的迁移性质。
与新架构同时提出的还有任务集合 DMLab-30，DMLab-30 是使用开源强化学习环境 DeepMind Lab 设计出的新型任务集合。任意 DeepRL 研究者都可以使用这些环境，在大量有趣的任务或多任务设置中测试系统。
这些任务被设计得尽可能多样化。它们具备不同的目标，有的是学习，有的是记忆，有的则是导航。此外，它们的视觉效果和环境设置也各不相同。
但是，从动作和观察空间来看，任务的环境基本上是一样的，允许单个智能体在该高度变化的任务集合的每一个环境中进行训练。
为了解决智能体在 DMLab-30 中进行训练的问题，DeepMind 开发了一种新型分布式智能体 IMPALA，它利用高效的 TensorFlow 分布式架构最大化数据吞吐量。
IMPALA 受流行的 A3C 架构的启发，A3C 架构使用多个分布式 actor 来学习智能体的参数。在此类模型中，每个 actor 使用策略参数的克隆在环境中动作。Actor 会周期性地暂停探索来共享梯度。
不过，在 IMPALA 中，不会用 actor 来计算梯度。它们只是用来收集经验，这些经验会传递给计算梯度的中央学习器，从而得到一个拥有独立 actor 和 learner 的模型。
现代计算系统有诸多优势，IMPALA 可以利用其优势，用单个 learner 或多个 learner 进行同步更新。以这种方式将学习和行动分离，有助于提高整个系统的吞吐量。
然而，将行动与学习分离会导致 actor 中的策略落后于 learner。为了弥补这一差异，IMPALA 中引入了 V-trace，一个条理化的离策略 actor critic 算法，它可以对 actor 落后的轨迹进行补偿。
相对于类似智能体而言，IMPALA 的优化模型可以处理一到两个数量级的更多经验，使得在极具挑战的环境中进行学习成为可能。
数据显示，IMPALA 的速度明显高于当前几种流行的 actor-critic 方法，此外，使用 IMPALA 的吞吐量增长与 actor 和 learner 的增加呈线性关系，这意味着分布式智能体模型和 V-trace 算法都能支持极大规模的实验，支持的规模甚至可以达到上千台机器。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

该免费文章来自《极客视点》，如需阅读全部文章，
请先领取课程

免费领取

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论



显示
设置



留言





沉浸
阅读





手机端



快捷键



回顶部