谷歌重磅开源强化学习框架Dopamine
极客时间编辑部
讲述:丁婵大小:957.21K时长:02:03
最近,OpenAI 在 Dota 2 上的表现,让强化学习又火了一把,但是 OpenAI 的强化学习训练环境却屡遭抱怨。近日,谷歌推出了一款全新的开源强化学习框架 Dopamine,该框架基于 TensorFlow,主打灵活性、稳定性、可重复性,能够提供快速的基准测试。
该框架的灵感来自于大脑中激励行为的主要组成部分多巴胺(Dopamine),并反映了神经科学与强化学习研究之间的密切联系,旨在支持能够推动重大发现的测试性研究。
据介绍,该框架的主要特性包括:
1. 易用性
清晰和简洁是这个框架的两个关键因素,谷歌提供的代码非常紧凑(大约 15 个 Python 文件),并且有详细的文档。这是基于 ALE(一个成熟、已经被充分了解的基准)学习环境和四个基于值的代理的简化版本,以及隐式分位数网络代理(刚在上个月的国际机器学习大会上发布)实现的。谷歌希望这种简洁的特性,能够让研究人员了解代理的内部运作,并尝试新的想法。
2. 可重现性
谷歌非常关注可重现性在强化学习研究中的作用,他们的代码通过了完整的测试覆盖,这些测试用例也可以作为某种形式的文档使用。此外,谷歌的实验框架遵循了利用 ALE 标准化进行经验评估的推荐方法。
3. 基准测试
对于研究人员来说,能够根据已有的方法,快速对想法进行基准测试是非常重要的。因此,谷歌以 Python pickle 文件和 JSON 数据文件的形式,提供了受 ALE 学习环境支持的 60 个游戏的完整训练数据。此外,他们还提供了一个网站,可以在上面快速查看所有的训练运行情况。
谷歌希望其框架的灵活性和易用性,能够帮助研究者尝试新的想法。谷歌已经在研究中使用了该框架,它可以使很多想法快速迭代,并具备很强的灵活性。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论