极客视点
极客时间编辑部
极客时间编辑部
113234 人已学习
免费领取
课程目录
已完结/共 3766 讲
2020年09月 (90讲)
时长 05:33
2020年08月 (93讲)
2020年07月 (93讲)
时长 05:51
2020年06月 (90讲)
2020年05月 (93讲)
2020年04月 (90讲)
2020年03月 (92讲)
时长 04:14
2020年02月 (87讲)
2020年01月 (91讲)
时长 00:00
2019年12月 (93讲)
2019年11月 (89讲)
2019年10月 (92讲)
2019年09月 (90讲)
时长 00:00
2019年08月 (91讲)
2019年07月 (92讲)
时长 03:45
2019年06月 (90讲)
2019年05月 (99讲)
2019年04月 (114讲)
2019年03月 (122讲)
2019年02月 (102讲)
2019年01月 (104讲)
2018年12月 (98讲)
2018年11月 (105讲)
时长 01:23
2018年10月 (123讲)
时长 02:06
2018年09月 (119讲)
2018年08月 (123讲)
2018年07月 (124讲)
2018年06月 (119讲)
时长 02:11
2018年05月 (124讲)
时长 03:16
2018年04月 (120讲)
2018年03月 (124讲)
2018年02月 (112讲)
2018年01月 (124讲)
时长 02:30
时长 02:34
2017年12月 (124讲)
时长 03:09
2017年11月 (120讲)
2017年10月 (86讲)
时长 03:18
时长 03:31
时长 04:25
极客视点
15
15
1.0x
00:00/02:03
登录|注册

谷歌重磅开源强化学习框架Dopamine

讲述:丁婵大小:957.21K时长:02:03
最近,OpenAI 在 Dota 2 上的表现,让强化学习又火了一把,但是 OpenAI 的强化学习训练环境却屡遭抱怨。近日,谷歌推出了一款全新的开源强化学习框架 Dopamine,该框架基于 TensorFlow,主打灵活性、稳定性、可重复性,能够提供快速的基准测试。
该框架的灵感来自于大脑中激励行为的主要组成部分多巴胺(Dopamine),并反映了神经科学与强化学习研究之间的密切联系,旨在支持能够推动重大发现的测试性研究。
据介绍,该框架的主要特性包括:
1. 易用性
清晰和简洁是这个框架的两个关键因素,谷歌提供的代码非常紧凑(大约 15 个 Python 文件),并且有详细的文档。这是基于 ALE(一个成熟、已经被充分了解的基准)学习环境和四个基于值的代理的简化版本,以及隐式分位数网络代理(刚在上个月的国际机器学习大会上发布)实现的。谷歌希望这种简洁的特性,能够让研究人员了解代理的内部运作,并尝试新的想法。
2. 可重现性
谷歌非常关注可重现性在强化学习研究中的作用,他们的代码通过了完整的测试覆盖,这些测试用例也可以作为某种形式的文档使用。此外,谷歌的实验框架遵循了利用 ALE 标准化进行经验评估的推荐方法。
3. 基准测试
对于研究人员来说,能够根据已有的方法,快速对想法进行基准测试是非常重要的。因此,谷歌以 Python pickle 文件和 JSON 数据文件的形式,提供了受 ALE 学习环境支持的 60 个游戏的完整训练数据。此外,他们还提供了一个网站,可以在上面快速查看所有的训练运行情况。
谷歌希望其框架的灵活性和易用性,能够帮助研究者尝试新的想法。谷歌已经在研究中使用了该框架,它可以使很多想法快速迭代,并具备很强的灵活性。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
免费领取
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
29
沉浸
阅读
分享
手机端
快捷键
回顶部