DeepMind推出泛化强化学习算法AlphaZero
极客时间编辑部
讲述:丁婵大小:1.43M时长:03:08
近日,DeepMind 悄悄放出了一篇新论文,介绍了一个新的算法模型“AlphaZero”。
AlphaZero 去掉了名字里代表围棋的“Go”,它是一个更通用的强化学习模型,不仅会下围棋,还会下国际象棋、日本象棋等,而且据介绍,它的围棋水平也要高于此前的 AlphaGo Zero。
AlphaZero 是 AlphaGo Zero 的通用化进化版本,它继续保持了 AlphaGo Zero 中不需要人工特征、结合蒙特卡洛树搜索、利用深度神经网络从零开始进行强化学习的特点,然后更新网络参数,减小网络估计的比赛结果和实际结果之间的误差,同时最大化策略网络输出动作和蒙特卡洛树搜索可能性之间的相似度。
AlphaZero 与 AlphaGo Zero 之间的具体区别有以下几个:
AlphaGo Zero 会预计胜率,然后优化胜率,其中只考虑胜、负两种结果;AlphaZero 会估计比赛结果,然后优化达到预计的结果的概率,其中包含了平局甚至别的一些可能的结果。
由于围棋规则具有旋转和镜像不变性,而国际象棋和日本象棋都是不对称的,所以 AlphaGo Zero 所用的基于对称性的方法就不能再用了,而 AlphaZero 并不增强训练数据,也不会在蒙特卡洛树搜索中变换棋局。
在 AlphaGo Zero 中,自我对局的棋局是由所有之前的迭代过程中出现的表现最好的一个版本生成的。相比之下,AlphaZero 始终都只有一个持续优化的神经网络,自我对局的棋局也都是由具有最新参数的网络生成的,不再像原来那样等待出现一个“表现最好的版本”之后再评估和迭代。这实际上增大了训练出一个不好的结果的风险。
AlphaGo Zero 中搜索部分的超参数是通过贝叶斯优化得到的。AlphaZero 中直接对所有的棋类使用了同一套超参数,不再对每种不同的棋做单独的调节。
据论文介绍,以 Elo 分数为标准,AlphaZero 在完成全部的 70 万步训练之前,就分别超过了此前最好的国际象棋程序 Stockfish、日本象棋程序 Elmo 和围棋程序 AlphaGo Zero。
在人类把棋类作为人工智能研究的重要关卡以来的几十年间,研究者们开发出的下棋算法几乎总是避免不了人工特征和为具体的棋类做的特定性优化。
如今,完全无需人工特征、无需任何人类棋谱、甚至无需任何特定优化的通用强化学习算法 AlphaZero 终于问世,而且只需要几个小时的训练时间就可以超越此前最好的算法甚至人类世界冠军,这可以说是算法和计算资源的胜利,更是人类顶尖的研究成果。
DeepMind 愿景中能解决各种问题的通用 AI,看起来似乎也离人们越来越近了。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(1)
- 最新
- 精选
- pob777会不会越来越危险
收起评论