151 | 精读AlphaGo Zero论文
洪亮劼
该思维导图由 AI 生成,仅供参考
长期以来,利用人工智能技术挑战人类的一些富有智慧的项目,例如象棋、围棋、对话等等都被看做人工智能技术前进的重要参照。人工智能技术到底是不是能够带来“拟人”的思维和决策能力,在某种意义上成了衡量人工智能水平以及整个行业发展的试金石。
在这些项目中,围棋可以说是一个难度很大的项目,更是饱受关注。一方面,围棋的走棋可能性非常多,且棋局变化多端,这似乎给计算机算法带来了很大的困难。另一方面,围棋在一些国家和地区(比如中国、日本和韩国)不仅仅是一个智力竞技项目,更有一系列理念、人格等全方位的配套文化概念,使得人们对此产生怀疑,人工智能模型和算法是否能够真正学习到有价值的信息,而不仅仅是模拟人的行为。
2015 年,来自谷歌 DeepMind 团队的 AlphaGo 打败了职业二段樊麾,在这之后短短两年的时间里,该团队的人工智能技术迅猛发展,不仅以 4 比 1 击败韩国的李世石九段,更是在今年战胜了即时世界排名第一的柯杰,可谓战胜了被誉为“人类智慧皇冠”的围棋项目。
前段时间,DeepMind 团队在《自然》杂志上发表了 AlphaGo 的最新研究成果,AlphaGo Zero,这项技术更是把人工智能在围棋上的应用推向了一个新高度,可以说是利用计算机算法把围棋的棋艺发展到了一个人类之前无法想象的阶段。
今天,我就来带你认真剖析一下这篇发表在《自然》杂志上的名为《不依靠人类知识掌握围棋》(Mastering the Game of Go without Human Knowledge)的论文 。标题中的不依靠人类知识当然有一点夸张,不过这也正是这篇论文的核心思想,那就是仅用少量甚至不用人类的数据来驱动人工智能算法。在之前的很多人工智能模型和算法来看,这是一个巨大的挑战。
作者群信息介绍
文章共有 17 位作者,都来自伦敦的谷歌 DeepMind 团队。AlphaGo 的第一篇论文也是发表在《自然》杂志,当时有 20 位作者,比较起来,这篇论文的作者数目减少了。另外,虽然两篇论文的主要作者都是三名(共同贡献),但是这三个人发生了一些变化。下面,我就介绍一下本文的三个主要作者。
第一作者大卫·希尔维(David Silver)目前在 DeepMind 领导强化学习(Reinforcement Learning)的多项研究。大卫的经历很传奇,早年曾在南非生活和学习,1997 年从剑桥大学毕业后,先到一家名为 Elixir Studios 的游戏公司工作了好几年。然后到加拿大的阿尔伯塔大学(University of Alberta)学习机器学习,特别是强化学习。他当时就开始尝试开发用计算机算法来进行围棋博弈。大卫 2013 年全职加入 DeepMind,之后迅速成了 DeepMind 在强化学习,特别是深度学习和强化学习结合领域的领军人物。
第二作者朱利安·施瑞特维泽(Julian Schrittwieser)是谷歌的一名工程师,他长期对围棋、人工智能感兴趣。值得注意的是,朱利安这次成为主要作者,而在之前的第一篇文章中还只是普通贡献者,可以推断在 AlphaGo Zero 这个版本里有相当多的工程优化。
第三作者卡伦·西蒙彦(Karen Simonyan)是 DeepMind 的一名科学家,长期从事计算机视觉和人工智能技术的研究。他来自 2014 年 DeepMind 收购的一家名为 Vision Factory 的人工智能公司。卡伦最近几年的论文都有高达几千的引用量。
论文的主要贡献
首先,这篇论文的主要“卖点”就是较少利用、或者说没有利用传统意义上的数据驱动的棋局。第一篇论文里的 AlphaGo 以及后面的一些版本,都是主要利用人类的棋局作为重要的训练数据,采用监督学习(Supervised Learning)和强化学习结合的形式。在 AlphaGo Zero 这个版本里,人类的棋局被彻底放弃,而完全依靠了强化学习,从完全随机(Random)的情况开始,“进化”出了具有人类经验的各种走法的围棋策略,并且达到了非常高的竞技水平。可以说这是本篇论文的核心贡献。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
谷歌DeepMind团队最新发表在《自然》杂志上的研究成果介绍了AlphaGo Zero,这是一项突破性的人工智能技术。与传统围棋人工智能不同,AlphaGo Zero完全依靠强化学习,不依赖人类棋局数据,从随机状态开始逐步演化出高水平的围棋策略。该技术基于深度神经网络和蒙特卡罗树搜索,通过自我训练不断优化模型参数。实验结果显示,AlphaGo Zero在不到2天的运算时间内就能达到顶级人类水平,并且能够在自我训练中发现大量人类熟悉的对战套路。此外,AlphaGo Zero在对战中取得了100比0的绝对优势,展现出非常强大的实战能力。这一研究的主要贡献包括对模型的改进,如将策略网络和价值网络合并,以及在实验结果方面展示了AlphaGo Zero的优越性。这篇论文的两大看点是其几乎不依赖人类棋局数据和显著的实验结果。文章提出的核心模型将策略网络和价值网络合并,与强化学习相结合,展现了其在复杂智力竞技项目中的潜力。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 技术内参》,新⼈⾸单¥98
《AI 技术内参》,新⼈⾸单¥98
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(3)
- 最新
- 精选
- 范深规则明确到无一例外,可以说是强监督了。只是以前的搜索方法还没到“评价”那步,就卡死了。我觉得Zero更多是视角和工程的创新,当然也很励志。
作者回复: 是的。
2017-11-034 - 黄德平补充一点认识,zero中的神经网络使用卷积神经网络,这个是跟围棋本身的规则相关。具体来讲是,围棋每个地方都可以落子,而且局面上不同地方的计分规则是一样的。2018-11-295
- 崔伟协补充一点认识,zero中的神经网络使用卷积神经网络,这个是跟围棋本身的规则相关。具体来讲是,围棋每个地方都可以落子,而且局面上不同地方的计分规则是一样的。2019-12-03
收起评论