微软NLP成绩“超越人类”背后的技术揭秘
极客时间编辑部
讲述:杜力大小:1.25M时长:02:44
近日,在斯坦福大学发起的 SQuAD(Stanford Question Answering Dataset)文本理解挑战赛上,微软亚洲研究院的 R-NET 模型在精确匹配 EM 值上获得了 82.650 的成绩,首次超越人类的记录。
微软亚洲研究院周明团队在接受采访时,详细解析了什么是 EM 与 F1、超越人类的具体内涵、NLP 最难突破的核心问题,以及我国自然语言处理技术发展现状和未来展望等众多话题。
据介绍,EM 是要求系统给出的答案和人的标注答案完全匹配,F1 则根据系统给出的答案和人的标注答案之间的重合程度来计算得分。
关于“超越人类”这个形容,周明解释道,这次 R-NET 模型的 EM 值达到 82.65,超越了人类 0.3 个点,简单的理解,就是这个系统比人做这套题库,多做对了 30 道题。然而,这并不能真正代表计算机超越了人类的阅读理解水平,因为这样的跑分结果是有前提条件约束的,比如确定的题库和测试时间,并且这只是成年人的平均理解水平。
对此,周明表示,超越人类不能作为媒体的报道噱头,在看到技术进步的同时,人们更应该冷静思考模型的不断完善和技术的应用落地。
目前,SQuAD 榜单上排名靠前的系统采用的都是端到端的深度神经网络,这些系统在模型和算法上都有相通和相近之处。而这也是 SQuAD 比赛一年多以来,整个阅读理解研究的社区和同仁们共同努力、相互借鉴和提高的结果。
周明介绍道,目前最好的模型一般综合了以下的算法或部件,包括早期基础模型。例如 Match-LSTM(新加坡管理大学)和 BiDAF(Allen Institute for Artificial Intelligence)注意力机制上的创新,R-NET 中的 Self-Matching 机制,以及最近对模型效果提升明显的预训练的上下文相关的词向量表示(Contextualized Vectors),包括基于神经机器翻译训练得到句子编码器(Salesforce)以及基于大规模外部文本数据训练得到的双向语言模型(Allen Institute for Artificial Intelligence)等。
在采访中,周明还提到,国内马上要有中文阅读理解比赛了,这是一件非常好的事,比赛中的任务通常定义为:让机器阅读文本,然后回答和阅读内容相关的问题。阅读理解涉及到语言理解、知识推理、摘要生成等复杂技术,极具挑战。
这些任务的研究对于智能搜索、智能推荐、智能交互等人工智能应用来说,具有重要意义,同时也是自然语言处理和人工智能领域的重要前沿课题。
另外在技术上,目前基于深度学习的算法和模型还有很大的空间,能否提出可以对复杂推理进行有效建模,以及把常识和外部知识有效利用起来的深度学习网络,也是目前很有意义的研究课题。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论