近日，在斯坦福大学发起的 SQuAD（Stanford Question Answering Dataset）文本理解挑战赛上，微软亚洲研究院的 R-NET 模型在精确匹配 EM 值上获得了 82.650 的成绩，首次超越人类的记录。
微软亚洲研究院周明团队在接受采访时，详细解析了什么是 EM 与 F1、超越人类的具体内涵、NLP 最难突破的核心问题，以及我国自然语言处理技术发展现状和未来展望等众多话题。
据介绍，EM 是要求系统给出的答案和人的标注答案完全匹配，F1 则根据系统给出的答案和人的标注答案之间的重合程度来计算得分。
关于“超越人类”这个形容，周明解释道，这次 R-NET 模型的 EM 值达到 82.65，超越了人类 0.3 个点，简单的理解，就是这个系统比人做这套题库，多做对了 30 道题。然而，这并不能真正代表计算机超越了人类的阅读理解水平，因为这样的跑分结果是有前提条件约束的，比如确定的题库和测试时间，并且这只是成年人的平均理解水平。
对此，周明表示，超越人类不能作为媒体的报道噱头，在看到技术进步的同时，人们更应该冷静思考模型的不断完善和技术的应用落地。
目前，SQuAD 榜单上排名靠前的系统采用的都是端到端的深度神经网络，这些系统在模型和算法上都有相通和相近之处。而这也是 SQuAD 比赛一年多以来，整个阅读理解研究的社区和同仁们共同努力、相互借鉴和提高的结果。
周明介绍道，目前最好的模型一般综合了以下的算法或部件，包括早期基础模型。例如 Match-LSTM（新加坡管理大学）和 BiDAF（Allen Institute for Artificial Intelligence）注意力机制上的创新，R-NET 中的 Self-Matching 机制，以及最近对模型效果提升明显的预训练的上下文相关的词向量表示（Contextualized Vectors），包括基于神经机器翻译训练得到句子编码器（Salesforce）以及基于大规模外部文本数据训练得到的双向语言模型（Allen Institute for Artificial Intelligence）等。
在采访中，周明还提到，国内马上要有中文阅读理解比赛了，这是一件非常好的事，比赛中的任务通常定义为：让机器阅读文本，然后回答和阅读内容相关的问题。阅读理解涉及到语言理解、知识推理、摘要生成等复杂技术，极具挑战。
这些任务的研究对于智能搜索、智能推荐、智能交互等人工智能应用来说，具有重要意义，同时也是自然语言处理和人工智能领域的重要前沿课题。
另外在技术上，目前基于深度学习的算法和模型还有很大的空间，能否提出可以对复杂推理进行有效建模，以及把常识和外部知识有效利用起来的深度学习网络，也是目前很有意义的研究课题。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

该免费文章来自《极客视点》，如需阅读全部文章，
请先领取课程

免费领取

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论



显示
设置



留言





沉浸
阅读





手机端



快捷键



回顶部