在今年的 EMNLP 大会上,有两类研究论文得到发表,一类是 8 页的长研究论文,主要是比较完整的研究结果;另一类是 4 页的短研究论文,主要是比较新的有待进一步推敲的研究结果。大会从长研究论文中选出两篇最佳论文,从短论文中选出一篇最佳论文。
前面我们分别讨论了两篇最佳长论文,今天,我就带你认真剖析一下 EMNLP 2017 年的最佳短论文《多智能体对话中,自然语言并非“自然”出现》(Natural Language Does Not Merge ‘Naturally’ in Multi-Agent Dialog)。我们今天讲的论文虽然是最佳短论文,但是作者们已经在 arXiv 发表了较长的文章版本,因此我今天的讲解将基于 arXiv 的长版本。
这篇文章研究的一个主要命题就是,多个“机器人”(Agent)对话中如何才能避免产生“非自然”(Unnatural)的对话。以前很多机器人对话的研究都关注准确率的高低,但实际上机器人产生的对话是不自然的,人类交流不会用这样的方式。这篇文章希望探讨的就是这样非自然的对话是如何产生的,有没有什么方式避免这样的结果。
作者群信息介绍
第一作者萨特维克·库托儿(Satwik Kottur)来自卡内基梅隆大学,博士第四年,研究领域为计算机视觉、自然语言和机器学习。2016 年暑假他在 Snapchat 的研究团队实习,研究对话系统中的个性化问题。2017 年暑假在 Facebook 研究院实习,做视觉对话系统(Visual Dialog System)的研究。近两年,萨特维克已在多个国际顶级会议如 ICML 2017、IJCAI 2017、CVPR 2017、ICCV 2017 以及 NIPS 2017 发表了多篇高质量研究论文,包括这篇 EMNLP 2017 的最佳短论文,可以说是一颗冉冉升起的学术新星。
第二作者何塞·毛拉(José M. F. Moura)是萨特维克在卡内基梅隆大学的导师。何塞是 NAE(美国国家工程院)院士和 IEEE(电气电子工程师学会)院士,长期从事信号处理以及大数据、数据科学的研究工作。他当选 2018 年 IEEE 总裁,负责 IEEE 下一个阶段的发展。
第三作者斯特凡·李(Stefan Lee)是来自乔治亚理工大学的研究科学家,之前在弗吉尼亚理工大学任职,长期从事计算机视觉、自然语言处理等多方面的研究。斯特凡 2016 年博士毕业于印第安纳大学计算机系。
第四作者德鲁·巴塔(Dhruv Batra)目前是 Facebook 研究院的科学家,也是乔治亚理工大学的助理教授。德鲁 2010 年博士毕业于卡内基梅隆大学;2010 年到 2012 年在位于芝加哥的丰田理工大学担任研究助理教授;2013 年到 2016 年在弗吉尼亚大学任教。德鲁长期从事人工智能特别是视觉系统以及人机交互系统的研究工作。文章的第三作者斯特凡是德鲁长期的研究合作者,他们一起已经发表了包括本文在内的多篇高质量论文。
论文的主要贡献
我们先来看看这篇文章主要解决了一个什么场景下的问题。
人工智能的一个核心场景,或者说想要实现的一个目标,就是能够建立一个目标导向(Goal-Driven)的自动对话系统(Dialog System)。具体来说,在这样的系统中,机器人能够感知它们的环境(包括视觉、听觉以及其他感官),然后能和人或者其他机器人利用自然语言进行对话,从而实现某种目的。
目前对目标导向的自动对话系统的研究主要有两种思路。