去年,人工智能领域的后起之秀 Facebook 着实火了一把。根据 2017 年 6 月 17 日美国《大西洋月刊》的报道,Facebook 人工智能实验室设计的两个聊天机器人在谈判的训练中,发展出了一种全新的、只有它们自己能够理解的语言。
这一爆炸性的消息一时间引得各路媒体蜂拥而至,煞有介事地讨论着人工智能如何颠覆人类对语言的理解,进而联想到人工智能会不会进化为热映新片《异形:契约》中戴维的角色,人类的命运仿佛又被推上了风口浪尖。
可事实真的像媒体描述的那样耸人听闻吗?如果在网上搜索这些内容,你会发现那就像两个孩子之间的咿呀学语,根本没有任何语义可言——也确实是人类无法理解的语言。于是,本来是一次模型训练的失误,愣是被唯恐天下不乱的媒体解读为世界末日的启示录,让人哭笑不得。
言归正传,人工智能的一个基本挑战就是赋予机器使用自然语言与人交流的能力。虽然这一目标在科幻电影中早已实现,但在现实生活中依然任重而道远。
所有对话系统的祖师爷是诞生于 1966 年的 Eliza,它由麻省理工学院的人工智能专家约瑟夫·魏岑鲍姆设计。有些出人意料的是,她扮演的角色是心理咨询师,并在这个角色上获得了相当程度的认可。Eliza 根据人工设计的脚本与人类交流,她并不理解对话内容,只是通过模式匹配搜索合适的回复。
设计者魏岑鲍姆将 Eliza 的基本技术问题总结为以下五个:重要词语的识别,最小语境范围的判定,恰当的转化选择,适当回复的生成和结束对话的能力。这个提纲为前赴后继的对话系统研究者们指明了研究方向。
如果说 Eliza 代表了对话系统的 1.0 版对话机器人,那么以 Siri、Cortana 和 Google Now 为代表的语音助手就代表了对话系统的 2.0 版,也就是智能个人助理。它们的作用是提供各种被动性和主动性的帮助,以辅助用户在多个垂直领域完成任务。
还是以 Siri 为例。Siri 的系统运行环境被称为“活跃本体”。在这里,执行系统调用所有系统数据、词典、模型和程序,对用户输入进行解析,从而理解用户意图并调用外部服务。解析的过程由执行系统完成,它包含语言解释器、会话流控制器和任务控制器三个部分。语言解释器对文本形式的用户输入进行解析,会话流控制器根据语言解释器的解析结果生成会话,协同任务控制器确定 Siri 的输出。
随着社交网络的发展,作为对话系统 3.0 版的社交聊天机器人正在走向成熟,它们可以满足用户对于沟通、情感及社会归属感的感性需求。这一领域的一个大玩家是互联网的新晋巨头 Facebook。自 2015 年起,Facebook 开展了大量针对对话系统的研究。而在 2017 年的国际学习表征会议(International Conference on Learning Representations)上,Facebook 也系统地展示了在对话系统上的研究成果。
Facebook 的一个研究方向是通过端到端方式自行训练对话系统的可能性。诸如语音助手之类的传统对话系统都是目标导向的,即对话的目的是在有限的轮次内解决某些问题。为达到这一目的,语音助手采用的是空位填充的方式,每个空位代表着对话涉及内容的一个特征量。
对于餐厅预订的对话系统来说,其空位就会包括餐厅位置、价格区间、菜式类型等内容。但这样的对话系统不仅需要大量的人为训练,而且只适用于特定问题,难以推广到其他应用场景之下。不同任务定义的特征量是不同的,餐厅预订的对话系统显然不能实现推荐电影的功能。
相比之下,基于神经网络的端到端对话系统不需要人为介入,而是从对话本身中进行学习。所有元素都是从过往的对话过程中训练产生的,这就无需对对话的内容做出任何先验假设。这种方式由于无需人为干预,训练出来的对话系统也具备更强的通用性。