根据圣经旧约《创世纪》中的记载,大洪水劫后,诺亚的子孙们在巴比伦附近的示拿地定居。说着同样语言的人类联合起来兴建巴别塔,这让上帝深为他们的虚荣和傲慢而震怒。于是他悄悄地离开天国来到人间,变乱了人类的语言,无法交流的人们做鸟兽散,巴别塔的伟念也就轰然倒塌。
圣经中对语言诞生的描述充满了天谴的色彩,虽然事实根本就不是这么回事,但语言的差异的的确确给人类的沟通与交流平添了诸多隔阂。难道伟大的巴别塔注定只是存在于幻想之中的空中楼阁吗?
令人沮丧的是,眼下这个问题的答案还是“是”。但在世界首台计算机 ENIAC 于 1946 年诞生后,科学家们就提出了利用计算机实现不同语言之间的自动翻译的想法。而在经历了超过一个甲子的岁月后,机器翻译已经取得了长足的进展,今天的执牛耳者则无疑是互联网巨头谷歌。
机器翻译源于对自然语言的处理。1949 年,洛克菲勒基金会的科学家沃伦·韦弗提出了利用计算机实现不同语言的自动翻译的想法,并且得到了学术界和产业界的广泛支持。韦弗的观点也代表了当时学术界的主流意见,就是以逐字对应的方法实现机器翻译。
语言作为信息的载体,其本质可以被视为一套编码与解码系统,只不过这套系统的作用对象是客观世界与人类社会。将字 / 词看成构成语言的基本元素的话,每一种语言就都可以解构为所有字 / 词组成的集合。而引入中介语言可以把所有语言的编码统一成为用于机器翻译的中间层,进而实现翻译。
比方说,同样是“自己”这个概念,在汉字中用“我”来表示,在英语中则用“I”来表示,机器翻译的作用就是在“我”和“I”这两个不同语言中的基本元素之间架起一座桥梁,实现准确的对应。
然而乐观和热情不能左右现实存在的客观阻力。今天看来,这样的一一对应未免过于简单。同一个词可能存在多种意义,在不同的语言环境下也具有不同的表达效果,逐字对应的翻译在意义单一的专业术语上能有较好的表现,但在日常生活的复杂语言中就会演化为一场灾难。
但天无绝人之路,进入二十世纪七十年代后,全球化浪潮的出现催生了客观需求,计算机性能的发展则突破了技术瓶颈,这两点让机器翻译重新回到人们的视野之中。
这一时期的机器翻译有了全新的理论基础:语言学巨擘诺姆·乔姆斯基在其经典著作《句法结构》(Syntactic Structures)中对语言的内涵做了深入的阐述,他的核心观点是语言的基本元素并非字词,而是句子,一种语言中无限的句子可以由有限的规则推导出来。
语言学的进化也对机器翻译的方法论产生了根本性的影响:韦弗推崇的基于字 / 词的字典匹配方法被推翻,基于规则的句法分析方法粉墨登场。这里的“规则”指的是句法结构与语序特点。
显然,基于规则的机器翻译更贴近于人类的思考方式,也就是把一个句子视为整体,即使进行拆分也并不简单地依赖字词,而是根据逻辑关系进行处理。这使得人类翻译非常灵活,即使是不服从语法规则,甚至存在语病的句子都可以翻译得准确无误。
正因如此,基于规则的机器翻译甫一诞生便受到众多推崇,似乎成为一劳永逸的不二法门。可理想虽然丰满,现实却依然骨感。基于句法规则的机器翻译也很快遇到了新问题:在面对多样句法的句子中,并没有比它的字词前任优秀多少,任何一款翻译软件都没法把“我勒个去”翻译成“Oh my God”。
基于规则的窘境迫使研究者们重新思考机器翻译的原则。语言的形成过程是自底向上的过程,语法规则并不是在语言诞生之前预先设计出来的,而是在语言的进化过程中不断形成的。这促使机器翻译从基于规则的方法走向基于实例的方法:既然人类可以从已有语言中提取规则,机器为什么不能呢?眼下,基于深度学习和海量数据的统计机器翻译已是业界主流,谷歌正是这个领域的领头羊与先行者。