40 应用场景 | 数字巴别塔：机器翻译

王天一



该思维导图由 AI 生成，仅供参考

根据圣经旧约《创世纪》中的记载，大洪水劫后，诺亚的子孙们在巴比伦附近的示拿地定居。说着同样语言的人类联合起来兴建巴别塔，这让上帝深为他们的虚荣和傲慢而震怒。于是他悄悄地离开天国来到人间，变乱了人类的语言，无法交流的人们做鸟兽散，巴别塔的伟念也就轰然倒塌。
圣经中对语言诞生的描述充满了天谴的色彩，虽然事实根本就不是这么回事，但语言的差异的的确确给人类的沟通与交流平添了诸多隔阂。难道伟大的巴别塔注定只是存在于幻想之中的空中楼阁吗？
令人沮丧的是，眼下这个问题的答案还是“是”。但在世界首台计算机 ENIAC 于 1946 年诞生后，科学家们就提出了利用计算机实现不同语言之间的自动翻译的想法。而在经历了超过一个甲子的岁月后，机器翻译已经取得了长足的进展，今天的执牛耳者则无疑是互联网巨头谷歌。
机器翻译源于对自然语言的处理。1949 年，洛克菲勒基金会的科学家沃伦·韦弗提出了利用计算机实现不同语言的自动翻译的想法，并且得到了学术界和产业界的广泛支持。韦弗的观点也代表了当时学术界的主流意见，就是以逐字对应的方法实现机器翻译。
语言作为信息的载体，其本质可以被视为一套编码与解码系统，只不过这套系统的作用对象是客观世界与人类社会。将字 / 词看成构成语言的基本元素的话，每一种语言就都可以解构为所有字 / 词组成的集合。而引入中介语言可以把所有语言的编码统一成为用于机器翻译的中间层，进而实现翻译。
比方说，同样是“自己”这个概念，在汉字中用“我”来表示，在英语中则用“I”来表示，机器翻译的作用就是在“我”和“I”这两个不同语言中的基本元素之间架起一座桥梁，实现准确的对应。
然而乐观和热情不能左右现实存在的客观阻力。今天看来，这样的一一对应未免过于简单。同一个词可能存在多种意义，在不同的语言环境下也具有不同的表达效果，逐字对应的翻译在意义单一的专业术语上能有较好的表现，但在日常生活的复杂语言中就会演化为一场灾难。
但天无绝人之路，进入二十世纪七十年代后，全球化浪潮的出现催生了客观需求，计算机性能的发展则突破了技术瓶颈，这两点让机器翻译重新回到人们的视野之中。
这一时期的机器翻译有了全新的理论基础：语言学巨擘诺姆·乔姆斯基在其经典著作《句法结构》（Syntactic Structures）中对语言的内涵做了深入的阐述，他的核心观点是语言的基本元素并非字词，而是句子，一种语言中无限的句子可以由有限的规则推导出来。
语言学的进化也对机器翻译的方法论产生了根本性的影响：韦弗推崇的基于字 / 词的字典匹配方法被推翻，基于规则的句法分析方法粉墨登场。这里的“规则”指的是句法结构与语序特点。
显然，基于规则的机器翻译更贴近于人类的思考方式，也就是把一个句子视为整体，即使进行拆分也并不简单地依赖字词，而是根据逻辑关系进行处理。这使得人类翻译非常灵活，即使是不服从语法规则，甚至存在语病的句子都可以翻译得准确无误。
正因如此，基于规则的机器翻译甫一诞生便受到众多推崇，似乎成为一劳永逸的不二法门。可理想虽然丰满，现实却依然骨感。基于句法规则的机器翻译也很快遇到了新问题：在面对多样句法的句子中，并没有比它的字词前任优秀多少，任何一款翻译软件都没法把“我勒个去”翻译成“Oh my God”。
基于规则的窘境迫使研究者们重新思考机器翻译的原则。语言的形成过程是自底向上的过程，语法规则并不是在语言诞生之前预先设计出来的，而是在语言的进化过程中不断形成的。这促使机器翻译从基于规则的方法走向基于实例的方法：既然人类可以从已有语言中提取规则，机器为什么不能呢？眼下，基于深度学习和海量数据的统计机器翻译已是业界主流，谷歌正是这个领域的领头羊与先行者。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

机器翻译的发展已经取得了长足的进步，从最初的逐字对应到基于规则的句法分析，再到如今的神经机器翻译。谷歌的神经机器翻译算法采用了长短期记忆层和注意力机制，实现了整体处理，提高了翻译的速度和准确度。特别是谷歌提出的“零知识翻译”实现了103种不同语言的互译，大大提升了系统的通用性。这些技术的发展让机器翻译迈向了一个新的里程碑，为人类消除语言隔阂提供了更加可行的解决方案。此外，机器翻译的进展对语言本身的发展也存在着反作用，语言的发展势必会受到人类文化的影响。人工智能的发展对人类自身产生何种反作用也是一个重要的问题。这些内容将在下周的直播中进一步探讨。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《人工智能基础课》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(7)

最新
精选

ifelse
X学习打卡
2023-05-19归属地：浙江

2
谢韬 Fragos
Google的基于统计的机器翻译方法能这么牛，主要是靠着奥科博士的工作。他向大家证明了，机器翻译这样的智能问题从根本上讲都是数学问题。奥科被Google高薪挖到后，他并没有时间改进方案，评测的时候Google的结果遥遥领先，也就是说google的方案和奥科在南加州大学和亚琛工学院的写的系统差不多。但是Google有10000倍的数据，当数据量成千上万倍的增加以后，机器学习的效果就会有两边倒质变。数据真的是21世纪的矿。
2021-11-03

2
Geek_80b031
請問老師：我在翻譯日文時候，會使用Google 作翻中翻英甚至翻英再翻中的操作來確認語意。依我對本章理解，現在日譯中，是經過日》英〉中；但為何我手動操作同樣步驟，出來結果基本上中譯文都不一致呢？
2020-10-31

2
杨家荣
极客时间 21天打卡行动 38/21 <<人工智能基础课40>>数字巴别塔：机器翻译回答老师问题: 在另一个角度上，机器翻译的进展对语言本身的发展也存在着反作用。语言并不是自然出现的，而是人类社会的产物，其发展也势必会受到人类文化的影响。那么人工智能的发展到底会对人类自身产生何种反作用呢？ 1,依赖,人使用了工具后,会特别依赖工具; 2,失去自身的进化能力今日所学: 1,1949 年，洛克菲勒基金会的科学家沃伦·韦弗提出了利用计算机实现不同语言的自动翻译的想法，并且得到了学术界和产业界的广泛支持; 2,语言作为信息的载体，其本质可以被视为一套编码与解码系统，只不过这套系统的作用对象是客观世界与人类社会。 3,将字 / 词看成构成语言的基本元素的话，每一种语言就都可以解构为所有字 / 词组成的集合。 4,而引入中介语言可以把所有语言的编码统一成为用于机器翻译的中间层，进而实现翻译。 5,基于深度学习和海量数据的统计机器翻译已是业界主流; 6,机器翻译的实现理念从句法结构与语序特点的规则化解构转换为对大量平行语料的统计分析构建模型，曙光才出现在地平线上。 7,一个神经网络以任何语言作为输入并转换成任何输出语言，而不需要任意输入 - 输出语言之间的两两配对; 8,零知识翻译的实现要归功于神经网络的迁移学习特性; 9,语言和文字本身就可以视为对客观世界进行编码的系统; 重点: 1,早期的机器翻译采用的是逐字对应的方法； 2,语言学的进展使机器翻译转而依赖句法规则； 3,谷歌将神经网络引入机器翻译之中，利用大量数据提升翻译精确性； 4,神经网络可以通过迁移学习“桥接”不同的语言，实现零知识翻译。
2020-01-25


阿玛铭
老师您好，我现在面临一个工作量巨大的复杂度：讲ibm规则引擎 ilog jrules的规则语言jrl转译成规则引擎drools的drl。我是个编译原理小白，但在我看来，这类规则语言（属不属于dsl？）的语法复杂度和高级编程语言的语法复杂度不是一个量级的。我有接近8000个规则文件，因此想通过懒一点的方法走捷径。所以有如下几个问题想请教一下老师：1. 转译工作是否可行？2.如果可行，在开源的antlr做语法解析能否完成这项工作？3.如果antlr不行，是否存在其它好用的工具（贵的买不起）。谢谢老师。
2020-01-15


上善若水
国内基本没算法，都是国外大厂标杆
2019-11-01


林彦
我是觉得在一部分区域会替代一部分过去的职业。不同地区不同阶层的人的生活差距会被拉大。教育方式如果不适应这种新的时代的技术发展的学习，更多普通人会难以立足。对大众公开的机器翻译(Google翻译)现在还难以达到翻译一本书的水平。不知道是不是有些更高级的功能对我们普通人未开放。简单的词句翻译可以依靠与现实场景结合更好的人工智能应用来解决了。
2018-03-12



收起评论