Facebook无监督机器翻译语言已达93种
极客时间编辑部
讲述:杜力大小:1.90M时长:02:04
近年来,人工智能研究界已经证明神经网络在语言间翻译领域的表现非常出色,特别是谷歌于 2016 年的神经机器翻译研究工作,然而,这种翻译主要适用于存在大量可用数据,并且其中包含并行语料库(例如将同一法律文本由一种语言翻译成另一种语言)的情况。
如今,Facebook 在最新的研究中构建起了一套独立的系统,能够为 93 种语言生成联协多语言句子,其中包括资源缺乏的语言以及少数民族语言。这意味着可以一次性对多种语言变体进行整体训练,这套系统能够立足单一特征嵌入空间实现类似句子的相近表达,即使各语言完全来自不同语系。
研究人员在系统中使用了单一编码器与解码器,全部语言都共享同样的编码器与解码器。为此,他们构建起了一份包含 5 万个联合字节对编码(简称 BPE)的词汇表,由源自对所有训练语料库的整体学习。在训练期间,他们还采取更为具体的优化方式,将所有语言翻译成两种目标语言,即英语与西班牙语。
另外,研究人员还根据 Tatoeba 语料库(即社区支持的英语语句集加 300 多种语言翻译版本)构建起新的 122 种语言相似性搜索测试集。其相似性错误率低于 5%,这表明其下游效能很强。
此外,评估工作还对其中 37 种语言进行了评分,其中某些语言的可用训练数据非常有限。他们表示,这些低资源语言的翻译结果证明了联协训练方法的重大优势。
目前,人工智能研究面临的最大挑战在于研究工作需要大量的数据与大量计算机。语言翻译人工智能技术往往需要巨大的文件数据集,然而,例如爱沙尼亚这样一个小国显然拿不出规模可观的数据,也不像其它主要语言那样能够得到全球众多研究者的关注。令人欣慰的是,Facebook 的这套系统已经能够以 3.2% 的误差,实现从英语到爱沙尼亚语的翻译(从爱沙尼亚语翻译至英语时,系统错误率为 3.4%)。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(2)
- 最新
- 精选
- Hobby科技改变生活,希望将来能让我们孩子卸下学习外语的负担。
- 极客时间攻城狮赞
收起评论