Facebook开源工具包LASER,支持93种语言
极客时间编辑部
讲述:丁婵大小:2.26M时长:02:28
为了加速自然语言处理在更多语言上进行零样本迁移,近日,Facebook 扩展并增强了 LASER 工具包,并将其开源,这是第一个成功探索大型多语种句子表示并与广大 NLP 社区共享的工具。
现在,该工具包可以使用 93 种语言和 28 种不同字母表。LASER 通过将所有语言联合嵌入到单个共享空间,而不是为每种语言分别建立单独的模型来实现这些结果。现在免费提供多语言编码器和 PyTorch 代码,以及针对 100 多种语言的多语言测试集。
可以说 LASER 打开了从一种语言到其他语言,包括训练数据极为有限的语言进行 NLP 模型零样本迁移的大门。它是第一个使用单一模型处理各种语言的库,包括低资源语言,以及中国的吴语等方言。有朝一日,这项工作将可以帮助 Facebook 和其他公司推出一些特定的 NLP 功能。
除了 LASER 工具包,Facebook 还在 Tatoeba 语料库基础上,共享了 100 多种语言对齐句子的测试集。使用此数据集,句子嵌入可以在多语言相似性搜索中获得良好结果,即使是低资源语言也是如此。
LASER 的句子向量表示对输入语言和 NLP 任务是通用的,将语言句子映射到高维空间中的一个点,目标是让语言中的相同语句最终出现在同一领域。该表示可以被视为语义向量空间中的一种通用语言。
据悉,Facebook 的方法建立在与机器翻译相同的技术之上,也就是通常所说的编码器和解码器方法,也称为序列到序列处理。Facebook 为所有输入语言使用共享编码器,并使用共享解码器生成输出语言。
未来,LASER 还将用于其他相关任务,例如,多语言语义空间特性可以用于解释一个句子或搜索具有类似含义的句子——可以使用相同的语言,也可以使用 LASER 目前支持的 93 种其他语言中的任意一种。Facebook 也将继续改进模型,在现有基础上增加更多语言。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论