极客视点
极客时间编辑部
极客时间编辑部
113243 人已学习
免费领取
课程目录
已完结/共 3766 讲
2020年09月 (90讲)
时长 05:33
2020年08月 (93讲)
2020年07月 (93讲)
时长 05:51
2020年06月 (90讲)
2020年05月 (93讲)
2020年04月 (90讲)
2020年03月 (92讲)
时长 04:14
2020年02月 (87讲)
2020年01月 (91讲)
时长 00:00
2019年12月 (93讲)
2019年11月 (89讲)
2019年10月 (92讲)
2019年09月 (90讲)
时长 00:00
2019年08月 (91讲)
2019年07月 (92讲)
时长 03:45
2019年06月 (90讲)
2019年05月 (99讲)
2019年04月 (114讲)
2019年03月 (122讲)
2019年02月 (102讲)
2019年01月 (104讲)
2018年12月 (98讲)
2018年11月 (105讲)
时长 01:23
2018年10月 (123讲)
时长 02:06
2018年09月 (119讲)
2018年08月 (123讲)
2018年07月 (124讲)
2018年06月 (119讲)
时长 02:11
2018年05月 (124讲)
时长 03:16
2018年04月 (120讲)
2018年03月 (124讲)
2018年02月 (112讲)
2018年01月 (124讲)
时长 02:30
时长 02:34
2017年12月 (124讲)
时长 03:09
2017年11月 (120讲)
2017年10月 (86讲)
时长 03:18
时长 03:31
时长 04:25
极客视点
15
15
1.0x
00:00/04:50
登录|注册

叱咤风云的BERT为何败于商业环境?

讲述:初明明大小:4.43M时长:04:50
你好,欢迎收听极客视点。
BERT 是 Google 去年发布的自然语言处理模型,它在问答系统、自然语言推理和释义检测(paraphrase detection)等任务中取得了突破性的进展。但是,在动态的商业环境中部署基于 Transformer 的大型模型 BERT,通常会产生较差的结果。Intel 人工智能实验室近日发表了一篇博文,阐述了 BERT 在商用环境失败的原因以及解决对策。InfoQ 中文站对其进行了翻译,重点内容如下。
基于 Transformer 的大型神经网络,如 BERT、GPT 和 XLNET,最近在许多自然语言处理任务取得了最先进的结果。这些模型之所以能够获得成功,得益于通用任务和特定下游任务之间的迁移学习。在有标记数据可用的静态评估集上,这些模型表现十分出色。然而,在动态的商业环境中,部署这些模型却通常会产生较差的结果。这是因为,商业环境通常是动态的,并且还包含推理和训练数据之间的连续域转换(例如,新主题、新词汇或新写作风格等)。
处理这些动态环境的传统方法是进行连续的再训练和验证,但这需要持续的手动数据标记,这既耗时,又昂贵,因此不切实际。在数据稀缺的商业环境中,有望实现更好的健壮性和可伸缩性的途径是,在微调阶段将与领域无关的知识嵌入预训练模型中。

预训练模型在低资源环境中表现出色

与从头开始训练模型相比,预训练模型的一个主要优势在于,它们能够通过使用相对较少的标记数据来适应特定任务。这一优势在实际的多域环境中具有重要作用。
但是,是什么使这种经过微调的预训练模型的增强功能在低数据环境中获得成功呢?部分原因在于,在大规模的预训练步骤中,网络学习了句法等结构化语言特征。由于语法是一种通用特性,因此它既是任务无关的,也是领域无关的。这种通用的“知识”有助于弥合不同任务和领域之间的差距,并通过微调步骤加以利用,以提高数据效率。
最近一篇题为《 BERT 在看什么?》的文章,为人们了解 BERT 在预训练期间学到的东西提供了一些线索。通过对 BERT 的自注意力机制的分析,可以看出,BERT 学到了大量的语言知识,比如动词的直接宾语、名词的限定词等等。一个以无监督学习的方式训练的模型,能在没有任何标记数据的情况下学习语言的通用方面的知识,是一件值得注意的事,

预训练模型能解决动态商业环境的挑战吗?

在一些动态的商业环境中,根本不可能会生成任何有标记的数据。请考虑这样一个环境,其中新域经常被添加或更改。在这种情况下,不断标记新的训练数据,将是一项无效、且永无止境的任务。这些情况需要无监督的域适应系统,该系统使用来自源域的现有标记数据进行训练,然后对来自目标域的未标记数据进行推理。
预训练模型在有少量目标域标记数据的情况下表现出色,但在目标域没有任何标记数据的情况下,情况会如何呢?到目前为止,使用预训练模型与从头开始的训练相比,只有很小的改进。使用标记的目标域数据对 BERT 进行微调,与仅使用源域数据对 BERT 进行微调或从头开始训练 RNN ,这三者之间的巨大差距表明,在预训练期间,预训练模型学习到的信息比从头开始的训练有所增强,但是,当目标域中的标记数据不可用时,仅仅进行跨域扩展还是不够的。或者更直截了当地说,无监督领域适应问题仍然远远不能通过仅使用源域数据的微调预训练模型来解决。

缩小差距的一步:嵌入结构信息

为了缩小域内环境和完全跨域环境之间的差距,斯坦福人工智能实验室(SAIL)主任克里斯托弗·曼宁(Christopher Manning)认为,与缺乏结构信息的系统相比,提供结构信息可以使人们设计出从较少的数据中学到更多信息的系统,并且具有更高的抽象级别。这一观点,得到了自然语言处理社区的广泛支持。
事实上,最近的一系列的研究表明:使用结构信息(即句法信息),可以改进泛化模型,这种改进的泛化增强了域内设置模型的健壮性,对于跨域设置更是如此;在完形填空测试任务中,使用依存关系和共指链作为辅助监督嵌入自注意力模型比最大的 GPT-2 模型表现得更好,对共指消解(coreference resolution)和神经机器翻译(Neural Machine Translation,NMT)等任务具有更好的泛化能力。
目前,在数据稀缺的商业环境中实现更好的健壮性和可伸缩性得到了进一步发展,但仍然存在一些有待解决的问题和挑战,需要自然语言处理社区来解决。
以上就是今天的内容,希望对你有所帮助。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
免费领取
登录 后留言

全部留言(1)

  • 最新
  • 精选
  • 小斧
    在数据稀缺的商业环境中实现更好的健壮性和可伸缩性得到了进一步发展,但仍然存在一些有待解决的问题和挑战,需要自然语言处理社区来解决。
收起评论
大纲
固定大纲
预训练模型在低资源环境中表现出色
预训练模型能解决动态商业环境的挑战吗?
缩小差距的一步:嵌入结构信息
显示
设置
留言
1
收藏
22
沉浸
阅读
分享
手机端
快捷键
回顶部