AI 大模型系统实战
Tyler
前亚马逊应用科学家,头部大厂 AIGC 算法技术负责人
6826 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 38 讲
结束语&结课测试 (2讲)
AI 大模型系统实战
15
15
1.0x
00:00/00:00
登录|注册

13|厚积薄发:如何让模型更好地理解人类语言?

你好,我是 Tyler。
在之前的课程中,我们已经了解了语言模型的发展历程,这让我们可以明显看到,NLP 领域的发展速度并不亚于计算机视觉(CV)领域,NLP 研究人员不断推动着相关方法的不断发展。
然而,在 NLP 领域,一直存在一个令人尴尬的问题,这也是我们在第 11 节课时提过的一个问题:既然在计算机视觉领域,预训练模型的表现如此出色,NLP 领域是否从他们的成功经验中学到了一些什么呢?
答案是 NLP 确实汲取了灵感,但在实践中难以完全复制。NLP 的研究人员只是知道了外面世界的美好,却发现自己没有 CV PTM 的命,为什么这么说呢?这节课我就带你一探究竟。

重建巴别塔

首先,视觉能力是人类天生就具备的,而语言能力则要后天学习,所以对人类来说语言能力本来就更难。此外,语言存在不同的语种,每种语种都有不同的词汇、词法和语法。这进一步增加了处理语言的复杂性。
语言的多样性分散了人类的注意力,因此构建一个涵盖多种语言的带标签数据集这件事,变得异常困难。这也使得全球范围内的科学家们很难共同构建“巴别塔”,只能在自己的小圈子里打转。所以 NLP 也被我们称为人工智能皇冠上的宝石。
然而,是不是就没办法了呢?当然不是,只是这个过程非常漫长。既然无法构建一个多语种的、带标签的自然语言数据集,NLP 的预训练模型大军只能早早地离开监督学习的母星,探索无监督学习的深邃宇宙,以光年为单位飞往目标星球。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

NLP领域的发展一直备受关注,本文从历史发展和技术特点出发,探讨了如何让模型更好地理解人类语言。文章首先指出NLP领域面临的挑战,包括语言多样性和缺乏带标签的多语种数据集。随后介绍了Word2Vec算法的无监督学习方法,以及其在语义理解和机器翻译任务中的应用。接着,文章提到了ElMo技术,通过上下文生成词向量的方法,解决了Word2Vec无法处理词义多义性的问题。最后,文章重点介绍了GPT-1的预训练模型,以及其在NLP下游任务微调方面的应用。总的来说,本文深入探讨了NLP领域的发展历程和技术特点,为读者提供了对NLP预训练模型发展规律的全面了解。 文章主要介绍了NLP领域的发展历程和技术特点,从Word2Vec到ElMo再到GPT-1,逐步探讨了NLP预训练模型的演进。其中,提到了BERT和GPT-1在预训练过程中的差异,以及BERT在模型和方法方面的创新,如Masked语言模型和Next Sentence Prediction。文章还涉及了OpenAI与Google之间的竞争和技术路线的发展,以及大语言模型(LLM)的讨论。总的来说,本文全面介绍了NLP领域的技术发展和预训练模型的演进,对读者了解NLP技术的发展规律具有重要参考价值。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 大模型系统实战》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(4)

  • 最新
  • 精选
  • baron
    bert 训练也是无监督且双向训练出来的,我理解大数据量、无监督都满足,不满足的是不能进行多任务。说得不对的地方请大牛更正哈,我没有算法基础。

    作者回复: 你好,baron!回答的很好,说明你真的在认真思考。这里大家常见的现象就是忽略 BERT 的多任务能力,其实 BERT 是可以兼容多种下游 NLP 任务的。在后面的课程中依然期待你的回答!

    2023-09-10归属地:北京
    3
  • 顾琪瑶
    看到这个思考题去搜了一些关于大语言模型的定义, 其中说到几点 1. 大量的文本数据进行训练 2. 过大规模的无监督训练来学习自然语言的模式和语言结构 3. 表现出一定的逻辑思维和推理能力 搜了下, BERT并不符合第3点, 那就代表不是LLM

    作者回复: 你好,顾琪瑶!第三点并不是大语言模型的定义哦,可以回顾一下第一节课的内容,再仔细想想

    2023-09-08归属地:上海
    2
    1
  • 糖糖丸
    非端到端方法为什么就可能会导致信息丢失呢?应该如何理解?

    作者回复: 你好,糖糖丸!建议你先回顾一下第7课的内容。分阶段的建模方法往往是一个无奈之举,因为既有的模型无法理解和利用端到端的监督信号,所以才人为地为模型设计一些阶段性的特征,以简化任务的实现过程。这里做个比喻,在汽车生产过程中,传统的流程都是冲压、焊接、涂装、总装这样的流程,而特斯拉则引入了新技术,使用了一体压铸的工艺,取代了冲压和焊接,提高了生产效率和车身强度。

    2023-10-27归属地:北京
  • aLong
    属于大模型,因为我看到那个亚马逊的论文图片中包含了BERT,他是在Encoder-Decoder的路线上面。
    2023-12-30归属地:北京
收起评论
显示
设置
留言
4
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部