AI 大模型系统实战
Tyler
前亚马逊应用科学家,头部大厂 AIGC 算法技术负责人
6826 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 38 讲
结束语&结课测试 (2讲)
AI 大模型系统实战
15
15
1.0x
00:00/00:00
登录|注册

15 | GPT1-3:技术爆炸,深入解析LLM的核心技术

你好,我是 Tyler。
在今天的课程中,我们将深入探讨 GPT 1-3 的发展历程。GPT 的主要内容其实已经体现在它的名字中,它的全称是 Generative Pre-trained Transformer,其中集合了我们大模型关注的各种要素,包括预训练大模型(Pre-trained Transformer)和 生成式 AI(Generative AI)。
通过上节课的学习,你已经理解了 Transformer 的工作原理,有了这个基础,我们再来学习 GPT 系列就相对轻松了。接下来,我们就从 GPT-1 开始说起。

GPT-1:学会微调(Finetune)

GPT-1 符合我们之前对预训练模型的美好幻想,就像 CV 领域的预训练模型一样,首先在大规模的数据上进行学习,之后在具体的任务上继续微调。
不过,你可能会问,之前不是说过因为缺乏合适的数据集,所以一直无法制作出适合用在自然语言处理的预训练模型吗。那么,GPT-1 的训练数据是从哪里获取的呢?
这是一个非常好的问题!在这里,我们所说的不是 ImageNet 那样有标签的数据集,而是 Common Crawl 这类大规模的无标签数据集。
GPT-1 是基于海量的无标签数据,通过对比学习来进行训练的。这个思路来源于从 Word2Vec 到 ELMo 的发展过程中积累的经验。它们都通过在大规模文本数据上进行无监督预训练,学习到了丰富的语言知识。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

GPT系列模型的发展历程和核心技术是本文的重点。文章深入探讨了GPT 1-3的发展历程,以及其核心技术。GPT系列模型集合了预训练大模型和生成式AI的要素,通过大规模的无标签数据集进行学习,并在具体任务上进行微调。GPT-2放下微调,通过零样本学习的概念,使其在未经过微调的情况下,就能战胜许多下游任务的最佳结果。而GPT-3更进一步,采用了更大的模型和更多的数据,展现出更强大的语言理解和生成能力。此外,GPT-3提出了全新的“少样本学习”(Few-Shot Learning)的概念,允许下游使用者通过提示词直接把下游任务样本输入到模型中,让模型在提示语中学习新样本的模式和规律,这种方法的学名叫做in-context learning。然而,GPT-3的问世也引发了中小企业的担忧,因为高昂的训练成本可能会导致大公司在技术方面形成垄断。总的来说,GPT系列模型的发展为NLP领域带来了新的思路和方法,为语言模型的发展开辟了新的可能性。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 大模型系统实战》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(3)

  • 最新
  • 精选
  • 骨汤鸡蛋面
    1. GPT-1先于Bert出现,预训练+微调 2. GPT-2,在训练样本里加入一些特定格式的样本,使用提示来完成下游任务。但此时的提示的任务类型比如是训练样本里已经包含的? 3. GPT-3,训练样本更大,使用提示+少量示例,可以完成训练样本里没见过的下游任务?

    作者回复: 你好,骨汤鸡蛋面!总结的不错,希望在后面的课程中,继续在留言区交流互动,发表你的看法。

    2023-09-13归属地:上海
    1
  • Leo Zhao
    ChatGPT 支持多轮对话 能把多轮对话当做上下文 知道下一轮生成 . GPT-3 只是针对当前一轮输入生成输出。

    作者回复: 你好,Leo Zhao!很好的角度,这种差异在于ChatGPT是一个完整的AI大模型系统,然而GPT-3仅仅是一个独立的模型。要实现高质量的多轮对话,我们需要对模型进行人类对话对齐训练,同时借助提示语引擎做外部记忆增强(如知识注入、会话记忆、外部工具和任务实例等)。当然,还有一些其他细节,在后面的课程中会涉及,在此先不展开。

    2023-09-27归属地:新加坡
  • 周晓英
    首先,GPT3是一个基座大模型,而ChatGPT是一个应用系统,基于基座大模型可以诞生无数的应用系统,同时应用系统也可以使用不同的基座大模型。此外,目前我用的ChatGPT是基于GPT4的,和3相比,推理能力更强,在用户界面端也做了一定的优化处理(比如用ChatGPT和直接调用GPT公布的API,同一个问题的回答质量是可能存在差异的),GPT4还具备多模态能力。
    2023-10-02归属地:美国
    2
收起评论
显示
设置
留言
3
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部