15 | GPT1-3:技术爆炸,深入解析LLM的核心技术
Tyler
你好,我是 Tyler。
在今天的课程中,我们将深入探讨 GPT 1-3 的发展历程。GPT 的主要内容其实已经体现在它的名字中,它的全称是 Generative Pre-trained Transformer,其中集合了我们大模型关注的各种要素,包括预训练大模型(Pre-trained Transformer)和 生成式 AI(Generative AI)。
通过上节课的学习,你已经理解了 Transformer 的工作原理,有了这个基础,我们再来学习 GPT 系列就相对轻松了。接下来,我们就从 GPT-1 开始说起。
GPT-1:学会微调(Finetune)
GPT-1 符合我们之前对预训练模型的美好幻想,就像 CV 领域的预训练模型一样,首先在大规模的数据上进行学习,之后在具体的任务上继续微调。
不过,你可能会问,之前不是说过因为缺乏合适的数据集,所以一直无法制作出适合用在自然语言处理的预训练模型吗。那么,GPT-1 的训练数据是从哪里获取的呢?
这是一个非常好的问题!在这里,我们所说的不是 ImageNet 那样有标签的数据集,而是 Common Crawl 这类大规模的无标签数据集。
GPT-1 是基于海量的无标签数据,通过对比学习来进行训练的。这个思路来源于从 Word2Vec 到 ELMo 的发展过程中积累的经验。它们都通过在大规模文本数据上进行无监督预训练,学习到了丰富的语言知识。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
GPT系列模型的发展历程和核心技术是本文的重点。文章深入探讨了GPT 1-3的发展历程,以及其核心技术。GPT系列模型集合了预训练大模型和生成式AI的要素,通过大规模的无标签数据集进行学习,并在具体任务上进行微调。GPT-2放下微调,通过零样本学习的概念,使其在未经过微调的情况下,就能战胜许多下游任务的最佳结果。而GPT-3更进一步,采用了更大的模型和更多的数据,展现出更强大的语言理解和生成能力。此外,GPT-3提出了全新的“少样本学习”(Few-Shot Learning)的概念,允许下游使用者通过提示词直接把下游任务样本输入到模型中,让模型在提示语中学习新样本的模式和规律,这种方法的学名叫做in-context learning。然而,GPT-3的问世也引发了中小企业的担忧,因为高昂的训练成本可能会导致大公司在技术方面形成垄断。总的来说,GPT系列模型的发展为NLP领域带来了新的思路和方法,为语言模型的发展开辟了新的可能性。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 大模型系统实战》,新⼈⾸单¥59
《AI 大模型系统实战》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(3)
- 最新
- 精选
- 骨汤鸡蛋面1. GPT-1先于Bert出现,预训练+微调 2. GPT-2,在训练样本里加入一些特定格式的样本,使用提示来完成下游任务。但此时的提示的任务类型比如是训练样本里已经包含的? 3. GPT-3,训练样本更大,使用提示+少量示例,可以完成训练样本里没见过的下游任务?
作者回复: 你好,骨汤鸡蛋面!总结的不错,希望在后面的课程中,继续在留言区交流互动,发表你的看法。
2023-09-13归属地:上海1 - Leo ZhaoChatGPT 支持多轮对话 能把多轮对话当做上下文 知道下一轮生成 . GPT-3 只是针对当前一轮输入生成输出。
作者回复: 你好,Leo Zhao!很好的角度,这种差异在于ChatGPT是一个完整的AI大模型系统,然而GPT-3仅仅是一个独立的模型。要实现高质量的多轮对话,我们需要对模型进行人类对话对齐训练,同时借助提示语引擎做外部记忆增强(如知识注入、会话记忆、外部工具和任务实例等)。当然,还有一些其他细节,在后面的课程中会涉及,在此先不展开。
2023-09-27归属地:新加坡 - 周晓英首先,GPT3是一个基座大模型,而ChatGPT是一个应用系统,基于基座大模型可以诞生无数的应用系统,同时应用系统也可以使用不同的基座大模型。此外,目前我用的ChatGPT是基于GPT4的,和3相比,推理能力更强,在用户界面端也做了一定的优化处理(比如用ChatGPT和直接调用GPT公布的API,同一个问题的回答质量是可能存在差异的),GPT4还具备多模态能力。2023-10-02归属地:美国2
收起评论