15 | GPT1-3：技术爆炸，深入解析LLM的核心技术

Tyler

你好，我是 Tyler。
在今天的课程中，我们将深入探讨 GPT 1-3 的发展历程。GPT 的主要内容其实已经体现在它的名字中，它的全称是 Generative Pre-trained Transformer，其中集合了我们大模型关注的各种要素，包括预训练大模型（Pre-trained Transformer）和 生成式 AI（Generative AI）。
通过上节课的学习，你已经理解了 Transformer 的工作原理，有了这个基础，我们再来学习 GPT 系列就相对轻松了。接下来，我们就从 GPT-1 开始说起。
GPT-1：学会微调（Finetune）GPT-1 符合我们之前对预训练模型的美好幻想，就像 CV 领域的预训练模型一样，首先在大规模的数据上进行学习，之后在具体的任务上继续微调。
不过，你可能会问，之前不是说过因为缺乏合适的数据集，所以一直无法制作出适合用在自然语言处理的预训练模型吗。那么，GPT-1 的训练数据是从哪里获取的呢？
这是一个非常好的问题！在这里，我们所说的不是 ImageNet 那样有标签的数据集，而是 Common Crawl 这类大规模的无标签数据集。
GPT-1 是基于海量的无标签数据，通过对比学习来进行训练的。这个思路来源于从 Word2Vec 到 ELMo 的发展过程中积累的经验。它们都通过在大规模文本数据上进行无监督预训练，学习到了丰富的语言知识。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

GPT系列模型的发展历程和核心技术是本文的重点。文章深入探讨了GPT 1-3的发展历程，以及其核心技术。GPT系列模型集合了预训练大模型和生成式AI的要素，通过大规模的无标签数据集进行学习，并在具体任务上进行微调。GPT-2放下微调，通过零样本学习的概念，使其在未经过微调的情况下，就能战胜许多下游任务的最佳结果。而GPT-3更进一步，采用了更大的模型和更多的数据，展现出更强大的语言理解和生成能力。此外，GPT-3提出了全新的“少样本学习”（Few-Shot Learning）的概念，允许下游使用者通过提示词直接把下游任务样本输入到模型中，让模型在提示语中学习新样本的模式和规律，这种方法的学名叫做in-context learning。然而，GPT-3的问世也引发了中小企业的担忧，因为高昂的训练成本可能会导致大公司在技术方面形成垄断。总的来说，GPT系列模型的发展为NLP领域带来了新的思路和方法，为语言模型的发展开辟了新的可能性。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 大模型系统实战》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(3)

最新
精选

骨汤鸡蛋面
1. GPT-1先于Bert出现，预训练+微调 2. GPT-2，在训练样本里加入一些特定格式的样本，使用提示来完成下游任务。但此时的提示的任务类型比如是训练样本里已经包含的？ 3. GPT-3，训练样本更大，使用提示+少量示例，可以完成训练样本里没见过的下游任务？
作者回复: 你好，骨汤鸡蛋面！总结的不错，希望在后面的课程中，继续在留言区交流互动，发表你的看法。
2023-09-13归属地：上海

1
Leo Zhao
ChatGPT 支持多轮对话能把多轮对话当做上下文知道下一轮生成 . GPT-3 只是针对当前一轮输入生成输出。
作者回复: 你好，Leo Zhao！很好的角度，这种差异在于ChatGPT是一个完整的AI大模型系统，然而GPT-3仅仅是一个独立的模型。要实现高质量的多轮对话，我们需要对模型进行人类对话对齐训练，同时借助提示语引擎做外部记忆增强（如知识注入、会话记忆、外部工具和任务实例等）。当然，还有一些其他细节，在后面的课程中会涉及，在此先不展开。
2023-09-27归属地：新加坡


周晓英
首先，GPT3是一个基座大模型，而ChatGPT是一个应用系统，基于基座大模型可以诞生无数的应用系统，同时应用系统也可以使用不同的基座大模型。此外，目前我用的ChatGPT是基于GPT4的，和3相比，推理能力更强，在用户界面端也做了一定的优化处理（比如用ChatGPT和直接调用GPT公布的API，同一个问题的回答质量是可能存在差异的），GPT4还具备多模态能力。
2023-10-02归属地：美国

2

收起评论