02｜技术视角：你应该知道的LLM基础知识

郑晔

你好，我是郑晔！
上一讲，我们站在用户视角介绍了 LLM，这个视角可以帮助我们更好地理解如何使用大模型。
不过，站在用户视角，我们只能关心到语言输入和输出，而如果要开发一个 AI 应用，我们不可避免地会接触到其它一些概念，比如，Token、Embedding、温度等等，这些概念是什么意思呢？这一讲，我们就从技术的视角看一下大模型，到这一讲的末尾，你也就知道这些概念是怎么回事了。
在出发之前，我要强调一下，我们不是为了打造一个大模型，而是为了更好地理解应用开发中的各种概念。好，我们开始！
技术视角的大模型站在技术视角理解大模型，核心就是搞懂一件事，大模型到底做了些什么。其实，大模型的工作很简单，一次添加一个词。
怎么理解这个说法呢？本质上说，ChatGPT 做的是针对任何文本产生“合理的延续”。所谓“合理”，就是“人们看到诸如数十亿个网页上的内容后，可能期待别人会这样写”。我们借鉴 Stephen Wolfram 的《这就是 ChatGPT》（What Is ChatGPT Doing … and Why Does It Work?）里的一个例子一起来看一下。
选择下一个词假设我们手里的文本是“The best thing about AI is its ability to”（AI 最棒的地方在于它能）。想象一下，我们浏览了人类编写的数十亿页文本（比如在互联网上和电子书中），找到该文本的所有实例，然后，猜测一下接下来要出现的是什么词，以及这些词出现的概率是多少。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
法语
德语
日语
韩语
俄语
西班牙语
解释
总结

1. 大模型的核心工作是逐词添加，通过查找大量文本实例来预测下一个词的概率。 2. Token是大模型编程的重要概念，影响着大模型的信息理解和生成结果。 3. 上下文窗口大小是大模型竞争中的重要指标，决定了大模型对信息的理解程度和生成内容的接近程度。 4. Token数量影响大模型编程的计费，越多的Token意味着更高的费用。 5. 引入温度概念可以增加内容生成的随机性，调节温度参数可以影响大模型的活跃程度和生成结果的表现。 6. 在大模型内部处理的并不是字符串，而是向量，文本需要转换成向量才能进入大模型的处理。 7. 字符串转成向量经历了One-Hot编码和压缩的过程，最终得到Embedding。 8. Embedding是大模型编程中的另一个重要概念，牵涉到大模型生成文本的细节。 9. 大模型的工作是一次添加一个Token，Token在大模型编程中非常重要。 10. 大模型的处理中，需要经过One-Hot编码，然后对编码结果进行压缩，得到最终需要的结果。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《程序员的 AI 开发第一课》，新⼈⾸单¥59

立即购买

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论