02|技术视角:你应该知道的LLM基础知识
郑晔

你好,我是郑晔!
上一讲,我们站在用户视角介绍了 LLM,这个视角可以帮助我们更好地理解如何使用大模型。
不过,站在用户视角,我们只能关心到语言输入和输出,而如果要开发一个 AI 应用,我们不可避免地会接触到其它一些概念,比如,Token、Embedding、温度等等,这些概念是什么意思呢?这一讲,我们就从技术的视角看一下大模型,到这一讲的末尾,你也就知道这些概念是怎么回事了。
在出发之前,我要强调一下,我们不是为了打造一个大模型,而是为了更好地理解应用开发中的各种概念。好,我们开始!
技术视角的大模型
站在技术视角理解大模型,核心就是搞懂一件事,大模型到底做了些什么。其实,大模型的工作很简单,一次添加一个词。
怎么理解这个说法呢?本质上说,ChatGPT 做的是针对任何文本产生“合理的延续”。所谓“合理”,就是“人们看到诸如数十亿个网页上的内容后,可能期待别人会这样写”。我们借鉴 Stephen Wolfram 的《这就是 ChatGPT》(What Is ChatGPT Doing … and Why Does It Work?)里的一个例子一起来看一下。
选择下一个词
假设我们手里的文本是“The best thing about AI is its ability to”(AI 最棒的地方在于它能)。想象一下,我们浏览了人类编写的数十亿页文本(比如在互联网上和电子书中),找到该文本的所有实例,然后,猜测一下接下来要出现的是什么词,以及这些词出现的概率是多少。
公开
同步至部落
取消
完成
0/2000
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结

1. 大模型的核心工作是逐词添加,通过查找大量文本实例来预测下一个词的概率。 2. Token是大模型编程的重要概念,影响着大模型的信息理解和生成结果。 3. 上下文窗口大小是大模型竞争中的重要指标,决定了大模型对信息的理解程度和生成内容的接近程度。 4. Token数量影响大模型编程的计费,越多的Token意味着更高的费用。 5. 引入温度概念可以增加内容生成的随机性,调节温度参数可以影响大模型的活跃程度和生成结果的表现。 6. 在大模型内部处理的并不是字符串,而是向量,文本需要转换成向量才能进入大模型的处理。 7. 字符串转成向量经历了One-Hot编码和压缩的过程,最终得到Embedding。 8. Embedding是大模型编程中的另一个重要概念,牵涉到大模型生成文本的细节。 9. 大模型的工作是一次添加一个Token,Token在大模型编程中非常重要。 10. 大模型的处理中,需要经过One-Hot编码,然后对编码结果进行压缩,得到最终需要的结果。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《程序员的 AI 开发第一课》,新⼈⾸单¥59
《程序员的 AI 开发第一课》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论