程序员的 AI 开发第一课
郑晔
开源项目 Moco 作者
8 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已更新 3 讲/共 22 讲
程序员的 AI 开发第一课
15
15
1.0x
00:00/00:00
登录|注册

02|技术视角:你应该知道的LLM基础知识

你好,我是郑晔!
上一讲,我们站在用户视角介绍了 LLM,这个视角可以帮助我们更好地理解如何使用大模型。
不过,站在用户视角,我们只能关心到语言输入和输出,而如果要开发一个 AI 应用,我们不可避免地会接触到其它一些概念,比如,Token、Embedding、温度等等,这些概念是什么意思呢?这一讲,我们就从技术的视角看一下大模型,到这一讲的末尾,你也就知道这些概念是怎么回事了。
在出发之前,我要强调一下,我们不是为了打造一个大模型,而是为了更好地理解应用开发中的各种概念。好,我们开始!

技术视角的大模型

站在技术视角理解大模型,核心就是搞懂一件事,大模型到底做了些什么。其实,大模型的工作很简单,一次添加一个词
怎么理解这个说法呢?本质上说,ChatGPT 做的是针对任何文本产生“合理的延续”。所谓“合理”,就是“人们看到诸如数十亿个网页上的内容后,可能期待别人会这样写”。我们借鉴 Stephen Wolfram 的《这就是 ChatGPT》(What Is ChatGPT Doing … and Why Does It Work?)里的一个例子一起来看一下。

选择下一个词

假设我们手里的文本是“The best thing about AI is its ability to”(AI 最棒的地方在于它能)。想象一下,我们浏览了人类编写的数十亿页文本(比如在互联网上和电子书中),找到该文本的所有实例,然后,猜测一下接下来要出现的是什么词,以及这些词出现的概率是多少。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 大模型的核心工作是逐词添加,通过查找大量文本实例来预测下一个词的概率。 2. Token是大模型编程的重要概念,影响着大模型的信息理解和生成结果。 3. 上下文窗口大小是大模型竞争中的重要指标,决定了大模型对信息的理解程度和生成内容的接近程度。 4. Token数量影响大模型编程的计费,越多的Token意味着更高的费用。 5. 引入温度概念可以增加内容生成的随机性,调节温度参数可以影响大模型的活跃程度和生成结果的表现。 6. 在大模型内部处理的并不是字符串,而是向量,文本需要转换成向量才能进入大模型的处理。 7. 字符串转成向量经历了One-Hot编码和压缩的过程,最终得到Embedding。 8. Embedding是大模型编程中的另一个重要概念,牵涉到大模型生成文本的细节。 9. 大模型的工作是一次添加一个Token,Token在大模型编程中非常重要。 10. 大模型的处理中,需要经过One-Hot编码,然后对编码结果进行压缩,得到最终需要的结果。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《程序员的 AI 开发第一课》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部