AI 大模型项目落地实战
蓝金伟
AI 创业者,前新浪网技术专家
410 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已更新 3 讲/共 26 讲
AI 大模型项目落地实战
15
15
1.0x
00:00/00:00
登录|注册

02|工程:ChatGPT有哪些核心工程创新点?

你好,我是金伟。
上节课说的 Transformer 模型是 ChatGPT 的基础算法,这节课我们来看看 ChatGPT 在这个基础上做了哪些工程创新。这些工程创新,才是让 ChatGPT 成名的关键。
大模型领域有一个词叫智能涌现,指的是当模型数据和参数达到一定规模时,大模型自发出现新的能力或行为。这些能力或行为并不是在模型设计初期就有过明确计划或预测的,ChatGPT 就是一个典型的例子。
ChatGPT 使用了约 45TB 的训练数据,生成的模型有 1750 亿个参数,发布时间是在 2022 年底。在它推出之后,人们惊奇地发现它已经具备了程序员级别的编程能力,以至于很多人都说第一个被 AI 替代的工种将是程序员。除了编程能力,ChatGPT 还涌现了可以媲美人类的其他智能,这也是 2023 年初 AI 爆火,各大模型厂商疯狂卷算力和参数的原因。
那究竟是什么推动了这种智能涌现呢?目前还没有非常明确的科学解释。这多少有点像古代的“炼丹”故事,现在的大模型厂商只是把数据和参数扔进“炼丹炉”,希望自己成为第一个炼出 AGI(通用人工智能)的人。
虽然底层原理尚不清楚,但是从工程上来说,ChatGPT 却提供了一份可参考的“炼丹术”,这也正是本节课我想提炼出来分享给你的。大模型的三大核心创新点,Transformer、数据与训练、算力。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. ChatGPT是基于Transformer模型的工程创新,通过对Transformer进行工程上的优化创新,使得模型具备了程序员级别的编程能力和其他智能。 2. ChatGPT的Decoder架构是一个重要的工程创新,它只使用了Transformer原始架构中的解码器部分,使得模型擅长生成连贯的、上下文相关的文本,在自然语言生成任务中表现出色。 3. ChatGPT的预训练过程利用了大量数据集进行监督学习,但不需要预处理数据,而是利用Transformer的特性进行“文字接龙”游戏式的训练,从而使得模型掌握了丰富的知识。 4. 模型微调是训练ChatGPT具备专业能力的过程,通过对模型进行微调,使得模型具备了更专业的能力。 5. ChatGPT对训练数据进行了精心的整理和处理,包括垃圾信息过滤、数据去重、低质语料过滤等,最终让ChatGPT做到了相对比较“聪明”的效果。 6. OpenAI团队在公开数据集基础上做了很多数据整理工作,并形成了自己独特的高质量数据集,这也是ChatGPT相对其他大模型产品更“聪明”的原因之一.

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 大模型项目落地实战》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(2)

  • 最新
  • 精选
  • Ethan New
    ChatGPT预训练阶段怎么是有监督学习?没有搞错吧
    2024-08-09归属地:浙江
  • 石云升
    追更,第一时间看完。看完后更好的理解了大模型。然后,边睡边思考。
    2024-08-09归属地:广东
收起评论
显示
设置
留言
2
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部
文章页面操作
MAC
windows
作用
esc
esc
退出沉浸式阅读
shift + f
f11
进入/退出沉浸式
command + ⬆️
home
滚动到页面顶部
command + ⬇️
end
滚动到页面底部
⬅️ (仅针对订阅)
⬅️ (仅针对订阅)
上一篇
➡️ (仅针对订阅)
➡️ (仅针对订阅)
下一篇
command + j
page up
向下滚动一屏
command + k
page down
向上滚动一屏
p
p
音频播放/暂停
j
j
向下滚动一点
k
k
向上滚动一点
空格
空格
向下滚动一屏
播放器操作
MAC
windows
作用
esc
esc
退出全屏
⬅️
⬅️
快退
➡️
➡️
快进
空格
空格
视频播放/暂停(视频全屏时生效)