这就是 ChatGPT
[美] 斯蒂芬 • 沃尔弗拉姆(Stephen Wolfram)
计算机科学家、数学家和理论物理学家
509 人已学习
立即订阅
登录后,你可以任选4讲全文学习
课程目录
已更新 24 讲/共 30 讲
第2章 (5讲)
时长 02:51
时长 03:57
时长 08:18
时长 00:38
这就是 ChatGPT
15
15
1.0x
00:00/00:00
登录|注册

ChatGPT 的内部原理

捕捉到人类大脑在生成语言时所做的事情的本质
需要一定时间生成长文本
每次生成标记需要进行 1750 亿次计算
包括了 Transformer 架构
每个神经元执行简单操作
由“人工神经元”构成
全连接神经网络层
注意力块
嵌入模块
生成下一个标记的概率数组
对嵌入进行操作
获取标记序列的嵌入
引入了“注意力”的概念
处理语言
GPT-3 拥有 1750 亿个权重
ChatGPT 的工作原理
ChatGPT 的计算复杂度
ChatGPT 的神经网络结构
构建 ChatGPT 需要的工作
ChatGPT 的操作分为三个基本阶段
Transformer 神经网络架构
ChatGPT 是一个庞大的神经网络
ChatGPT 的内部原理

该思维导图由 AI 生成,仅供参考

我们终于准备好讨论 ChatGPT 的内部原理了。从根本上说,ChatGPT 是一个庞大的神经网络— GPT-3 拥有 1750 亿个权重。它在许多方面非常像我们讨论过的其他神经网络,只不过是一个特别为处理语言而设置的神经网络。它最显著的特点是一个称为 Transformer 的神经网络架构。
在前面讨论的神经网络中,任何给定层的每个神经元基本上都与上一层的每个神经元相连(起码有一些权重)。但是,如果处理的数据具有特定的已知结构,则这种全连接网络就(可能)大材小用了。因此,以图像处理的早期阶段为例,通常使用所谓的卷积神经网络(convolutional neural net 或 convnet),其中的神经元被有效地布局在类似于图像像素的网格上,并且仅与在网格上相邻的神经元相连。
Transformer 的思想是,为组成一段文本的标记序列做与此相似的事情。但是,Transformer 不是仅仅定义了序列中可以连接的固定区域,而是引入了“注意力”的概念—即更多地“关注”序列的某些部分,而不是其他部分。也许在将来的某一天,可以启动一个通用神经网络并通过训练来完成所有的定制工作。但至少目前来看,在实践中将事物“模块化”似乎是至关重要的—就像 Transformer 所做的那样,也可能是我们的大脑所做的那样。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

ChatGPT 是基于庞大的神经网络 GPT-3,拥有 1750 亿个权重,采用 Transformer 神经网络架构。其内部原理包括嵌入模块、注意力块和全连接层,通过复杂的计算产生可识别的人类语言。ChatGPT 的操作分为三个基本阶段,每个部分都由一个神经网络实现。其总体目标是根据训练以“合理”的方式续写文本。神经网络在处理语言方面展现了强大能力,但其复杂的工作原理仍需深入理解。ChatGPT 的神经网络每生成一个新的标记,都必须进行一次包括所有权重在内的计算,因此生成长文本需要一定时间。ChatGPT 的内部原理展示了神经网络在处理语言方面的强大能力,以及其复杂的工作原理,这是一项可能非常惊人的科学发现。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《这就是 ChatGPT》
立即购买
登录 后留言

全部留言(1)

  • 最新
  • 精选
  • sqnv_geek
    沙发🛋️
    2024-01-14归属地:广东
收起评论
显示
设置
留言
1
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部