ChatGPT 的内部原理
[美] 斯蒂芬 • 沃尔弗拉姆(Stephen Wolfram)
该思维导图由 AI 生成,仅供参考
我们终于准备好讨论 ChatGPT 的内部原理了。从根本上说,ChatGPT 是一个庞大的神经网络— GPT-3 拥有 1750 亿个权重。它在许多方面非常像我们讨论过的其他神经网络,只不过是一个特别为处理语言而设置的神经网络。它最显著的特点是一个称为 Transformer 的神经网络架构。
在前面讨论的神经网络中,任何给定层的每个神经元基本上都与上一层的每个神经元相连(起码有一些权重)。但是,如果处理的数据具有特定的已知结构,则这种全连接网络就(可能)大材小用了。因此,以图像处理的早期阶段为例,通常使用所谓的卷积神经网络(convolutional neural net 或 convnet),其中的神经元被有效地布局在类似于图像像素的网格上,并且仅与在网格上相邻的神经元相连。
Transformer 的思想是,为组成一段文本的标记序列做与此相似的事情。但是,Transformer 不是仅仅定义了序列中可以连接的固定区域,而是引入了“注意力”的概念—即更多地“关注”序列的某些部分,而不是其他部分。也许在将来的某一天,可以启动一个通用神经网络并通过训练来完成所有的定制工作。但至少目前来看,在实践中将事物“模块化”似乎是至关重要的—就像 Transformer 所做的那样,也可能是我们的大脑所做的那样。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
ChatGPT 是基于庞大的神经网络 GPT-3,拥有 1750 亿个权重,采用 Transformer 神经网络架构。其内部原理包括嵌入模块、注意力块和全连接层,通过复杂的计算产生可识别的人类语言。ChatGPT 的操作分为三个基本阶段,每个部分都由一个神经网络实现。其总体目标是根据训练以“合理”的方式续写文本。神经网络在处理语言方面展现了强大能力,但其复杂的工作原理仍需深入理解。ChatGPT 的神经网络每生成一个新的标记,都必须进行一次包括所有权重在内的计算,因此生成长文本需要一定时间。ChatGPT 的内部原理展示了神经网络在处理语言方面的强大能力,以及其复杂的工作原理,这是一项可能非常惊人的科学发现。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《这就是 ChatGPT》
《这就是 ChatGPT》
立即购买
登录 后留言
全部留言(1)
- 最新
- 精选
- sqnv_geek沙发🛋️2024-01-14归属地:广东
收起评论