ChatGPT 的训练

[美] 斯蒂芬 • 沃尔弗拉姆（Stephen Wolfram）



该思维导图由 AI 生成，仅供参考

我们已经概述了 ChatGPT 在设置后的工作方式。但是它是如何设置的呢？那 1750 亿个神经元的权重是如何确定的呢？基本上，这是基于包含人类所写文本的巨型语料库（来自互联网、书籍等），通过大规模训练得出的结果。正如我们所说，即使有所有这些训练数据，也不能肯定神经网络能够成功地产生“类人”文本。似乎需要细致的工程设计才能实现这一点。但是，ChatGPT 带来的一大惊喜和发现是，它完全可以做到。实际上，“只有 1750 亿个权重”的神经网络就可以构建出人类所写文本的一个“合理模型”。
现代社会中，人类写的很多文本以数字（digital）形式存在。公共互联网上至少有数十亿个包含人类所写文本的网页，总词数可能达到万亿级别。如果包括非公开的网页，词数可能会增加至少 100 倍。到目前为止，已经有超过 500 万本电子书可供阅读（全球发行的图书品种总数为 1 亿左右），提供了另外约 1000 亿个词的文本。这还不包括视频中的口述文本等。（就个人而言，我一生中发表的文字总量不到 300 万个词，在过去 30 年中写下了约 1500 万个词的电子邮件，总共敲了大约 5000 万个词—而且仅在过去几年的直播中，我就说了超过 1000 万个词。是的，我会从中训练一个机器人。）

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

ChatGPT是一个基于1750亿个神经元权重的神经网络，能够生成类人文本。它通过大规模训练，利用包含人类所写文本的巨型语料库，如互联网、书籍等，得出结果。现代社会中，人类写的大量文本以数字形式存在，包括数十亿个网页和超过500万本电子书。ChatGPT成功地在包含几百亿个词的文本上完成了训练。尽管有些文本被输入了多次，有些只输入了一次，但ChatGPT从它看到的文本中“得到了所需的信息”。ChatGPT使用了近2000亿个权重来完成其工作，数量与其接受的训练数据中的词的总数相当。ChatGPT的成功表明它是相当高效的。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《这就是 ChatGPT》

立即购买

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论