这就是 ChatGPT
[美] 斯蒂芬 • 沃尔弗拉姆(Stephen Wolfram)
计算机科学家、数学家和理论物理学家
509 人已学习
立即订阅
登录后,你可以任选4讲全文学习
课程目录
已更新 24 讲/共 30 讲
第2章 (5讲)
时长 02:51
时长 03:57
时长 08:18
时长 00:38
这就是 ChatGPT
15
15
1.0x
00:00/00:00
登录|注册

“嵌入”的概念

观察词出现的“环境”
查看大量的文本
通过任务隐含地确定图像的“接近度”
神经网络内部的数值表示
以数字列表表征图像
构建嵌入的方法
嵌入对词的布局方式
在“意义空间”中布局词
“相近的事物”由相近的数表示
用数的数组表示某些东西的“本质”
处理“标记”而不是词
对词序列和整个文本块进行表征
嵌入向量的信息
不同系统的嵌入方法
获取数字列表作为“每个词的表征”
为神经网络设置问题
词预测任务
用数值表征图像的“本质”
通过 softmax 强制推出确定性
图像嵌入的具体操作
图像嵌入
词嵌入
嵌入的思想
ChatGPT 的处理方式
词的嵌入
神经网络实现嵌入的机制
文本表示方法
神经网络基于数的表示
嵌入的概念

该思维导图由 AI 生成,仅供参考

神经网络,至少以目前的设置来说,基本上是基于数的。因此,如果要用它来处理像文本这样的东西,我们需要一种用数表示文本的方法。当然,我们可以(本质上和 ChatGPT 一样)从为字典中的每个词分配一个数开始。但有一个重要的思想—也是 ChatGPT 的中心思想—更胜一筹。这就是“嵌入”(embedding)的思想。可以将嵌入视为一种尝试通过数的数组来表示某些东西“本质”的方法,其特性是“相近的事物”由相近的数表示。
例如,我们可以将词嵌入视为试图在一种“意义空间”中布局词,其中“在意义上相近”的词会出现在相近的位置。实际使用的嵌入(例如在 ChatGPT 中)往往涉及大量数字列表。但如果将其投影到二维平面上,则可以展示嵌入对词的布局方式。
可以看到,这确实非常成功地捕捉了我们典型的日常印象。但是如何才能构建这样的嵌入呢?大致的想法是查看大量的文本(这里查看了来自互联网的 50 亿个词),然后看看各个词出现的“环境”有多“相似”。例如,alligator(短吻鳄)和 crocodile(鳄鱼)在相似的句子中经常几乎可以互换,这意味着它们将在嵌入中被放在相近的位置。但是,turnip(芜菁)和 eagle(鹰)一般不会出现在相似的句子中,因此将在嵌入中相距很远。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

神经网络中的“嵌入”概念是一种重要的数值表示方法,特别适用于处理文本和图像。嵌入的核心思想是通过数的数组来表示某些东西的“本质”,使得相近的事物由相近的数表示。在处理图像时,通过神经网络内部的数值来表征图像的“本质”,从而实现图像嵌入。对于词嵌入,通过训练神经网络进行词预测任务,获取词的表征。这些嵌入向量可以用于衡量词之间的相似度,进而实现对词的数值化表示。此外,还可以对词序列甚至整个文本块进行嵌入表示。这种技术在 ChatGPT 中得到了应用,通过生成嵌入向量来表示文本的“本质”,为读者提供了一种快速了解文章内容的方法。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《这就是 ChatGPT》
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部