34 | 向量空间模型：如何让计算机理解现实事物之间的关系？

黄申



该思维导图由 AI 生成，仅供参考

你好，我是黄申。
之前我们讲过如何让计算机理解现实世界中的事物，方法是把事物的各种特性转为机器所能理解的数据字段。而这些数据字段，在机器学习里通常被称为特征。有了特征，我们不仅可以刻画事物本身，还能刻画不同事物之间的关系。
上一个模块我们只是了解了监督式学习，重点考察了特征和分类标签之间的关系。但是在信息检索和非监督式学习中，我们更关注的是不同事物之间的相似程度。这就需要用到线性代数中的向量空间模型了。
提到向量空间模型，你可能对其中的概念有点陌生，所以我会从向量空间的基本概念开始说起，讲到向量空间模型的相关知识，最后再讲讲它是如何应用在不同的编程中的。
什么是向量空间？上一节，我讲到了向量和向量空间的一些基本概念。为了帮助你更好地理解向量空间模型，我这里给出向量和向量空间的严格定义。
首先假设有一个数的集合 F，它满足“F 中任意两个数的加减乘除法（除数不为零）的结果仍然在这个 F 中”，我们就可以称 F 为一个“域”。我们处理的数据通常都是实数，所以这里我只考虑实数域。而如果域 F 里的元素都为实数，那么 F 就是实数域。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

本文介绍了向量空间模型的基本概念和相关知识。首先介绍了向量空间的基本概念，包括向量和向量空间的定义，以及向量空间的封闭性和基本运算法则。接着详细讨论了向量之间的距离，包括曼哈顿距离、欧氏距离、切比雪夫距离和闵可夫斯基距离，以及向量的长度和不同范数的概念。夹角余弦被引入，用于计算空间中两个向量所形成夹角的余弦值，以及向量空间模型的应用。向量空间模型假设所有的对象都可以转化为向量，然后使用向量间的距离或夹角余弦来表示两个对象之间的相似程度。最后，文章提出了思考题，引发读者思考。文章内容简洁明了，为读者快速了解向量空间模型提供了基础。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《程序员的数学基础课》，新⼈⾸单¥68

立即购买

登录后留言

全部留言(23)

最新
精选

Wing·三金
欧式距离的平方=25+16+196=237 欧式距离为根号 237≈15.4 cos=（-6-3-48）/ （√（9+1+64）*√（4+9+36））=（-57）/ （7*√74）≈-0.95 另外似乎有个小错误：在总结前有个公式 1/(1-ED)，当ED从 0-正无穷变化时，公式的值域是负无穷到正无穷除去0。可以考虑换成 MinMax 等方法归一化。
作者回复: 对 MinMax 也是可以的。不过这里是1除以(1-ED)，所以不会出现负无穷大。而最大的值也不会超过1。
2019-03-04

8
七月有风
二维三维空间很好理解，也可以借助图形理解，四维五维也有这种图形吗？还是只是我们假象出来的，在这儿有点转不过来
作者回复: 3维以上的空间，人脑想象是有困难的，通常借助2维和3维进行推导
2019-07-23
3
4
JustDoDT
这节讲的太好了，值得分享给身边的从业者。
作者回复: 感谢支持
2020-02-21

3
YiFān.W
那这个向量应当包括字典中所有的词条吧？实际情况中岂不是非常非常大
作者回复: 是的，这个向量维数很多，在实际应用中，我们可以使用降维、倒排索引等措施来提高效率。后面也会介绍
2019-03-13

2
mickey
欧氏距离：√237 夹角余弦：-57/√(74*49)
作者回复: 正确👌
2019-03-05

2
李皮皮皮皮皮
V是Fn的子集，Fn是F中的n维向量。那怎么会有标量属于V呢？不太明白😢
作者回复: 好问题，V是针对向量，标量不受限
2019-03-04

2
栗景树
因为我们处在三维空间，图形化的信息表达最多只能到三维，三维以上的空间，画不出来，在大脑里模拟出来的形状还是基于三维，想出来也还是不对的，只能靠数学推导。
作者回复: 没错
2022-01-05

1
码农Kevin亮
请问老师，不同的距离的应用场景有什么区别与讲究呢？
作者回复: 常用的有欧氏距离和余弦夹角。余弦夹角有归一化的作用，比较适合文档长短不一之间的匹配，例如查询和问答，查询要比文档短的多。
2020-07-29

1
哈哈哈
切比雪夫距离公式感觉写错了？我查阅其他资料应该是 MAX(| X1 - X2 |, | Y1 - Y2 |) 吧？
作者回复: 这里x, y表示两个不同的点，而不是x，y轴。抱歉这里的符号有点让人困惑
2021-06-07


观众
什么是n维空间？
作者回复: 2维和3维比较容易理解，4维可以算上时间，再多的维度，人脑很难想象出来，不过从数学的角度，就是有多于4个的坐标轴
2021-03-20



收起评论