34 | 向量空间模型:如何让计算机理解现实事物之间的关系?
黄申
该思维导图由 AI 生成,仅供参考
你好,我是黄申。
之前我们讲过如何让计算机理解现实世界中的事物,方法是把事物的各种特性转为机器所能理解的数据字段。而这些数据字段,在机器学习里通常被称为特征。有了特征,我们不仅可以刻画事物本身,还能刻画不同事物之间的关系。
上一个模块我们只是了解了监督式学习,重点考察了特征和分类标签之间的关系。但是在信息检索和非监督式学习中,我们更关注的是不同事物之间的相似程度。这就需要用到线性代数中的向量空间模型了。
提到向量空间模型,你可能对其中的概念有点陌生,所以我会从向量空间的基本概念开始说起,讲到向量空间模型的相关知识,最后再讲讲它是如何应用在不同的编程中的。
什么是向量空间?
上一节,我讲到了向量和向量空间的一些基本概念。为了帮助你更好地理解向量空间模型,我这里给出向量和向量空间的严格定义。
首先假设有一个数的集合 ,它满足“ 中任意两个数的加减乘除法(除数不为零)的结果仍然在这个 中”,我们就可以称 为一个“域”。我们处理的数据通常都是实数,所以这里我只考虑实数域。而如果域 里的元素都为实数,那么 就是实数域。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
本文介绍了向量空间模型的基本概念和相关知识。首先介绍了向量空间的基本概念,包括向量和向量空间的定义,以及向量空间的封闭性和基本运算法则。接着详细讨论了向量之间的距离,包括曼哈顿距离、欧氏距离、切比雪夫距离和闵可夫斯基距离,以及向量的长度和不同范数的概念。夹角余弦被引入,用于计算空间中两个向量所形成夹角的余弦值,以及向量空间模型的应用。向量空间模型假设所有的对象都可以转化为向量,然后使用向量间的距离或夹角余弦来表示两个对象之间的相似程度。最后,文章提出了思考题,引发读者思考。文章内容简洁明了,为读者快速了解向量空间模型提供了基础。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《程序员的数学基础课》,新⼈⾸单¥68
《程序员的数学基础课》,新⼈⾸单¥68
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(23)
- 最新
- 精选
- Wing·三金欧式距离的平方=25+16+196=237 欧式距离为根号 237≈15.4 cos=(-6-3-48)/ (√(9+1+64)*√(4+9+36))=(-57)/ (7*√74)≈-0.95 另外似乎有个小错误:在总结前有个公式 1/(1-ED),当ED从 0-正无穷 变化时,公式的值域是负无穷到正无穷除去0。可以考虑换成 MinMax 等方法归一化。
作者回复: 对 MinMax 也是可以的。不过这里是1除以(1-ED),所以不会出现负无穷大。而最大的值也不会超过1。
2019-03-048 - 七月有风二维三维空间很好理解,也可以借助图形理解,四维五维也有这种图形吗?还是只是我们假象出来的,在这儿有点转不过来
作者回复: 3维以上的空间,人脑想象是有困难的,通常借助2维和3维进行推导
2019-07-2334 - JustDoDT这节讲的太好了,值得分享给身边的从业者。
作者回复: 感谢支持
2020-02-213 - YiFān.W那这个向量应当包括字典中所有的词条吧?实际情况中岂不是非常非常大
作者回复: 是的,这个向量维数很多,在实际应用中,我们可以使用降维、倒排索引等措施来提高效率。后面也会介绍
2019-03-132 - mickey欧氏距离:√237 夹角余弦:-57/√(74*49)
作者回复: 正确👌
2019-03-052 - 李皮皮皮皮皮V是Fn的子集,Fn是F中的n维向量。那怎么会有标量属于V呢?不太明白😢
作者回复: 好问题,V是针对向量,标量不受限
2019-03-042 - 栗景树因为我们处在三维空间,图形化的信息表达最多只能到三维,三维以上的空间,画不出来,在大脑里模拟出来的形状还是基于三维,想出来也还是不对的,只能靠数学推导。
作者回复: 没错
2022-01-051 - 码农Kevin亮请问老师,不同的距离的应用场景有什么区别与讲究呢?
作者回复: 常用的有欧氏距离和余弦夹角。余弦夹角有归一化的作用,比较适合文档长短不一之间的匹配,例如查询和问答,查询要比文档短的多。
2020-07-291 - 哈哈哈切比雪夫距离公式感觉写错了? 我查阅其他资料 应该是 MAX(| X1 - X2 |, | Y1 - Y2 |) 吧?
作者回复: 这里x, y表示两个不同的点,而不是x,y轴。抱歉这里的符号有点让人困惑
2021-06-07 - 观众什么是n维空间?
作者回复: 2维和3维比较容易理解,4维可以算上时间,再多的维度,人脑很难想象出来,不过从数学的角度,就是有多于4个的坐标轴
2021-03-20
收起评论