程序员的数学基础课
黄申
LinkedIn 资深数据科学家
83374 人已学习
新⼈⾸单¥68
登录后,你可以任选4讲全文学习
课程目录
已完结/共 58 讲
导读 (1讲)
基础思想篇 (18讲)
程序员的数学基础课
15
15
1.0x
00:00/00:00
登录|注册

34 | 向量空间模型:如何让计算机理解现实事物之间的关系?

L∞范数
Lp范数
L2范数
L1范数
机器学习
信息检索
范数的概念
闵可夫斯基距离
切比雪夫距离
欧氏距离
曼哈顿距离
应用领域
向量之间的夹角
向量的长度
向量之间的距离
向量空间的定义
向量的定义
域的定义
向量空间模型
向量空间的重要概念
向量空间的定义
向量空间模型

该思维导图由 AI 生成,仅供参考

你好,我是黄申。
之前我们讲过如何让计算机理解现实世界中的事物,方法是把事物的各种特性转为机器所能理解的数据字段。而这些数据字段,在机器学习里通常被称为特征。有了特征,我们不仅可以刻画事物本身,还能刻画不同事物之间的关系。
上一个模块我们只是了解了监督式学习,重点考察了特征和分类标签之间的关系。但是在信息检索和非监督式学习中,我们更关注的是不同事物之间的相似程度。这就需要用到线性代数中的向量空间模型了。
提到向量空间模型,你可能对其中的概念有点陌生,所以我会从向量空间的基本概念开始说起,讲到向量空间模型的相关知识,最后再讲讲它是如何应用在不同的编程中的。

什么是向量空间?

上一节,我讲到了向量和向量空间的一些基本概念。为了帮助你更好地理解向量空间模型,我这里给出向量和向量空间的严格定义。
首先假设有一个数的集合 ,它满足“ 中任意两个数的加减乘除法(除数不为零)的结果仍然在这个 中”,我们就可以称 为一个“域”。我们处理的数据通常都是实数,所以这里我只考虑实数域。而如果域 里的元素都为实数,那么 就是实数域。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

本文介绍了向量空间模型的基本概念和相关知识。首先介绍了向量空间的基本概念,包括向量和向量空间的定义,以及向量空间的封闭性和基本运算法则。接着详细讨论了向量之间的距离,包括曼哈顿距离、欧氏距离、切比雪夫距离和闵可夫斯基距离,以及向量的长度和不同范数的概念。夹角余弦被引入,用于计算空间中两个向量所形成夹角的余弦值,以及向量空间模型的应用。向量空间模型假设所有的对象都可以转化为向量,然后使用向量间的距离或夹角余弦来表示两个对象之间的相似程度。最后,文章提出了思考题,引发读者思考。文章内容简洁明了,为读者快速了解向量空间模型提供了基础。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《程序员的数学基础课》
新⼈⾸单¥68
立即购买
登录 后留言

全部留言(23)

  • 最新
  • 精选
  • Wing·三金
    欧式距离的平方=25+16+196=237 欧式距离为根号 237≈15.4 cos=(-6-3-48)/ (√(9+1+64)*√(4+9+36))=(-57)/ (7*√74)≈-0.95 另外似乎有个小错误:在总结前有个公式 1/(1-ED),当ED从 0-正无穷 变化时,公式的值域是负无穷到正无穷除去0。可以考虑换成 MinMax 等方法归一化。

    作者回复: 对 MinMax 也是可以的。不过这里是1除以(1-ED),所以不会出现负无穷大。而最大的值也不会超过1。

    2019-03-04
    8
  • 七月有风
    二维三维空间很好理解,也可以借助图形理解,四维五维也有这种图形吗?还是只是我们假象出来的,在这儿有点转不过来

    作者回复: 3维以上的空间,人脑想象是有困难的,通常借助2维和3维进行推导

    2019-07-23
    3
    4
  • JustDoDT
    这节讲的太好了,值得分享给身边的从业者。

    作者回复: 感谢支持

    2020-02-21
    3
  • YiFān.W
    那这个向量应当包括字典中所有的词条吧?实际情况中岂不是非常非常大

    作者回复: 是的,这个向量维数很多,在实际应用中,我们可以使用降维、倒排索引等措施来提高效率。后面也会介绍

    2019-03-13
    2
  • mickey
    欧氏距离:√237 夹角余弦:-57/√(74*49)

    作者回复: 正确👌

    2019-03-05
    2
  • 李皮皮皮皮皮
    V是Fn的子集,Fn是F中的n维向量。那怎么会有标量属于V呢?不太明白😢

    作者回复: 好问题,V是针对向量,标量不受限

    2019-03-04
    2
  • 栗景树
    因为我们处在三维空间,图形化的信息表达最多只能到三维,三维以上的空间,画不出来,在大脑里模拟出来的形状还是基于三维,想出来也还是不对的,只能靠数学推导。

    作者回复: 没错

    2022-01-05
    1
  • 码农Kevin亮
    请问老师,不同的距离的应用场景有什么区别与讲究呢?

    作者回复: 常用的有欧氏距离和余弦夹角。余弦夹角有归一化的作用,比较适合文档长短不一之间的匹配,例如查询和问答,查询要比文档短的多。

    2020-07-29
    1
  • 哈哈哈
    切比雪夫距离公式感觉写错了? 我查阅其他资料 应该是 MAX(| X1 - X2 |, | Y1 - Y2 |) 吧?

    作者回复: 这里x, y表示两个不同的点,而不是x,y轴。抱歉这里的符号有点让人困惑

    2021-06-07
  • 观众
    什么是n维空间?

    作者回复: 2维和3维比较容易理解,4维可以算上时间,再多的维度,人脑很难想象出来,不过从数学的角度,就是有多于4个的坐标轴

    2021-03-20
收起评论
显示
设置
留言
23
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部