AI 技术内参
洪亮劼
Etsy 数据科学主管,前雅虎研究院资深科学家
33455 人已学习
新⼈⾸单¥98
登录后,你可以任选6讲全文学习
课程目录
已完结/共 166 讲
开篇词 (1讲)
人工智能国际顶级会议 (31讲)
搜索核心技术 (28讲)
推荐系统核心技术 (22讲)
数据科学家与数据科学团队养成 (25讲)
AI 技术内参
15
15
1.0x
00:00/00:00
登录|注册

105 | Word2Vec算法有哪些应用?

提前训练的词向量
词向量作为深度学习架构的输入
在监督学习任务中的重要性
词向量作为文本监督学习任务的重要特性
例如“国王”减去“男人”加上“女人”得到“王后”
利用向量的加减关系进行类比
使用词向量计算文档之间的相关度
利用Word2Vec进行加权平均
可以使用K均值算法等
利用余弦相关度进行聚类
使用余弦相关度或点积计算相关度
Word2Vec通过词向量表示实现计算
词包无法计算词与词之间的相似度
Word2Vec和主题模型提供的向量的关系
利用词向量进行更加复杂的自然语言任务的处理
计算词与词之间的相关度
Word2Vec模型在各种实际任务中的应用
对深度学习架构的支持
用于分类任务
词语的类比
获取文档向量
词的聚类
计算词与词之间的相似度
总结
Word2Vec的其他使用
Word2Vec在自然语言处理领域的应用
Word2Vec算法的应用

该思维导图由 AI 生成,仅供参考

周一,我们分享了三个比较有代表意义的 Word2Vec 的扩展模型,主要有两种思路,从词的上下文入手重新定义上下文,或者对完全不同的离散数据进行建模。
今天,我们来看一看Word2Vec 在自然语言处理领域的应用。如果我们已经通过 SG 模型、CBOW 模型或者其他的算法获得了词向量,接下来我们可以把这些词向量用于什么样的任务中呢?

Word2Vec 的简单应用

最直接的也是最常见的 Word2Vec 应用就是去计算词与词之间的相似度。当我们的数据还是原始的“词包”(Bag of Word),这时候是没法计算词与词之间的相似度的,因为每个词都被表示为某个元素为 1 其余元素都为 0 的离散向量。按照定义,两个离散向量之间的相似度都是 0。因此,从词包出发,我们无法直接计算词与词之间的相似度,这是从定义上就被限制了的。
Word2Vec 就是为了跨越这个障碍而被发明的,这一点我们在前面就已经提到过了。所以,当我们可以用 Word2Vec 的词向量来表示每一个单词的时候,我们就可以用“余弦相关度”(Cosine Similarity)来对两个词向量进行计算。余弦相关度其实就是计算两个向量的点积,然后再归一化。如果针对已经归一化了的向量,我们就可以直接采用点积来表达两个向量的相关度。不管是余弦相关度还是点积,我们都假设计算结果的值越大,两个词越相关,反之则不相关。
既然我们可以计算两个词的相关度,那么很多依赖相关度的任务就都能够轻松完成。比如,我们希望把词进行聚类,也就是说把相关的词都聚合在一起。通常的聚类算法都可以直接使用,比如我们熟悉的“K 均值”算法。这些算法的核心是计算两个数据点的距离,就可以利用我们刚刚讲的余弦相关度来实现。
我们在谈 Word2Vec 扩展模型的时候,曾经提到了一些扩展模型,可以用于表达比词这个单位更大的文本单元,比如段落和文档向量的获取。其实,当时我们就提到了一种可以得到这些单元向量的简单方法,那就是直接利用 Word2Vec 来进行加权平均。在获得了词向量之后,我们就可以用一个文档里所有词的加权平均,甚至是简单的叠加来达到表达文档的目的。这个时候,我们也就可以利用诸如余弦相关度来计算文档之间的相关度了。
另外一个随着 Word2Vec 的推出而大放异彩的应用则是“词语的类比”。Word2Vec 的原作者们用类比来表达,这种词向量能够完成一些与众不同的任务。词向量本质上就是一个连续空间的向量,因此从数学上来说,这种向量其实可以进行任何“合规”的运算,比如加、减、乘、除。于是,作者们就利用向量的加减关系,来看能否得到有意义的结果,而得到的结果令人吃惊。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

Word2Vec算法在自然语言处理领域有着广泛的应用。首先,它可以用于计算词与词之间的相似度,通过词向量的余弦相关度来实现词的聚类和相关度依赖的任务。其次,Word2Vec还可以用于获取文档向量,通过对词向量进行加权平均来表达文档,进而计算文档之间的相关度。另外,Word2Vec的词语类比功能也备受瞩目,通过向量的加减关系得到意义丰富的结果。除此之外,词向量还可以替代词包用于监督学习任务,成为文本监督学习任务的重要特性,并对深度学习架构提供支持。此外,提前训练的词向量也被广泛应用于各种深度学习架构中。总的来说,Word2Vec模型在各种实际任务中展现出了广泛的应用价值,为自然语言处理领域带来了新的可能性。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 技术内参》
新⼈⾸单¥98
立即购买
登录 后留言

全部留言(1)

  • 最新
  • 精选
  • Jtay-dlz
    我目前的理解更倾向于互补,主题模型提供的向量特征来自于对文档和主题的整体把握,而词向量更多的来自于上下文(特别是词序接近的)的特征提取,两者互补或可达到更好的效果
    2020-05-05
    4
收起评论
显示
设置
留言
1
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部