105 | Word2Vec算法有哪些应用？

洪亮劼



该思维导图由 AI 生成，仅供参考

周一，我们分享了三个比较有代表意义的 Word2Vec 的扩展模型，主要有两种思路，从词的上下文入手重新定义上下文，或者对完全不同的离散数据进行建模。
今天，我们来看一看Word2Vec 在自然语言处理领域的应用。如果我们已经通过 SG 模型、CBOW 模型或者其他的算法获得了词向量，接下来我们可以把这些词向量用于什么样的任务中呢？
Word2Vec 的简单应用最直接的也是最常见的 Word2Vec 应用就是去计算词与词之间的相似度。当我们的数据还是原始的“词包”（Bag of Word），这时候是没法计算词与词之间的相似度的，因为每个词都被表示为某个元素为 1 其余元素都为 0 的离散向量。按照定义，两个离散向量之间的相似度都是 0。因此，从词包出发，我们无法直接计算词与词之间的相似度，这是从定义上就被限制了的。
Word2Vec 就是为了跨越这个障碍而被发明的，这一点我们在前面就已经提到过了。所以，当我们可以用 Word2Vec 的词向量来表示每一个单词的时候，我们就可以用“余弦相关度”（Cosine Similarity）来对两个词向量进行计算。余弦相关度其实就是计算两个向量的点积，然后再归一化。如果针对已经归一化了的向量，我们就可以直接采用点积来表达两个向量的相关度。不管是余弦相关度还是点积，我们都假设计算结果的值越大，两个词越相关，反之则不相关。
既然我们可以计算两个词的相关度，那么很多依赖相关度的任务就都能够轻松完成。比如，我们希望把词进行聚类，也就是说把相关的词都聚合在一起。通常的聚类算法都可以直接使用，比如我们熟悉的“K 均值”算法。这些算法的核心是计算两个数据点的距离，就可以利用我们刚刚讲的余弦相关度来实现。
我们在谈 Word2Vec 扩展模型的时候，曾经提到了一些扩展模型，可以用于表达比词这个单位更大的文本单元，比如段落和文档向量的获取。其实，当时我们就提到了一种可以得到这些单元向量的简单方法，那就是直接利用 Word2Vec 来进行加权平均。在获得了词向量之后，我们就可以用一个文档里所有词的加权平均，甚至是简单的叠加来达到表达文档的目的。这个时候，我们也就可以利用诸如余弦相关度来计算文档之间的相关度了。
另外一个随着 Word2Vec 的推出而大放异彩的应用则是“词语的类比”。Word2Vec 的原作者们用类比来表达，这种词向量能够完成一些与众不同的任务。词向量本质上就是一个连续空间的向量，因此从数学上来说，这种向量其实可以进行任何“合规”的运算，比如加、减、乘、除。于是，作者们就利用向量的加减关系，来看能否得到有意义的结果，而得到的结果令人吃惊。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

Word2Vec算法在自然语言处理领域有着广泛的应用。首先，它可以用于计算词与词之间的相似度，通过词向量的余弦相关度来实现词的聚类和相关度依赖的任务。其次，Word2Vec还可以用于获取文档向量，通过对词向量进行加权平均来表达文档，进而计算文档之间的相关度。另外，Word2Vec的词语类比功能也备受瞩目，通过向量的加减关系得到意义丰富的结果。除此之外，词向量还可以替代词包用于监督学习任务，成为文本监督学习任务的重要特性，并对深度学习架构提供支持。此外，提前训练的词向量也被广泛应用于各种深度学习架构中。总的来说，Word2Vec模型在各种实际任务中展现出了广泛的应用价值，为自然语言处理领域带来了新的可能性。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 技术内参》，新⼈⾸单¥98

立即购买

登录后留言

全部留言(1)

最新
精选

Jtay-dlz
我目前的理解更倾向于互补，主题模型提供的向量特征来自于对文档和主题的整体把握，而词向量更多的来自于上下文（特别是词序接近的）的特征提取，两者互补或可达到更好的效果
2020-05-05

4

收起评论