105 | Word2Vec算法有哪些应用?
洪亮劼
该思维导图由 AI 生成,仅供参考
周一,我们分享了三个比较有代表意义的 Word2Vec 的扩展模型,主要有两种思路,从词的上下文入手重新定义上下文,或者对完全不同的离散数据进行建模。
今天,我们来看一看Word2Vec 在自然语言处理领域的应用。如果我们已经通过 SG 模型、CBOW 模型或者其他的算法获得了词向量,接下来我们可以把这些词向量用于什么样的任务中呢?
Word2Vec 的简单应用
最直接的也是最常见的 Word2Vec 应用就是去计算词与词之间的相似度。当我们的数据还是原始的“词包”(Bag of Word),这时候是没法计算词与词之间的相似度的,因为每个词都被表示为某个元素为 1 其余元素都为 0 的离散向量。按照定义,两个离散向量之间的相似度都是 0。因此,从词包出发,我们无法直接计算词与词之间的相似度,这是从定义上就被限制了的。
Word2Vec 就是为了跨越这个障碍而被发明的,这一点我们在前面就已经提到过了。所以,当我们可以用 Word2Vec 的词向量来表示每一个单词的时候,我们就可以用“余弦相关度”(Cosine Similarity)来对两个词向量进行计算。余弦相关度其实就是计算两个向量的点积,然后再归一化。如果针对已经归一化了的向量,我们就可以直接采用点积来表达两个向量的相关度。不管是余弦相关度还是点积,我们都假设计算结果的值越大,两个词越相关,反之则不相关。
既然我们可以计算两个词的相关度,那么很多依赖相关度的任务就都能够轻松完成。比如,我们希望把词进行聚类,也就是说把相关的词都聚合在一起。通常的聚类算法都可以直接使用,比如我们熟悉的“K 均值”算法。这些算法的核心是计算两个数据点的距离,就可以利用我们刚刚讲的余弦相关度来实现。
我们在谈 Word2Vec 扩展模型的时候,曾经提到了一些扩展模型,可以用于表达比词这个单位更大的文本单元,比如段落和文档向量的获取。其实,当时我们就提到了一种可以得到这些单元向量的简单方法,那就是直接利用 Word2Vec 来进行加权平均。在获得了词向量之后,我们就可以用一个文档里所有词的加权平均,甚至是简单的叠加来达到表达文档的目的。这个时候,我们也就可以利用诸如余弦相关度来计算文档之间的相关度了。
另外一个随着 Word2Vec 的推出而大放异彩的应用则是“词语的类比”。Word2Vec 的原作者们用类比来表达,这种词向量能够完成一些与众不同的任务。词向量本质上就是一个连续空间的向量,因此从数学上来说,这种向量其实可以进行任何“合规”的运算,比如加、减、乘、除。于是,作者们就利用向量的加减关系,来看能否得到有意义的结果,而得到的结果令人吃惊。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
Word2Vec算法在自然语言处理领域有着广泛的应用。首先,它可以用于计算词与词之间的相似度,通过词向量的余弦相关度来实现词的聚类和相关度依赖的任务。其次,Word2Vec还可以用于获取文档向量,通过对词向量进行加权平均来表达文档,进而计算文档之间的相关度。另外,Word2Vec的词语类比功能也备受瞩目,通过向量的加减关系得到意义丰富的结果。除此之外,词向量还可以替代词包用于监督学习任务,成为文本监督学习任务的重要特性,并对深度学习架构提供支持。此外,提前训练的词向量也被广泛应用于各种深度学习架构中。总的来说,Word2Vec模型在各种实际任务中展现出了广泛的应用价值,为自然语言处理领域带来了新的可能性。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 技术内参》,新⼈⾸单¥98
《AI 技术内参》,新⼈⾸单¥98
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(1)
- 最新
- 精选
- Jtay-dlz我目前的理解更倾向于互补,主题模型提供的向量特征来自于对文档和主题的整体把握,而词向量更多的来自于上下文(特别是词序接近的)的特征提取,两者互补或可达到更好的效果2020-05-054
收起评论