104 | Word2Vec算法有哪些扩展模型？

洪亮劼



该思维导图由 AI 生成，仅供参考

从上一期的分享开始，我们进入到文本分析的另外一个环节，那就是介绍一个最近几年兴起的重要文本模型，Word2Vec。这个模型对文本挖掘、自然语言处理等很多领域都有重要影响。我们讨论了 Word2Vec 模型的基本假设，主要是如何从离散的词包输入获得连续的词的表达，以及如何能够利用上下文从而学习到词的隐含特性。我们还聊了两个 Word2Vec 模型，SG（SkipGram）模型和 CBOW（Continuous-Bag-of-Word）模型，讨论了它们都有什么特性以及如何实现。
今天，我们就来看一看Word2Vec 的一些扩展模型。
Word2Vec 的扩展思路在列举几个比较知名的 Word2Vec 扩展模型之前，我们首先来看看这个模型怎么进行扩展。
首先，我们来回忆一下 Word2Vec 的一个基本的性质，那就是这是一个语言模型。而语言模型本身其实是一个离散分布模型。我们一起来想一想，什么是语言模型？语言模型就是针对某一个词库（这里其实就是一个语言的所有单词），然后在某种语境下，产生下一个单词的模型。也就是说，语言模型是一个产生式模型，而且这个产生式模型是产生单词这一离散数据的。
既然是这样，如果我们更改这个词库，变成任何的离散数据，那么，Word2Vec 这个模型依然能够输出在新词库下的离散数据。比如，如果我们把词汇库从英语单词换成物品的下标，那 Word2Vec 就变成了一个对物品的序列进行建模的工具。这其实就是扩展 Word2Vec 的一大思路，那就是如何把 Word2Vec 应用到其他的离散数据上。
扩展 Word2Vec 的第二大思路，则是从 Word2Vec 的另外一个特性入手：上下文的语境信息。我们在之前的介绍中也讲过，这个上下文信息是 Word2Vec 成功的一个关键因素，因为这样就使得我们学习到的词向量能够表达上下文的关联所带来的语义信息。这也是传统的主题模型（Topic Model）例如 LDA 或者 PLSA 所不具备的。那么，我们能不能对这个上下文进行更换，从而使得 Word2Vec 能够产生完全不一样的词向量呢？答案是肯定的，这也是 Word2Vec 扩展的重要思路。
除此以外，还有一个重要的分支，那就是很多研究者都希望往 Word2Vec 里增加更多的信息，比如文档本身的信息，段落的信息以及其他的辅助信息。如何能够让 Word2Vec 对更多信息建模也是一个重要的扩展思路。
Word2Vec 的三个扩展

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

Word2Vec算法是一个重要的文本模型，对文本挖掘和自然语言处理领域有重要影响。本文介绍了Word2Vec模型的基本假设和两个模型：SG（SkipGram）模型和CBOW（Continuous-Bag-of-Word）模型。随后，文章探讨了Word2Vec的扩展思路，包括将模型应用到其他离散数据上、修改上下文信息以学习不同的词向量，以及增加更多信息进行建模。在介绍了Word2Vec的扩展思路后，文章列举了三个扩展模型。首先是将Word2Vec扩展到句子和文章的分布表示，以解决模型仅在词一级数据上进行建模的局限性。其次是将Word2Vec的思想扩展到图的表达上，特别是在社交网络数据的建模中。最后一个扩展是尝试在查询关键词和用户点击的网页之间建立上下文关系，以学习到查询关键词和网页的隐含向量。总的来说，本文介绍了Word2Vec模型的扩展思路和三个具体的扩展模型，展示了如何将Word2Vec应用到不同的数据类型和场景中。这些扩展模型为Word2Vec的应用提供了更多可能性，丰富了其在文本分析领域的应用场景。通过本文的阅读，读者可以快速了解Word2Vec算法的基本原理和其在不同领域的扩展应用，为进一步深入研究和实践提供了有益的参考和启发。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 技术内参》，新⼈⾸单¥98

立即购买

登录后留言

全部留言(1)

最新
精选

韩 * *
能想到的一个就是将数据离散化，并同时用出不同的离散粒度来捕捉不同层级的内在联系，最终将结果拼接起来。反过来想，如果是用户id等有规律增长离散数据，类似将前n位分别做嵌入再合并是否也会有些收益？
2019-08-05



收起评论