106 | 序列建模的深度学习利器：RNN基础架构

洪亮劼



该思维导图由 AI 生成，仅供参考

前面我们介绍了一个重要的文本模型，Word2Vec，我们聊了这个模型的基本假设，模型实现，一些重要的扩展，以及其在自然语言处理各个领域的应用。
接下来，我们来讨论更加复杂的 **基于深度学习的文本分析模型。这些模型的一大特点就是更加丰富地利用了文字的序列信息 **，从而能够对文本进行大规模建模。
今天，我们首先来看一看，序列建模的深度学习利器 RNN（Recurrent Neural Network，递归神经网络）的基本架构。
文本信息中的序列数据我们在之前介绍 Word2Vec 的时候，讲了为什么希望能够把上下文信息给融入到模型当中去。一个非常重要的原因，就是在最早的利用“词包”（Bag of Word）的形式下，离散的词向量无法表达更多的语义信息。那么，从文本的角度来讲，很多研究人员都面对的困扰是，如何对有序列信息的文本进行有效的建模？同时，对于广大文本挖掘的科研工作者来说，这也是大家心中一直深信不疑的一个假设，那就是对文字的深层次的理解一定是建立在对序列、对上下文的建模之中。
你可能有一个疑问，文字信息中真的有那么多序列数据吗？
其实，从最简单的语义单元“句子”出发，到“段落”，到“章节”，再到整个“文章”。这些文字的组成部分都依赖于对更小单元的序列组合。例如，句子就是词语的序列，段落就是句子的序列，章节就是段落的序列等等。不仅是“词包假设”无法对这样的序列进行建模，就算是我们之前提到的 Word2Vec 等一系列学习词向量或者段落向量的方法，也仅仅能考虑到一部分的上下文信息。
还有更加复杂的文字序列，比如对话。人与人的对话很明显是有顺序的。两个人之间进行对话，当前所说的字句都是根据对方的回应以及整个对话的上下文所做出的选择。如果要对这样复杂的文字序列进行建模，传统的不考虑序列的模型方法是肯定不能奏效的。
那么，传统的机器学习领域，有没有能够对时序信息建模的工具或者模型呢？

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

深度学习中的序列建模利器：RNN基础架构深度学习中的序列建模利器RNN（Recurrent Neural Network，递归神经网络）是一种强大的文本分析模型，能更充分地利用文字的序列信息，对文本进行大规模建模。文章首先强调了对文本序列数据进行建模的重要性，指出传统机器学习模型如隐马尔科夫模型（HMM）在对序列建模方面存在的局限性。随后，文章介绍了HMM的基本假设和问题，并引出了RNN的基本架构。 RNN作为一个框架，可以根据不同需求构建不同的模型，其优势在于根植于深度学习领域，可以无缝嫁接深度学习模型的优化算法和计算方式。RNN假定输入序列和输出序列都随时间变化，且它们的变化和关系通过一组隐含状态来控制。RNN的参数即这些隐含状态，可以通过标准的深度学习框架进行学习。文章还提到RNN的整个框架可以看作是一个加码解码的过程，从已知的序列到中间隐含状态是加码，而从隐含状态到最后的输出序列是解码。总的来说，RNN相对于传统的HMM具有更大的优势，因为它能更好地对长序列进行建模，而且训练方法相对简单。文章以留下一个思考题作为结尾，引发读者对比RNN和HMM的优势的思考。通过本文，读者可以快速了解RNN的基本架构和其在文本序列建模中的优势，为进一步深入学习和讨论提供了基础知识。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 技术内参》，新⼈⾸单¥98

立即购买

登录后留言

全部留言(2)

最新
精选

rz
hmm的隐含状态通常都是离散并且有限的，而rnn中的隐含状态是一种连续的变量，也许能够代表着更多的信息
2020-11-10

1
Andy
我感觉RNN比起HMM最大的一个有点就是可以建立某个状态与之前的很多个状态的联系，而HMM只能建立与前一个状态的关系，然而人类处理序列模型的时候，更加能参考上下文，所以RNN更接近人类的处理方式
2018-06-01



收起评论