32 深度学习框架下的神经网络 | 三重门:长短期记忆网络
王天一
该思维导图由 AI 生成,仅供参考
在之前的专栏中,我和你分享了循环神经网络的原理,而今天要介绍的长短期记忆网络就是一类特殊的循环神经网络。这个词的断句方式是“长 - 短期记忆网络”,表达的含义是一类可以持续很长时间的短期记忆模型。对时隙长度的不敏感性是这种模型的优势,因而它适用于序列中信息之间的时滞不确定的情况。
循环神经网络通过在时间上共享参数引入了记忆特性,从而将先前的信息应用在当前的任务上,可这种记忆通常只有有限的深度。有追剧经历的都会知道,国外的电视剧通常是每周更新一集,可即使经历了一周的空窗期,我们依然能将前一集的内容和新一集的情节无缝衔接起来。但循环神经网络的记忆就没有这么强的延续性,别说是一个星期的断片儿,插播一段五分钟广告就足以让它的记忆脱节,造成理解上的混乱。
真实世界中的信息不是静止的,而是不断经历着流转与跃变,如果神经网络不能保存长期记忆的话,它处理信息的能力就会大打折扣。长短期记忆网络(long short-term memory)的作用就是实现长期记忆,更准确地说,是实现任意长度的记忆。精巧的设计使记住长期的信息成为了长短期记忆网络的默认行为,而不是需要付出很大代价才能获得的能力。
从机制上讲,要实现长期记忆,神经网络既要学会记忆,也要学会遗忘。长期记忆的基础是足够的存储,但宝贵的存储不能被滥用,它不是收集桶,有用的没用的都一股脑儿往里面扔。长期记忆要求模型具备对信息价值的判断能力,结合自身的状态确定哪些信息应该保留,而哪些信息应该舍弃。比方说电视剧里的一段支线情节结束了,模型就应当重置相关的信息,只需保留对应的结果。同理,当收到新的输入信息时,模型也要判断这些信息是否有用,以及是否需要保存。
除了添加遗忘机制之外,长短期记忆单元还要能够将长期记忆聚焦成工作记忆,也就是哪一部分记忆需要立刻使用。有用的信息也不会每时每刻都有用,因而记忆单元并不会始终使用所有的长期记忆,而是根据当前的相关性做出取舍,这就类似于人类注意力的工作方式。遗忘和选择使长短期记忆网络能够对记忆做出更细粒度的处理,它不同于循环神经网络一视同仁的方式,因而可以实现对信息进行长期而精确的跟踪。
长短期记忆网络是由相应的基本单元构成的。长短期记忆的基本单元的作用在需要时取出并聚焦记忆,通常包括四个功能不同的隐藏层:记忆模块(memory cell)、输入门(input gate)、输出门(output gate)和遗忘门(forget gate),这比只有一个激活函数的一般循环神经网络要复杂得多。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
长短期记忆网络(LSTM)是一种特殊的循环神经网络,通过引入“三重门”机制,包括输入门、输出门和遗忘门,解决了传统循环神经网络在长期记忆和梯度弥散方面的问题。这使得LSTM能够更好地处理序列数据,对信息进行长期而精确的跟踪。文章介绍了LSTM的基本单元和其在时间识别精度方面的改进方法。长短期记忆网络的应用包括谷歌翻译系统,其在翻译误差方面取得了显著提升。总的来说,LSTM通过其独特的结构和机制,有效地解决了传统循环神经网络的局限性,为处理序列数据提供了更加可靠和高效的解决方案。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《人工智能基础课》,新⼈⾸单¥59
《人工智能基础课》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(5)
- 最新
- 精选
- 林彦根据问题看了一些中文文章,其中提到“LSTM可以根据上下文之间的关键信息,来推断后序文本当中出现的主体定义。让机器翻译更有可能处理较长的文本甚至整个故事。 LSTM可以帮助理解上下文这种人类特有的表达方式,当然也有助于AI学习从人类文本中梳理逻辑和脉络。而以此为契机反向生成有语境、有逻辑、有伏笔的新文本”。曾读到过AI写文章的新闻,不知道是不是利用到LSTM。 “上下文不仅是在文本当中才有。比如在视频当中,就也会出现前后故事联系的情况,甚至更复杂一点出现通过图像来进行的上下文联系。比如一件衣服穿在不同人物身上的意义;反复出现的关键道具;甚至天气对剧情的推动作用。 目前已经有通过LSTM变体技术来解读电视剧的实验。而更广阔的应用空间,是通过LSTM来对监控视频进行记忆推理。” 从这些文章片段看,机器推理借助LSTM是有实现的可能。我自己还未阅读过,或理解并记住具体实现这些应用的技术手段,有待考证。
作者回复: LSTM是机器翻译的主力技术,而翻译本身就是某种意义上的推理过程。推理可以看成是记忆和规则的组合,如何把规则融入LSTM可能是下一个问题。
2018-02-2021 - 杨家荣极客时间 21天打卡行动 30/21 <<人工智能基础课32>> 长短期记忆网络 回答老师问题:长短期记忆网络的作用不仅在于做些阅读理解,它可以让人工智能理解事物之间的长序联系。那么长短期记忆网络会不会在训练机器的推理能力上带来突破呢? 老师是不是想问:长短期记忆网络能不能在机器中加上物理条件呢?我是想可以的,那就能针对行业做细分了 今日所学 : 1,长短期记忆网络就是一类特殊的循环神经网络。这个词的断句方式是“长 - 短期记忆网络”,表达的含义是一类可以持续很长时间的短期记忆模型。 2,循环神经网络通过在时间上共享参数引入了记忆特性,从而将先前的信息应用在当前的任务上,可这种记忆通常只有有限的深度; 3,从机制上讲,要实现长期记忆,神经网络既要学会记忆,也要学会遗忘。 4,长期记忆要求模型具备对信息价值的判断能力,结合自身的状态确定哪些信息应该保留,而哪些信息应该舍弃; 5,长短期记忆单元还要能够将长期记忆聚焦成工作记忆,也就是哪一部分记忆需要立刻使用。 6,长短期记忆的基本单元的作用在需要时取出并聚焦记忆,通常包括四个功能不同的隐藏层:记忆模块(memory cell)、输入门(input gate)、输出门(output gate)和遗忘门(forget gate),这比只有一个激活函数的一般循环神经网络要复杂得多。 7,遗忘门的作用是弃旧,输入门的作用则是图新, 8,输出门输出权重系数的作用是对记忆模块的状态进行加权。但加权对象不是记忆状态本身,而是记忆状态的双曲正切函数结果。 9,长短期记忆网络应用:谷歌翻译; 重点: 1,长短期记忆网络可以实现任意长度的记忆,对信息进行长期而精确的跟踪; 2,长短期记忆单元的组成包括记忆模块、输入门、遗忘门和输出门; 3,长短期记忆网络根据当前的输入、当前的记忆和前一时刻的输出确定当前的输出; 4,长短期记忆网络能够解决梯度弥散的问题2020-01-162
- ifelse学习打卡2023-05-15归属地:浙江
- 帅气潇洒的豆子加油2020-03-24
- BAI老师,文本里的 LaTeX 公式不能正常显示了2018-10-01
收起评论