PyTorch 深度学习实战
方远
LINE China 数据科学家
10381 人已学习
新⼈⾸单¥59
登录后,你可以任选3讲全文学习
课程目录
已完结/共 32 讲
开篇词 (1讲)
PyTorch 深度学习实战
15
15
1.0x
00:00/00:00
登录|注册

22 | NLP基础(下):详解语言模型与注意力机制

你好,我是方远。
在上节课中,我们一同了解了 NLP 任务中的几个经典问题,这些方法各有千秋,但是我们也发现,有的方法并不能很好地将文本中单词、词组的顺序关系或者语义关系记录下来,也就是说,不能很好地量化表示,也不能对语言内容不同部分的重要程度加以区分。
那么,有没有一种方法,可以把语言变成一种数学计算过程,比如采用概率、向量等方式对语言的生成和分析加以表示呢?答案当然是肯定的,这就是这节课我们要讲到的语言模型。
那如何区分语言不同部分的重要程度呢?我会从深度学习中最火热的注意力机制这一角度为你讲解。

语言模型

语言模型是根据语言客观事实而进行的语言抽象数学建模,是一种对应关系。很多 NLP 任务中,都涉及到一个问题:对于一个确定的概念或者表达,判断哪种表示结果是最有可能的。
我们结合两个例子体会一下。
先看第一个例子,翻译文字是:今天天气很好。可能的结果是: res1 = Today is a fine day. res2 = Today is a good day. 那么我们最后要的结果就是看概率 P(res1) 和 P(res2) 哪个更大。
再比如说,问答系统提问:我什么时候才能成为亿万富翁。可能的结果有:ans1 = 白日做梦去吧。ans2 = 红烧肉得加点冰糖。那么,最后返回的答案就要选择最贴近问题内容本身的结果,这里就是前一个答案。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

本文深入探讨了语言模型与注意力机制的原理和应用。首先介绍了语言模型的发展历程,从传统的n-gram模型到神经网络语言模型的演进,重点阐述了神经网络语言模型的操作过程和优势。随后详细介绍了注意力机制的重要性和作用,以及其与神经网络的结合方式。文章强调了注意力机制的简洁巧妙,能够让模型自主判断关键内容,提高语言模型的效果。最后,展望了接下来的课程内容,包括基于LSTM的情感分析项目和使用Bert模型构建文本分类模型。整体而言,本文以深入浅出的方式全面介绍了语言模型和注意力机制的原理和应用,对于对自然语言处理感兴趣的读者具有很高的参考价值。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《PyTorch 深度学习实战》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(11)

  • 最新
  • 精选
  • 赵心睿
    方老师讲得很好,对小白来说浅显易懂,希望看到您更多课程。

    作者回复: 你好,赵心睿,谢谢你的留言,感谢你支持^^。

    2022-05-04
    3
  • John(易筋)
    方老师,"我爱极客"的注意力机制的例子,顺着你的思路,如何分析出这几个词的权重是多少呢?

    作者回复: 这就是注意力机制所要做的事情,模型网络会根据训练数据不断的学习到每个词在不同情况的重要性。

    2022-08-30归属地:北京
    1
  • 徐洲更
    之前看这篇文章的时候,是字都认识,但是连起来就是不懂。前两天学习了transformers,再看这篇文章,终于能够看懂一点了。文章里提供的案例特别的形象!

    作者回复: 👍🏻👍🏻👍🏻👍🏻 感谢认可,加油 ^^

    2022-06-30
  • 南风北巷
    老师您好,我复现过transformer,但是有一点不明白,Q矩阵当中的一个向量要与K矩阵相乘,进而得到一个向量,那么得到的这个向量它的意义是什么呢?简单来说我想问,词向量点积的意义是什么呢?谢谢老师。

    作者回复: 你可以简单地理解为:Q表示查询的向量(你的问题)。K表示被查询的信息与其他信息的相关性的向量(答案的表示)。V表示被查询的信息的向量(各个候选答案)。那么QK就是相关度啦。

    2022-04-23
    2
  • 董义
    老师好,我对文中提到的注意力机制可以区分一句话中的重点部分和非重点部分很感兴趣,那么这种机制有哪些现实的成熟应用呢?想深入了解的话可以从哪里入手?

    作者回复: 你好,识别一句话中的重点部分是有很多的应用场景的,比如篇章理解、摘要提取等。如果感兴趣,可以看看这两个方向的相关博客。

    2022-04-13
  • Sarai李
    LM从统计模型过渡到神经网络,终于在这里明白了

    作者回复: ^^

    2022-04-01
  • John(易筋)
    翻译: 详细图解Transformer多头自注意力机制 Attention Is All You Need https://blog.csdn.net/zgpeace/article/details/126635650
    2022-09-09归属地:广东
    2
  • Kinvo
    这篇文章,每个字都是认识的
    2023-03-06归属地:广东
    1
  • 李雄
    真得很精炼
    2021-12-31
    1
  • Geek_a26208
    太长的话,会引入大量的计算量吧,太短的话好像学习的内容就比较少了
    2021-12-07
    1
收起评论
显示
设置
留言
11
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部