直播加餐｜揭秘Transformer技术内幕

海纳

 Sorry, your browser doesn't support embedded videos. 
00:00 / 00:00
1.0x
 3.0x 
 2.5x 
 2.0x 
 1.5x 
 1.25x 
 1.0x 
 0.75x 
 0.5x 
音量
网页全屏
全屏
00:00
欢迎大家来到这次直播，周末愉快！首先我们回顾一下，上次直播我们介绍了 AI Infra 的相关知识。其中第三部分关于 Transformer 的结构没有展开，今天我们就来完成这部分内容。
接下来我先介绍一下自己。我叫海纳，目前是摩尔线程编译器团队的负责人。我之前参与过华为 JDK 的研发，以及静态编译器、推理引擎等开发工作。在极客专栏上，我撰写了《编程高手必学的内存知识》《从零开始写 Python 虚拟机》等专栏，也出版了《从零开始写 Linux 内核》等图书。关于这些专栏和图书，我会在直播接近结束时再作介绍。
上次直播我们讨论了一个问题：传统 Infra 与当前 AI Infra 之间究竟有哪些区别？实际上，可能有人会认为，我以前写的专栏、写的 Linux 内核——尤其是那个 35 年前的内核版本——会不会过于陈旧？这些知识是否已经过时？但我们上节课恰恰回答了这个问题：无论形式如何变化，其内在的知识体系并没有发生根本性的改变。
上节课我们重点讲解了 GPU 的体系结构。我们从多核 CPU 的并发讲起，一直延伸到 GPU 如何将这些概念硬件化。这部分内容不再重复，如果当时没来得及看或仍有疑问，可以回看上一期的直播回放，也欢迎随时交流。
我们还对比了传统 Infra 与 AI Infra，涉及操作系统的驱动、编译器等内容。以前的编译器主要基于 GCC、LLVM 进行静态编译，目标平台集中在 x86、Arm 等架构。而在 GPU 与 AI 时代，编译器的能力依然存在，且覆盖场景更加广泛，例如虚拟指令集、推理引擎、算子自动生成、图算融合优化等。这些本质上仍属于编译器的范畴——形式虽变，核心未改。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
法语
德语
日语
韩语
俄语
西班牙语
解释
总结

1. Transformer 技术是自然语言处理领域的重要推动力，需要大规模参数量才能展现出强大的能力。 2. Transformer 结构源自2017年的论文《Attention Is All You Need》，需要从词嵌入、RNN 等前置知识入手，阅读量大且不易实践验证。 3. 注意力（Attention）机制是 Transformer 技术的关键，通过内积、Softmax和矩阵乘法计算，结构相对简单。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《编程高手必学的内存知识》，新⼈⾸单¥59

立即购买

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论