7人创业、1人投敌！Transformer 八子谷歌坐冷板凳5年再成老黄座上宾

Steven Levy 、核子可乐、冬梅

导读：
3 月 21 日，GTC AI 大会，黄仁勋对话 7 位 Transformer 框架论文作者。他们认为，AI 行业被困在了六七年前的原型上，这个世界需要更好的模型。
Transformer 架构的诞生源于自然语言处理（NLP）领域的迫切需求。在过去，传统的循环神经网络（RNN）和卷积神经网络（CNN）在处理序列数据时面临一些挑战。RNN 虽然能够捕捉序列中的依赖关系，但由于其顺序处理的方式，导致计算效率低下，并且难以处理长距离依赖。而 CNN 虽然可以并行计算，但在处理变长序列时不够灵活。
为了克服这些挑战，2017 年，谷歌的 8 名研究人员联合发表了名为《你所需要的是注意力》（Attention Is All You Need）的论文，并在这篇论文中提出了 Transformer 架构，它能真正地解决 RNN 和 CNN 在处理序列数据时存在的问题。
Transformer 采用了自注意力机制（Self-Attention Mechanism），使得模型能够同时关注序列中的所有位置，从而捕捉长距离依赖关系。此外，Transformer 还采用了多头注意力（Multi-Head Attention）和位置编码（Positional Encoding）等技术，进一步提高了模型的性能。这项具有划时代意义的技术变革彻底改变了技术发展路径。技术背后，这 8 位一同提出该理论的研究人员有的已经离开了谷歌，有的已经创办了自己的公司或是加入了新团队。
近日，国外知名杂志《连线》的资深编辑史蒂文·利维（Steven Levy）近期撰写了一篇文章，为我们揭秘了 Transformer 架构诞生背后的故事，以下为翻译全文：

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

这篇文章总结了Transformer架构的诞生背景、关键技术和未来应用前景，突出了其对现代AI技术发展的重要意义。首先介绍了Transformer架构的背景和动机，以及自注意力机制、多头注意力和位置编码等技术对模型性能的提升。同时，揭秘了Transformer架构诞生背后的故事，展现了这一关键技术的突破性意义。团队成员在提交论文前的紧张工作和最终成功投递的情景也得到了描述。此外，探讨了Transformer模型在未来可能应用的领域，展望了其在人类表达、图像、音频和视频等领域的潜在应用。最后，提及了Transformer架构对谷歌和其他公司的影响，以及团队成员在离开谷歌后创立的AI初创企业，突显了Transformer技术的商业价值和影响力。整篇文章对于现代AI技术的发展具有重要意义，突出了Transformer架构的重要性和未来发展方向。

该试读文章来自《AI 前线》，如需阅读全部文章，
请先领取课程

免费领取

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论