深入浅出计算机组成原理
徐文浩
bothub 创始人
70432 人已学习
新⼈⾸单¥68
登录后,你可以任选4讲全文学习
课程目录
已完结/共 62 讲
深入浅出计算机组成原理
15
15
1.0x
00:00/00:00
登录|注册

33 | 解读TPU:设计和拆解一块ASIC芯片

能耗比高
性能优越
8 Bits数据
向前兼容
大量缓存
专用电路设计
希望尽早上线
为深度学习的推断而设计
好出30~80倍
比CPU、GPU快15~30倍
适应深度学习推断的数据特点
8 Bits的矩阵乘法器
统一缓冲区和矩阵乘法单元是核心功能组件
模块设计按照深度学习层的计算流程
15个月上线
设计成像显卡一样的板卡
低功耗要求
响应时间要求
计算量大
修改第一代TPU的设计以适应深度学习模型训练
Google官方专门讲解TPU构造的博客文章
应用效果
细节优化
TPU的硬件构造
TPU的设计目标
Google已经用TPU替换了95%的推断任务
能耗比
性能
细节优化,使用8 Bits数据
专用电路和大量缓存
快速上线和向前兼容
深度学习的推断部分
课后思考
推荐阅读
总结延伸
用数字说话,TPU的应用效果
深入理解TPU V1
TPU V1想要解决什么问题?
参考文章

该思维导图由 AI 生成,仅供参考

过去几年,最知名、最具有实用价值的 ASIC 就是 TPU 了。各种解读 TPU 论文内容的文章网上也很多。不过,这些文章更多地是从机器学习或者 AI 的角度,来讲解 TPU。
上一讲,我为你讲解了 FPGA 和 ASIC,讲解了 FPGA 如何实现通过“软件”来控制“硬件”,以及我们可以进一步把 FPGA 设计出来的电路变成一块 ASIC 芯片。
不过呢,这些似乎距离我们真实的应用场景有点儿远。我们怎么能够设计出来一块有真实应用场景的 ASIC 呢?如果要去设计一块 ASIC,我们应该如何思考和拆解问题呢?今天,我就带着你一起学习一下,如何设计一块专用芯片。

TPU V1 想要解决什么问题?

黑格尔说,“世上没有无缘无故的爱,也没有无缘无故的恨”。第一代 TPU 的设计并不是异想天开的创新,而是来自于真实的需求。
从 2012 年解决计算机视觉问题开始,深度学习一下子进入了大爆发阶段,也一下子带火了 GPU,NVidia 的股价一飞冲天。我们在第 31 讲讲过,GPU 天生适合进行海量、并行的矩阵数值计算,于是它被大量用在深度学习的模型训练上。
不过你有没有想过,在深度学习热起来之后,计算量最大的是什么呢?并不是进行深度学习的训练,而是深度学习的推断部分。
所谓推断部分,是指我们在完成深度学习训练之后,把训练完成的模型存储下来。这个存储下来的模型,是许许多多个向量组成的参数。然后,我们根据这些参数,去计算输入的数据,最终得到一个计算结果。这个推断过程,可能是在互联网广告领域,去推测某一个用户是否会点击特定的广告;也可能是我们在经过高铁站的时候,扫一下身份证进行一次人脸识别,判断一下是不是你本人。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

谷歌的第一代张量处理单元(TPU)是专门为深度学习推断任务而设计的专用芯片。文章首先解释了TPU的设计初衷,即在保障响应时间的情况下,尽可能提高能效比,以降低整体能源消耗。TPU的设计目标是为了尽早上线,以节约数据中心的计算资源。文章详细介绍了TPU内部的芯片和数据处理流程,强调了其针对深度学习推断过程的硬件设计。TPU采用了专门的电路来处理矩阵乘法、累加器和激活函数,并使用了大量的统一缓冲区来满足响应时间短的需求。此外,TPU还对矩阵乘法的计算精度进行了优化,采用了8位表示浮点数,以提高推断速度。最终,TPU在性能和能耗比上都取得了显著的优势,比CPU、GPU在深度学习的推断任务上快15~30倍,能耗比更是高出30~80倍。文章还推荐了阅读TPU的相关论文和博客文章,并提出了课后思考问题,引发读者对于TPU设计的深入思考。整体而言,本文通过深入解析TPU V1的设计目标和特点,为读者提供了关于ASIC芯片设计的实用知识和思考方法。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《深入浅出计算机组成原理》
新⼈⾸单¥68
立即购买
登录 后留言

全部留言(15)

  • 最新
  • 精选
  • 宋不肥
    感觉老师的专栏要结束了呀,收获很大,特别是老师推荐的那些书,比之前自己乱买的书简直好了一万倍,真的学到了理解了一点东西,不像以前完全囫囵吞枣,看了就忘
    2019-07-10
    23
  • J.D.Chi
    曼昆的《经济学原理》里十大原理的一条:人们总是面临权衡取舍。
    2019-10-02
    1
    18
  • Linuxer
    进入每个字都认识系列了,硬着头皮看
    2019-07-10
    1
    9
  • 宋不肥
    训练的话,大量的池化卷积,而且很多网络都是对称的,反向传播损失。虽然矩阵乘法可以并行但一层一层的训练迭代的参数更新的考虑时序信息,可以考虑之前处理进位的方法,在硬件上实现,减少等待前面运算的时间,加快它参数更新吧
    2019-07-10
    8
  • 宋不肥
    信息时代,数据的爆炸增长,使得深度学习的方法开始发挥作用,反过来又push计算能力的提升,对于计算的实现,由于大量简单重复,直接搭为固定的电路结构(其实就是之前讲的各种门电路,寄存器的组合加上时钟信号和控制信号),就像微机原理里面提到的 硬件软化和软件硬化,按需求,资源稀缺和收益比决定是硬件实现还是软件实现,但在硬件的改进的过程中还得考虑市场的情况,毕竟要落地之后有收益才能存活下去
    2019-07-10
    1
    6
  • 拯救地球好累
    ---问题--- 请问下老师是怎么做到对一个事务的发展历程和最新动态如此了解的?平时会刻意关注一些东西吗?盼老师有空解答? 还有就是感觉自己在看到行业新动态时只能跟着发布动态的文章的思路走,无法形成自己的判断,是否是因为基础仍然比较薄弱导致?
    2019-10-29
    4
  • 靠人品去赢
    突然想起来,前一阵挖矿潮,当时候退出的一些挖矿机就是AISC的,就是对挖矿专门处理的TPU,现在深度学习这方面有没有类似专门的比较出名的TPU,感觉现在大多数还是用显卡来跑深度学习。
    2019-07-10
    3
  • xindoo
    训练和推断最大的不同就是训练需要大量的迭代,所以针对训练的tpu肯定是优化迭代,但我具体想不出如何在硬件层面优化迭代。
    2019-07-10
    2
  • Yongtao
    推理主要有前向传播计算,主要是矩阵。训练有前向传播和反向传播计算,其中,反向传播计算包含一些微分计算。所以支持训练的TPU需要计算矩阵计算和微分计算。
    2021-06-28
    1
  • Alan
    那这么看来的感觉,从技术难度上讲 TPU < GPU < CPU
    2021-01-04
    1
收起评论
显示
设置
留言
15
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部