深入浅出计算机组成原理
徐文浩
bothub创始人
立即订阅
13019 人已学习
课程目录
已完结 62 讲
0/4登录后,你可以任选4讲全文学习。
入门篇 (5讲)
开篇词 | 为什么你需要学习计算机组成原理?
免费
01 | 冯·诺依曼体系结构:计算机组成的金字塔
02 | 给你一张知识地图,计算机组成原理应该这么学
03 | 通过你的CPU主频,我们来谈谈“性能”究竟是什么?
04 | 穿越功耗墙,我们该从哪些方面提升“性能”?
原理篇:指令和运算 (12讲)
05 | 计算机指令:让我们试试用纸带编程
06 | 指令跳转:原来if...else就是goto
07 | 函数调用:为什么会发生stack overflow?
08 | ELF和静态链接:为什么程序无法同时在Linux和Windows下运行?
09 | 程序装载:“640K内存”真的不够用么?
10 | 动态链接:程序内部的“共享单车”
11 | 二进制编码:“手持两把锟斤拷,口中疾呼烫烫烫”?
12 | 理解电路:从电报机到门电路,我们如何做到“千里传信”?
13 | 加法器:如何像搭乐高一样搭电路(上)?
14 | 乘法器:如何像搭乐高一样搭电路(下)?
15 | 浮点数和定点数(上):怎么用有限的Bit表示尽可能多的信息?
16 | 浮点数和定点数(下):深入理解浮点数到底有什么用?
原理篇:处理器 (18讲)
17 | 建立数据通路(上):指令+运算=CPU
18 | 建立数据通路(中):指令+运算=CPU
19 | 建立数据通路(下):指令+运算=CPU
20 | 面向流水线的指令设计(上):一心多用的现代CPU
21 | 面向流水线的指令设计(下):奔腾4是怎么失败的?
22 | 冒险和预测(一):hazard是“危”也是“机”
23 | 冒险和预测(二):流水线里的接力赛
24 | 冒险和预测(三):CPU里的“线程池”
25 | 冒险和预测(四):今天下雨了,明天还会下雨么?
26 | Superscalar和VLIW:如何让CPU的吞吐率超过1?
27 | SIMD:如何加速矩阵乘法?
28 | 异常和中断:程序出错了怎么办?
29 | CISC和RISC:为什么手机芯片都是ARM?
30 | GPU(上):为什么玩游戏需要使用GPU?
31 | GPU(下):为什么深度学习需要使用GPU?
32 | FPGA和ASIC:计算机体系结构的黄金时代
33 | 解读TPU:设计和拆解一块ASIC芯片
34 | 理解虚拟机:你在云上拿到的计算机是什么样的?
原理篇:存储与I/O系统 (17讲)
35 | 存储器层次结构全景:数据存储的大金字塔长什么样?
36 | 局部性原理:数据库性能跟不上,加个缓存就好了?
37 | 高速缓存(上):“4毫秒”究竟值多少钱?
38 | 高速缓存(下):你确定你的数据更新了么?
39 | MESI协议:如何让多核CPU的高速缓存保持一致?
40 | 理解内存(上):虚拟内存和内存保护是什么?
41 | 理解内存(下):解析TLB和内存保护
42 | 总线:计算机内部的高速公路
43 | 输入输出设备:我们并不是只能用灯泡显示“0”和“1”
44 | 理解IO_WAIT:I/O性能到底是怎么回事儿?
45 | 机械硬盘:Google早期用过的“黑科技”
46 | SSD硬盘(上):如何完成性能优化的KPI?
47 | SSD硬盘(下):如何完成性能优化的KPI?
48 | DMA:为什么Kafka这么快?
49 | 数据完整性(上):硬件坏了怎么办?
50 | 数据完整性(下):如何还原犯罪现场?
51 | 分布式计算:如果所有人的大脑都联网会怎样?
应用篇 (5讲)
52 | 设计大型DMP系统(上):MongoDB并不是什么灵丹妙药
53 | 设计大型DMP系统(下):SSD拯救了所有的DBA
54 | 理解Disruptor(上):带你体会CPU高速缓存的风驰电掣
55 | 理解Disruptor(下):不需要换挡和踩刹车的CPU,有多快?
结束语 | 知也无涯,愿你也享受发现的乐趣
免费
答疑与加餐 (5讲)
特别加餐 | 我在2019年F8大会的两日见闻录
FAQ第一期 | 学与不学,知识就在那里,不如就先学好了
用户故事 | 赵文海:怕什么真理无穷,进一寸有一寸的欢喜
FAQ第二期 | 世界上第一个编程语言是怎么来的?
特别加餐 | 我的一天怎么过?
深入浅出计算机组成原理
登录|注册

33 | 解读TPU:设计和拆解一块ASIC芯片

徐文浩 2019-07-10
过去几年,最知名、最具有实用价值的 ASIC 就是 TPU 了。各种解读 TPU 论文内容的文章网上也很多。不过,这些文章更多地是从机器学习或者 AI 的角度,来讲解 TPU。
上一讲,我为你讲解了 FPGA 和 ASIC,讲解了 FPGA 如何实现通过“软件”来控制“硬件”,以及我们可以进一步把 FPGA 设计出来的电路变成一块 ASIC 芯片。
不过呢,这些似乎距离我们真实的应用场景有点儿远。我们怎么能够设计出来一块有真实应用场景的 ASIC 呢?如果要去设计一块 ASIC,我们应该如何思考和拆解问题呢?今天,我就带着你一起学习一下,如何设计一块专用芯片。

TPU V1 想要解决什么问题?

黑格尔说,“世上没有无缘无故的爱,也没有无缘无故的恨”。第一代 TPU 的设计并不是异想天开的创新,而是来自于真实的需求。
从 2012 年解决计算机视觉问题开始,深度学习一下子进入了大爆发阶段,也一下子带火了 GPU,NVidia 的股价一飞冲天。我们在第 31 讲讲过,GPU 天生适合进行海量、并行的矩阵数值计算,于是它被大量用在深度学习的模型训练上。
不过你有没有想过,在深度学习热起来之后,计算量最大的是什么呢?并不是进行深度学习的训练,而是深度学习的推断部分。
所谓推断部分,是指我们在完成深度学习训练之后,把训练完成的模型存储下来。这个存储下来的模型,是许许多多个向量组成的参数。然后,我们根据这些参数,去计算输入的数据,最终得到一个计算结果。这个推断过程,可能是在互联网广告领域,去推测某一个用户是否会点击特定的广告;也可能是我们在经过高铁站的时候,扫一下身份证进行一次人脸识别,判断一下是不是你本人。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《深入浅出计算机组成原理》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(11)

  • 胖胖胖
    训练的话,大量的池化卷积,而且很多网络都是对称的,反向传播损失。虽然矩阵乘法可以并行但一层一层的训练迭代的参数更新的考虑时序信息,可以考虑之前处理进位的方法,在硬件上实现,减少等待前面运算的时间,加快它参数更新吧
    2019-07-10
    4
  • 胖胖胖
    感觉老师的专栏要结束了呀,收获很大,特别是老师推荐的那些书,比之前自己乱买的书简直好了一万倍,真的学到了理解了一点东西,不像以前完全囫囵吞枣,看了就忘
    2019-07-10
    3
  • 胖胖胖
    信息时代,数据的爆炸增长,使得深度学习的方法开始发挥作用,反过来又push计算能力的提升,对于计算的实现,由于大量简单重复,直接搭为固定的电路结构(其实就是之前讲的各种门电路,寄存器的组合加上时钟信号和控制信号),就像微机原理里面提到的 硬件软化和软件硬化,按需求,资源稀缺和收益比决定是硬件实现还是软件实现,但在硬件的改进的过程中还得考虑市场的情况,毕竟要落地之后有收益才能存活下去
    2019-07-10
    3
  • J.D.
    曼昆的《经济学原理》里十大原理的一条:人们总是面临权衡取舍。
    2019-10-02
    2
  • Linuxer
    进入每个字都认识系列了,硬着头皮看
    2019-07-10
    1
  • 拯救地球好累
    ---问题---
    请问下老师是怎么做到对一个事务的发展历程和最新动态如此了解的?平时会刻意关注一些东西吗?盼老师有空解答?
    还有就是感觉自己在看到行业新动态时只能跟着发布动态的文章的思路走,无法形成自己的判断,是否是因为基础仍然比较薄弱导致?
    2019-10-29
  • 活的潇洒
    “Google在TPU的论文里面给出了答案。一方面,在性能上,TPU比现在的CPU、GPU在深度学习的推断任务上,要快15~30倍。而在能耗比上,更是好出30~80倍。
    另一方面,Google已经用TPU替换了自家数据中心里95%的推断任务,可谓是拿自己的实际业务做了一个明证。”这一段很精彩

    day33 天笔记:https://www.cnblogs.com/luoahong/p/11424820.html
    2019-09-02
    1
  • 靠人品去赢
    突然想起来,前一阵挖矿潮,当时候退出的一些挖矿机就是AISC的,就是对挖矿专门处理的TPU,现在深度学习这方面有没有类似专门的比较出名的TPU,感觉现在大多数还是用显卡来跑深度学习。
    2019-07-10
  • missingmaria
    搜了一下,竟然没有搜到第二代TPU的技术细节介绍。但是新闻里开发者透露了一句话,“在芯片进行学习训练的过程中,只需要采用固定的模型即可,不需要变动算法”,猜测二代TPU是针对固定算法开发的,在训练具体模型的时候,将几个算法搭载在一起即可
    2019-07-10
  • xindoo
    训练和推断最大的不同就是训练需要大量的迭代,所以针对训练的tpu肯定是优化迭代,但我具体想不出如何在硬件层面优化迭代。
    2019-07-10
  • Sentry
    除了响应时间,效能比,还有就是兼容性,尺寸,成本……
    2019-07-10
收起评论
11
返回
顶部