深入浅出计算机组成原理
徐文浩
bothub创始人
立即订阅
13019 人已学习
课程目录
已完结 62 讲
0/4登录后,你可以任选4讲全文学习。
入门篇 (5讲)
开篇词 | 为什么你需要学习计算机组成原理?
免费
01 | 冯·诺依曼体系结构:计算机组成的金字塔
02 | 给你一张知识地图,计算机组成原理应该这么学
03 | 通过你的CPU主频,我们来谈谈“性能”究竟是什么?
04 | 穿越功耗墙,我们该从哪些方面提升“性能”?
原理篇:指令和运算 (12讲)
05 | 计算机指令:让我们试试用纸带编程
06 | 指令跳转:原来if...else就是goto
07 | 函数调用:为什么会发生stack overflow?
08 | ELF和静态链接:为什么程序无法同时在Linux和Windows下运行?
09 | 程序装载:“640K内存”真的不够用么?
10 | 动态链接:程序内部的“共享单车”
11 | 二进制编码:“手持两把锟斤拷,口中疾呼烫烫烫”?
12 | 理解电路:从电报机到门电路,我们如何做到“千里传信”?
13 | 加法器:如何像搭乐高一样搭电路(上)?
14 | 乘法器:如何像搭乐高一样搭电路(下)?
15 | 浮点数和定点数(上):怎么用有限的Bit表示尽可能多的信息?
16 | 浮点数和定点数(下):深入理解浮点数到底有什么用?
原理篇:处理器 (18讲)
17 | 建立数据通路(上):指令+运算=CPU
18 | 建立数据通路(中):指令+运算=CPU
19 | 建立数据通路(下):指令+运算=CPU
20 | 面向流水线的指令设计(上):一心多用的现代CPU
21 | 面向流水线的指令设计(下):奔腾4是怎么失败的?
22 | 冒险和预测(一):hazard是“危”也是“机”
23 | 冒险和预测(二):流水线里的接力赛
24 | 冒险和预测(三):CPU里的“线程池”
25 | 冒险和预测(四):今天下雨了,明天还会下雨么?
26 | Superscalar和VLIW:如何让CPU的吞吐率超过1?
27 | SIMD:如何加速矩阵乘法?
28 | 异常和中断:程序出错了怎么办?
29 | CISC和RISC:为什么手机芯片都是ARM?
30 | GPU(上):为什么玩游戏需要使用GPU?
31 | GPU(下):为什么深度学习需要使用GPU?
32 | FPGA和ASIC:计算机体系结构的黄金时代
33 | 解读TPU:设计和拆解一块ASIC芯片
34 | 理解虚拟机:你在云上拿到的计算机是什么样的?
原理篇:存储与I/O系统 (17讲)
35 | 存储器层次结构全景:数据存储的大金字塔长什么样?
36 | 局部性原理:数据库性能跟不上,加个缓存就好了?
37 | 高速缓存(上):“4毫秒”究竟值多少钱?
38 | 高速缓存(下):你确定你的数据更新了么?
39 | MESI协议:如何让多核CPU的高速缓存保持一致?
40 | 理解内存(上):虚拟内存和内存保护是什么?
41 | 理解内存(下):解析TLB和内存保护
42 | 总线:计算机内部的高速公路
43 | 输入输出设备:我们并不是只能用灯泡显示“0”和“1”
44 | 理解IO_WAIT:I/O性能到底是怎么回事儿?
45 | 机械硬盘:Google早期用过的“黑科技”
46 | SSD硬盘(上):如何完成性能优化的KPI?
47 | SSD硬盘(下):如何完成性能优化的KPI?
48 | DMA:为什么Kafka这么快?
49 | 数据完整性(上):硬件坏了怎么办?
50 | 数据完整性(下):如何还原犯罪现场?
51 | 分布式计算:如果所有人的大脑都联网会怎样?
应用篇 (5讲)
52 | 设计大型DMP系统(上):MongoDB并不是什么灵丹妙药
53 | 设计大型DMP系统(下):SSD拯救了所有的DBA
54 | 理解Disruptor(上):带你体会CPU高速缓存的风驰电掣
55 | 理解Disruptor(下):不需要换挡和踩刹车的CPU,有多快?
结束语 | 知也无涯,愿你也享受发现的乐趣
免费
答疑与加餐 (5讲)
特别加餐 | 我在2019年F8大会的两日见闻录
FAQ第一期 | 学与不学,知识就在那里,不如就先学好了
用户故事 | 赵文海:怕什么真理无穷,进一寸有一寸的欢喜
FAQ第二期 | 世界上第一个编程语言是怎么来的?
特别加餐 | 我的一天怎么过?
深入浅出计算机组成原理
登录|注册

26 | Superscalar和VLIW:如何让CPU的吞吐率超过1?

徐文浩 2019-06-24
到今天为止,专栏已经过半了。过去的 20 多讲里,我给你讲的内容,很多都是围绕着怎么提升 CPU 的性能这个问题展开的。
我们先回顾一下第 4 讲,不知道你是否还记得这个公式:
程序的 CPU 执行时间 = 指令数 × CPI × Clock Cycle Time
这个公式里,有一个叫 CPI 的指标。我们知道,CPI 的倒数,又叫作 IPC(Instruction Per Clock),也就是一个时钟周期里面能够执行的指令数,代表了 CPU 的吞吐率。那么,这个指标,放在我们前面几节反复优化流水线架构的 CPU 里,能达到多少呢?
答案是,最佳情况下,IPC 也只能到 1。因为无论做了哪些流水线层面的优化,即使做到了指令执行层面的乱序执行,CPU 仍然只能在一个时钟周期里面,取一条指令。
这说明,无论指令后续能优化得多好,一个时钟周期也只能执行完这样一条指令,CPI 只能是 1。但是,我们现在用的 Intel CPU 或者 ARM 的 CPU,一般的 CPI 都能做到 2 以上,这是怎么做到的呢?
今天,我们就一起来看看,现代 CPU 都使用了什么“黑科技”。

多发射与超标量:同一实践执行的两条指令

之前讲 CPU 的硬件组成的时候,我们把所有算术和逻辑运算都抽象出来,变成了一个 ALU 这样的“黑盒子”。你应该还记得第 13 讲到第 16 讲,关于加法器、乘法器、乃至浮点数计算的部分,其实整数的计算和浮点数的计算过程差异还是不小的。实际上,整数和浮点数计算的电路,在 CPU 层面也是分开的。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《深入浅出计算机组成原理》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(16)

  • Linuxer
    一个时钟周期也只能执行完这样一条指令,CPI 只能是 1。但是,我们现在用的 Intel CPU 或者 ARM 的 CPU,一般的 CPI 都能做到 2 以上,这是怎么做到的呢?这里不是ipc?
    2019-06-24
    1
    9
  • magicnum
    个人感觉VLIW架构下处理器乱序执行应该不需要了,因为编译器已经将可以并行执行的指令打包成了指令包;操作数前推和分支预测应该可以用吧?
    2019-06-24
    3
  • 拯救地球好累
    ---总结---
    为了让IPC大于1,除了指令执行阶段,取指和译码阶段也需要并行化。
    多发射:同一个时间,多条指令会被发射到不同的译码器或后续的流水线中。
    超标量:一个时钟周期内执行多个标量的运算。
    无论是乱序执行技术还是超标量技术,冒险问题都是不可忽视的。
    超长指令字:利用编译器在编译阶段便完成指令乱序、插入NOP指令等工作,并将可并行的打包组成一个指令包,在指令执行阶段并行执行指令包中所有指令。
    VLIW失败的原因:将指令乱序等工作放在了编译阶段做,导致硬件的提升也需要软件层面的重编译工作

    ---问题---
    请问下老师,硬件是如何检测到数据依赖的呢?
    2019-10-27
  • 拯救地球好累
    ---总结---
    为了让IPC大于1,除了指令执行阶段,取指和译码阶段也需要并行化。
    多发射:同一个时间,多条指令会被发射到不同的译码器或后续的流水线中。
    超标量:一个时钟周期内执行多个标量的运算。
    无论是乱序执行技术还是超标量技术,冒险问题都是不可忽视的。
    超长指令字:利用编译器在编译阶段便完成指令乱序、插入NOP指令等工作,并将可并行的打包组成一个指令包,在指令执行阶段并行执行指令包中所有指令。
    VLIW失败的原因:将指令乱序等工作放在了编译阶段做,导致硬件的提升也需要软件层面的重编译工作

    ---问题---
    请问下老师,硬件是如何检测到数据依赖的呢?
    2019-10-27
  • Geek_53dfd0
    非计算机的专业的我已经听起来比较吃力了
    2019-10-11
  • prader
    1 程序的执行时间= 指令数*CPI* 其中周期
    2 为了进一步提升cpu的效率,引入了多发射和超标量(同时取多条指令,让多条流水线并行)。
    2019-09-22
  • 活的潇洒
    “安腾失败的原因有很多,其中有一个重要的原因就是“向前兼容”。”现在终于明白安腾为什么失败了

    day26 笔记:https://www.cnblogs.com/luoahong/p/11441329.html

    作者回复: 向前兼容是很多产品成功的原因,但也是很多产品慢慢衰败的原因。

    Joel Spolsky曾经专门写过一篇文章讲关于这一点,拿的就是Excel怎么去和Lotus 1-2-3做竞争的例子

    https://www.joelonsoftware.com/2000/06/03/strategy-letter-iii-let-me-go-back/

    2019-09-01
  • Geek_58b038
    认真思考发现了一个问题,取指不是依赖于pc寄存器吗 那是如何完成多发射的
    2019-08-02
    1
  • 栋能
    有句话没太理解:“于是,我们可以让编译器把没有依赖关系的代码位置进行交换。然后,再把多条连续的指令打包成一个指令包。安腾的 CPU 就是把 3 条指令变成一个指令包。” 这里连续指令是指无依赖的指令,还是有依赖关系的指令?
    2019-07-06
  • 多发射,超标量,, 执行顺序怎么控制呢?
    a=3;
    b=a+1;
    c=b+a;
    像这种有顺序的会怎么处理呢?
    2019-07-03
  • 开心
    饥渴难耐,等更新
    2019-06-27
  • -W.LI-
    得保证一整个包的执行速度一样。个人感觉实现难度很大
    2019-06-26
  • -W.LI-
    个人感觉不可以依赖的指令不在同一个包的话等到死也没用啊。所有的依赖问题编译器全都做了
    2019-06-26
  • 易儿易
    老师,超标量的情况下,分支预测错误的频率也同时提高了吧?
    2019-06-24
  • lzhao
    希望老师能讲一篇多个cpu缓存一致性问题的
    2019-06-24
  • 胖胖胖
    这个本身就已经编译器是打乱顺序执行了吧。分支预测的话,相对于指令包的更多指令来讲,预测出错的话,清理缓存的开销应该会更大,但只要出错率*出错时的开销够小的话就应该依旧可行吧。操作数前推应该依旧可以用
    2019-06-24
收起评论
16
返回
顶部