深入浅出计算机组成原理
徐文浩
bothub创始人
立即订阅
13019 人已学习
课程目录
已完结 62 讲
0/4登录后,你可以任选4讲全文学习。
入门篇 (5讲)
开篇词 | 为什么你需要学习计算机组成原理?
免费
01 | 冯·诺依曼体系结构:计算机组成的金字塔
02 | 给你一张知识地图,计算机组成原理应该这么学
03 | 通过你的CPU主频,我们来谈谈“性能”究竟是什么?
04 | 穿越功耗墙,我们该从哪些方面提升“性能”?
原理篇:指令和运算 (12讲)
05 | 计算机指令:让我们试试用纸带编程
06 | 指令跳转:原来if...else就是goto
07 | 函数调用:为什么会发生stack overflow?
08 | ELF和静态链接:为什么程序无法同时在Linux和Windows下运行?
09 | 程序装载:“640K内存”真的不够用么?
10 | 动态链接:程序内部的“共享单车”
11 | 二进制编码:“手持两把锟斤拷,口中疾呼烫烫烫”?
12 | 理解电路:从电报机到门电路,我们如何做到“千里传信”?
13 | 加法器:如何像搭乐高一样搭电路(上)?
14 | 乘法器:如何像搭乐高一样搭电路(下)?
15 | 浮点数和定点数(上):怎么用有限的Bit表示尽可能多的信息?
16 | 浮点数和定点数(下):深入理解浮点数到底有什么用?
原理篇:处理器 (18讲)
17 | 建立数据通路(上):指令+运算=CPU
18 | 建立数据通路(中):指令+运算=CPU
19 | 建立数据通路(下):指令+运算=CPU
20 | 面向流水线的指令设计(上):一心多用的现代CPU
21 | 面向流水线的指令设计(下):奔腾4是怎么失败的?
22 | 冒险和预测(一):hazard是“危”也是“机”
23 | 冒险和预测(二):流水线里的接力赛
24 | 冒险和预测(三):CPU里的“线程池”
25 | 冒险和预测(四):今天下雨了,明天还会下雨么?
26 | Superscalar和VLIW:如何让CPU的吞吐率超过1?
27 | SIMD:如何加速矩阵乘法?
28 | 异常和中断:程序出错了怎么办?
29 | CISC和RISC:为什么手机芯片都是ARM?
30 | GPU(上):为什么玩游戏需要使用GPU?
31 | GPU(下):为什么深度学习需要使用GPU?
32 | FPGA和ASIC:计算机体系结构的黄金时代
33 | 解读TPU:设计和拆解一块ASIC芯片
34 | 理解虚拟机:你在云上拿到的计算机是什么样的?
原理篇:存储与I/O系统 (17讲)
35 | 存储器层次结构全景:数据存储的大金字塔长什么样?
36 | 局部性原理:数据库性能跟不上,加个缓存就好了?
37 | 高速缓存(上):“4毫秒”究竟值多少钱?
38 | 高速缓存(下):你确定你的数据更新了么?
39 | MESI协议:如何让多核CPU的高速缓存保持一致?
40 | 理解内存(上):虚拟内存和内存保护是什么?
41 | 理解内存(下):解析TLB和内存保护
42 | 总线:计算机内部的高速公路
43 | 输入输出设备:我们并不是只能用灯泡显示“0”和“1”
44 | 理解IO_WAIT:I/O性能到底是怎么回事儿?
45 | 机械硬盘:Google早期用过的“黑科技”
46 | SSD硬盘(上):如何完成性能优化的KPI?
47 | SSD硬盘(下):如何完成性能优化的KPI?
48 | DMA:为什么Kafka这么快?
49 | 数据完整性(上):硬件坏了怎么办?
50 | 数据完整性(下):如何还原犯罪现场?
51 | 分布式计算:如果所有人的大脑都联网会怎样?
应用篇 (5讲)
52 | 设计大型DMP系统(上):MongoDB并不是什么灵丹妙药
53 | 设计大型DMP系统(下):SSD拯救了所有的DBA
54 | 理解Disruptor(上):带你体会CPU高速缓存的风驰电掣
55 | 理解Disruptor(下):不需要换挡和踩刹车的CPU,有多快?
结束语 | 知也无涯,愿你也享受发现的乐趣
免费
答疑与加餐 (5讲)
特别加餐 | 我在2019年F8大会的两日见闻录
FAQ第一期 | 学与不学,知识就在那里,不如就先学好了
用户故事 | 赵文海:怕什么真理无穷,进一寸有一寸的欢喜
FAQ第二期 | 世界上第一个编程语言是怎么来的?
特别加餐 | 我的一天怎么过?
深入浅出计算机组成原理
登录|注册

25 | 冒险和预测(四):今天下雨了,明天还会下雨么?

徐文浩 2019-06-21
过去三讲,我主要为你介绍了结构冒险和数据冒险,以及增加资源、流水线停顿、操作数前推、乱序执行,这些解决各种“冒险”的技术方案。
在结构冒险和数据冒险中,你会发现,所有的流水线停顿操作都要从指令执行阶段开始。流水线的前两个阶段,也就是取指令(IF)和指令译码(ID)的阶段,是不需要停顿的。CPU 会在流水线里面直接去取下一条指令,然后进行译码。
取指令和指令译码不会需要遇到任何停顿,这是基于一个假设。这个假设就是,所有的指令代码都是顺序加载执行的。不过这个假设,在执行的代码中,一旦遇到 if…else 这样的条件分支,或者 for/while 循环,就会不成立。
回顾一下第 6 讲的条件跳转流程
我们先来回顾一下,第 6 讲里讲的 cmp 比较指令、jmp 和 jle 这样的条件跳转指令。可以看到,在 jmp 指令发生的时候,CPU 可能会跳转去执行其他指令。jmp 后的那一条指令是否应该顺序加载执行,在流水线里面进行取指令的时候,我们没法知道。要等 jmp 指令执行完成,去更新了 PC 寄存器之后,我们才能知道,是否执行下一条指令,还是跳转到另外一个内存地址,去取别的指令。
这种为了确保能取到正确的指令,而不得不进行等待延迟的情况,就是今天我们要讲的控制冒险(Control Harzard)。这也是流水线设计里最后一种冒险。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《深入浅出计算机组成原理》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(18)

  • 焰火
    以后写代码的时候养成良好习惯,按事件概率高低在分支中升序或降序安排,争取让状态机少判断
    2019-07-20
    2
    6
  • 鱼向北游
    徐老师 这个for循环的原理是对的,但是例子可能不恰当,因为这个例子耗时最长的不是cpu分支冒险,而是最后一层循环的临时变量创建次数,属于栈的问题,如果要测试分支预测,需要int i,j,k在循环外初始化好,但是这样的话目前100,1000,10000次的循环是几乎看不到差异的,甚至得出的结果会相反,在最大的循环扩充到1000万次(总量为10万亿次,才能感受到冒险的差异)。希望老师能看到,顺便改下例子
    2019-07-02
    2
    5
  • 小白
    package main

    import (
    "fmt"
    "time"
    )

    func main() {
    start := time.Now()
    for i := 0; i < 100; i++ {
    for j := 0; j < 1000; j++ {
    for k := 0; k < 10000; k++ {

    }
    }
    }

    fmt.Println(time.Since(start))

    start = time.Now()
    for i := 0; i < 10000; i++ {
    for j := 0; j < 1000; j++ {
    for k := 0; k < 100; k++ {

    }
    }
    }
    fmt.Println(time.Since(start))

    }
    417.9044ms
    544.5435ms
    2019-06-21
    1
    3
  • 韩俊臣
    ”在这样的情况下,上面的第一段循环,也就是内层 k 循环 10000 次的代码。每隔 10000 次,才会发生一次预测上的错误。而这样的错误,在第二层 j 的循环发生的次数,是 1000 次。”
    求老师和各位大佬指点下,这句没太看明白,为啥每隔10000次才出现一次预测错误

    作者回复: 韩俊臣同学,

    你好,最内层的循环,要执行10000次,前面的9999次都是继续执行下一次循环指令,最后一次是结束循环。预测的话,前面9999次都会预测会继续执行指令,到最后一次的预测会出错。

    2019-09-18
    1
    2
  • 开心
    如何检查是否执行错了指令,以及执行错指令如何处理还讲吗?
    2019-06-26
    2
  • pebble
    你的机子好厉害,第一个例子语言五毫秒,我测试,c语言需要4337跟4492毫秒,c#需要5367跟5585毫秒,看来cpu的分支预测机制有大的改进了,不知道是什么机制
    2019-06-21
    2
  • Geek_54edc1
    分支预测的状态流转图最左侧那个指向自身的箭头旁边的文字应该是Not Taken
    2019-07-02
    1
  • haer
    用Python实验的结果分别是165秒,139秒,后者的速度更快,为什么呢?

    “许童童”的js实验,第二个循环的k应该<100而不是<1000
    2019-06-22
    1
  • 喜欢吃鱼
    哈哈,之前问今天这个程序问题的是我,明白了,谢谢老师的讲解。
    2019-06-21
    1
  • 许童童
    用js写了一下,分别是343和3345毫秒,差了10倍
    let prev = Date.now()
    for (let i = 0; i < 100; i ++) {
      for (let j = 0; j < 1000; j ++) {
        for (let k = 0; k < 10000; k ++) {

        }
      }
    }
    console.log(Date.now() - prev)

    prev = Date.now()
    for (let i = 0; i < 10000; i ++) {
      for (let j = 0; j < 1000; j ++) {
        for (let k = 0; k < 1000; k ++) {

        }
      }
    }
    console.log(Date.now() - prev)
    2019-06-21
    1
    1
  • Linuxer
    第一种,是进行条件比较。这个条件比较,需要的输入是,根据指令的 opcode,就能确认的条件码寄存器。这里的确认条件码寄存器不太理解,是不是比较确定条件码寄存器的值?
    2019-06-21
    1
  • 兔子先生
    因为分支预测失败,内外循环顺序不同导致性能表现的差异,让我联想到了SQL join两张表驱动表一定是行数较小的小表,驱动表的设计原理是否也是基于分支预测会失败这个底层原因呢?
    2019-11-18
  • learn more
    这个循环优化和数据库优化的小表驱动大表好像,原理应该不同哈!
    2019-10-25
  • 川云
    写完代码测试之前要先echo 3去 drop_cache,否则时间只有第一次运行是对的,后面就不对了
    2019-10-17
  • 曾经瘦过
    java 的例子受教了,之前都不知道这个。从代码上看 似乎没有太大的区别,性能上已经产生了3倍的差距,这就是差距。
    2019-10-08
  • prader
    1 因为在程序执行的时候存在for while等跳转指令,所以指令在执行过程中会发生跳转,为了取到正确的指令,产生了控制冒险策略。
    2 控制冒险策略,有缩短分支延迟,分支预测,动态分支预测。
    2019-09-22
  • 活的潇洒
    “如果连续发生下雨的情况,我们就认为更有可能下雨。之后如果只有一天放晴了,我们仍然认为会下雨。在连续下雨之后,要连续两天放晴,我们才会认为之后会放晴。”这个准确确实提高了准确率

    day25 笔记:https://www.cnblogs.com/luoahong/p/11437848.html

    2019-09-01
  • 木偶人King
    我跑了三次
                5 5ms
                4 6ms
                4 5ms
    后续都是4 6和4 5交替出现

    估计是

    System Model: HP Z440 Workstation
    System Type: x64-based PC
    Processor(s): 1 Processor(s) Installed.
                               [01]: Intel64 Family 6 Model 79 Stepping 1 GenuineIntel ~3601 Mhz
    BIOS Version: Hewlett-Packard M60 v02.38, 11/8/2017
    Windows Directory: C:\WINDOWS
    System Directory: C:\WINDOWS\system32
    Boot Device: \Device\HarddiskVolume2
    System Locale: en-us;English (United States)
    Input Locale: en-us;English (United States)
    Time Zone: (UTC+08:00) Beijing, Chongqing, Hong Kong SAR, Urumqi
    Total Physical Memory: 32,684 MB
    Available Physical Memory: 19,554 MB
    Virtual Memory: Max Size: 37,548 MB
    Virtual Memory: Available: 23,509 MB
    Virtual Memory: In Use: 14,039 MB
    2019-06-24
收起评论
18
返回
顶部