深入浅出计算机组成原理
徐文浩
bothub创始人
立即订阅
13019 人已学习
课程目录
已完结 62 讲
0/4登录后,你可以任选4讲全文学习。
入门篇 (5讲)
开篇词 | 为什么你需要学习计算机组成原理?
免费
01 | 冯·诺依曼体系结构:计算机组成的金字塔
02 | 给你一张知识地图,计算机组成原理应该这么学
03 | 通过你的CPU主频,我们来谈谈“性能”究竟是什么?
04 | 穿越功耗墙,我们该从哪些方面提升“性能”?
原理篇:指令和运算 (12讲)
05 | 计算机指令:让我们试试用纸带编程
06 | 指令跳转:原来if...else就是goto
07 | 函数调用:为什么会发生stack overflow?
08 | ELF和静态链接:为什么程序无法同时在Linux和Windows下运行?
09 | 程序装载:“640K内存”真的不够用么?
10 | 动态链接:程序内部的“共享单车”
11 | 二进制编码:“手持两把锟斤拷,口中疾呼烫烫烫”?
12 | 理解电路:从电报机到门电路,我们如何做到“千里传信”?
13 | 加法器:如何像搭乐高一样搭电路(上)?
14 | 乘法器:如何像搭乐高一样搭电路(下)?
15 | 浮点数和定点数(上):怎么用有限的Bit表示尽可能多的信息?
16 | 浮点数和定点数(下):深入理解浮点数到底有什么用?
原理篇:处理器 (18讲)
17 | 建立数据通路(上):指令+运算=CPU
18 | 建立数据通路(中):指令+运算=CPU
19 | 建立数据通路(下):指令+运算=CPU
20 | 面向流水线的指令设计(上):一心多用的现代CPU
21 | 面向流水线的指令设计(下):奔腾4是怎么失败的?
22 | 冒险和预测(一):hazard是“危”也是“机”
23 | 冒险和预测(二):流水线里的接力赛
24 | 冒险和预测(三):CPU里的“线程池”
25 | 冒险和预测(四):今天下雨了,明天还会下雨么?
26 | Superscalar和VLIW:如何让CPU的吞吐率超过1?
27 | SIMD:如何加速矩阵乘法?
28 | 异常和中断:程序出错了怎么办?
29 | CISC和RISC:为什么手机芯片都是ARM?
30 | GPU(上):为什么玩游戏需要使用GPU?
31 | GPU(下):为什么深度学习需要使用GPU?
32 | FPGA和ASIC:计算机体系结构的黄金时代
33 | 解读TPU:设计和拆解一块ASIC芯片
34 | 理解虚拟机:你在云上拿到的计算机是什么样的?
原理篇:存储与I/O系统 (17讲)
35 | 存储器层次结构全景:数据存储的大金字塔长什么样?
36 | 局部性原理:数据库性能跟不上,加个缓存就好了?
37 | 高速缓存(上):“4毫秒”究竟值多少钱?
38 | 高速缓存(下):你确定你的数据更新了么?
39 | MESI协议:如何让多核CPU的高速缓存保持一致?
40 | 理解内存(上):虚拟内存和内存保护是什么?
41 | 理解内存(下):解析TLB和内存保护
42 | 总线:计算机内部的高速公路
43 | 输入输出设备:我们并不是只能用灯泡显示“0”和“1”
44 | 理解IO_WAIT:I/O性能到底是怎么回事儿?
45 | 机械硬盘:Google早期用过的“黑科技”
46 | SSD硬盘(上):如何完成性能优化的KPI?
47 | SSD硬盘(下):如何完成性能优化的KPI?
48 | DMA:为什么Kafka这么快?
49 | 数据完整性(上):硬件坏了怎么办?
50 | 数据完整性(下):如何还原犯罪现场?
51 | 分布式计算:如果所有人的大脑都联网会怎样?
应用篇 (5讲)
52 | 设计大型DMP系统(上):MongoDB并不是什么灵丹妙药
53 | 设计大型DMP系统(下):SSD拯救了所有的DBA
54 | 理解Disruptor(上):带你体会CPU高速缓存的风驰电掣
55 | 理解Disruptor(下):不需要换挡和踩刹车的CPU,有多快?
结束语 | 知也无涯,愿你也享受发现的乐趣
免费
答疑与加餐 (5讲)
特别加餐 | 我在2019年F8大会的两日见闻录
FAQ第一期 | 学与不学,知识就在那里,不如就先学好了
用户故事 | 赵文海:怕什么真理无穷,进一寸有一寸的欢喜
FAQ第二期 | 世界上第一个编程语言是怎么来的?
特别加餐 | 我的一天怎么过?
深入浅出计算机组成原理
登录|注册

27 | SIMD:如何加速矩阵乘法?

徐文浩 2019-06-26
上一讲里呢,我进一步为你讲解了 CPU 里的“黑科技”,分别是超标量(Superscalar)技术和超长指令字(VLIW)技术。
超标量(Superscalar)技术能够让取指令以及指令译码也并行进行;在编译的过程,超长指令字(VLIW)技术可以搞定指令先后的依赖关系,使得一次可以取一个指令包。
不过,CPU 里的各种神奇的优化我们还远远没有说完。这一讲里,我就带你一起来看看,专栏里最后两个提升 CPU 性能的架构设计。它们分别是,你应该常常听说过的超线程(Hyper-Threading)技术,以及可能没有那么熟悉的单指令多数据流(SIMD)技术。

超线程:Intel 多卖给你的那一倍 CPU

不知道你是不是还记得,在第 21 讲,我给你介绍了 Intel 是怎么在 Pentium 4 处理器上遭遇重大失败的。如果不太记得的话,你可以回过头去回顾一下。
那时我和你说过,Pentium 4 失败的一个重要原因,就是它的 CPU 的流水线级数太深了。早期的 Pentium 4 的流水线深度高达 20 级,而后期的代号为 Prescott 的 Pentium 4 的流水线级数,更是到了 31 级。超长的流水线,使得之前我们讲的很多解决“冒险”、提升并发的方案都用不上。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《深入浅出计算机组成原理》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(16)

  • prader
    1 超线程技术是在cpu中添加逻辑电路,使一个cpu核心伪装成2个或者多个cpu核心,在这个线程,需要等待的时候,cpu去计算别的线程需要计算的部分,这两个线程都在执行过程中,都没有停下。
    2 SIMD(单线程多数据流)技术,是一种指令级的并行计算。一次从寄存器中取多个数据,如果这些数据的计算没有依赖关系可以同时并发计算,应用场景较多的是向量运算,也就是音频、视频技术,还有深度学习的计算等。
    2019-09-24
    2
  • 陆离
    老师这个从超线程技术是不是可以和各种语言中的多线程概念联系起来?
    看起来像是多个线程在运行,其实这是当流水线停顿的时候执行另一个线程的指令,这个是经常说的时间片是什么关系?
    那线程的阻塞,唤醒操作又是如何实现的呢?
    2019-06-26
    2
    2
  • 拯救地球好累
    ---总结---
    为了提高没有依赖关系的指令间的并行性,引入了超线程技术。
    超线程技术:在硬件层面为每个线程设立单独的PC寄存器、指令寄存器、条件码寄存器等线程相关硬件,从而让一个CPU物理核心中有多个逻辑核心的目的。这样当一个线程在流水线中停顿时,另一个线程就可以去执行指令。
    从超线程技术中可以看到,软件层面概念的提出也会影响到硬件层面的设计,而结合硬件条件也能更好地指导软件设计。
    为了针对可向量化的计算提供进一步的优化,引入了SIMD。
    SIMD:利用单个指令读取并操作多个数据流的方式加大并行化程度。
    2019-10-27
    1
  • westfall
    那我们平时写的程序怎么直接使用SIMD指令呢?
    2019-10-21
    1
  • Geek_29981e
    数据库应用,io读写应用,多线程应用的生产者和消费者主动挂起和唤醒的应用
    2019-06-29
    1
  • pebble
    MMX指令是多媒体扩展指令吧,最早是为多媒体引入的
    2019-06-26
    1
    1
  • Hello 静
    豁然开朗!
    2019-12-10
  • 曾经瘦过
    超线程技术是伪装成2个核心,在期中一个“线程”需要等待的时候去执行另一个“线程”,因此比较适合并发大量IO的操作
    2019-10-10
  • 小先生
    我的理解是分别从线程和代码角度来避免冒险的可能,从而提高效率,不知道这样的理解是否正确

    作者回复: 可以这样说,通过找两个完全不相关的指令,这样就没有冒险的问题存在,同时运行也不会发生冒险。

    2019-09-02
  • 活的潇洒
    在量化交易分析NumPy是用到过、只知道它快、但确不知道NumPy为什么这么快?今天终于知道底层的实现原理了

    day27 笔记:https://www.cnblogs.com/luoahong/p/11442013.html
    2019-09-01
  • GeekVoyager
    这讲质量狠可以啊 现在从事GPU行业 不知道系统框架需要看哪些内容啊?
    2019-06-28
  • 易儿易
    终于知道为什么挖矿烧显卡啦~
    2019-06-27
  • magicnum
    I/O密集型单不是CPU密集型的场景下超线程效率高。数据库连接池、定制线程池处理I/O读写
    2019-06-26
  • Destroy、
    老师超线程,是不是有点像python的协程?
    2019-06-26
    1
  • Linuxer
    这里有个问题请教,之前做性能监控由于超线程的存在,一般看负载和cpu利用率会按照 CPU数*核数*线程数,通过今天的课程来看,好像不能这么看了?
    2019-06-26
  • null
    simd只是用来加速向量么?有没有其他方面可以优化代码的呀?感觉学了很有帮助。。
    2019-06-26
收起评论
16
返回
顶部