深入浅出计算机组成原理
徐文浩
bothub创始人
立即订阅
13019 人已学习
课程目录
已完结 62 讲
0/4登录后,你可以任选4讲全文学习。
入门篇 (5讲)
开篇词 | 为什么你需要学习计算机组成原理?
免费
01 | 冯·诺依曼体系结构:计算机组成的金字塔
02 | 给你一张知识地图,计算机组成原理应该这么学
03 | 通过你的CPU主频,我们来谈谈“性能”究竟是什么?
04 | 穿越功耗墙,我们该从哪些方面提升“性能”?
原理篇:指令和运算 (12讲)
05 | 计算机指令:让我们试试用纸带编程
06 | 指令跳转:原来if...else就是goto
07 | 函数调用:为什么会发生stack overflow?
08 | ELF和静态链接:为什么程序无法同时在Linux和Windows下运行?
09 | 程序装载:“640K内存”真的不够用么?
10 | 动态链接:程序内部的“共享单车”
11 | 二进制编码:“手持两把锟斤拷,口中疾呼烫烫烫”?
12 | 理解电路:从电报机到门电路,我们如何做到“千里传信”?
13 | 加法器:如何像搭乐高一样搭电路(上)?
14 | 乘法器:如何像搭乐高一样搭电路(下)?
15 | 浮点数和定点数(上):怎么用有限的Bit表示尽可能多的信息?
16 | 浮点数和定点数(下):深入理解浮点数到底有什么用?
原理篇:处理器 (18讲)
17 | 建立数据通路(上):指令+运算=CPU
18 | 建立数据通路(中):指令+运算=CPU
19 | 建立数据通路(下):指令+运算=CPU
20 | 面向流水线的指令设计(上):一心多用的现代CPU
21 | 面向流水线的指令设计(下):奔腾4是怎么失败的?
22 | 冒险和预测(一):hazard是“危”也是“机”
23 | 冒险和预测(二):流水线里的接力赛
24 | 冒险和预测(三):CPU里的“线程池”
25 | 冒险和预测(四):今天下雨了,明天还会下雨么?
26 | Superscalar和VLIW:如何让CPU的吞吐率超过1?
27 | SIMD:如何加速矩阵乘法?
28 | 异常和中断:程序出错了怎么办?
29 | CISC和RISC:为什么手机芯片都是ARM?
30 | GPU(上):为什么玩游戏需要使用GPU?
31 | GPU(下):为什么深度学习需要使用GPU?
32 | FPGA和ASIC:计算机体系结构的黄金时代
33 | 解读TPU:设计和拆解一块ASIC芯片
34 | 理解虚拟机:你在云上拿到的计算机是什么样的?
原理篇:存储与I/O系统 (17讲)
35 | 存储器层次结构全景:数据存储的大金字塔长什么样?
36 | 局部性原理:数据库性能跟不上,加个缓存就好了?
37 | 高速缓存(上):“4毫秒”究竟值多少钱?
38 | 高速缓存(下):你确定你的数据更新了么?
39 | MESI协议:如何让多核CPU的高速缓存保持一致?
40 | 理解内存(上):虚拟内存和内存保护是什么?
41 | 理解内存(下):解析TLB和内存保护
42 | 总线:计算机内部的高速公路
43 | 输入输出设备:我们并不是只能用灯泡显示“0”和“1”
44 | 理解IO_WAIT:I/O性能到底是怎么回事儿?
45 | 机械硬盘:Google早期用过的“黑科技”
46 | SSD硬盘(上):如何完成性能优化的KPI?
47 | SSD硬盘(下):如何完成性能优化的KPI?
48 | DMA:为什么Kafka这么快?
49 | 数据完整性(上):硬件坏了怎么办?
50 | 数据完整性(下):如何还原犯罪现场?
51 | 分布式计算:如果所有人的大脑都联网会怎样?
应用篇 (5讲)
52 | 设计大型DMP系统(上):MongoDB并不是什么灵丹妙药
53 | 设计大型DMP系统(下):SSD拯救了所有的DBA
54 | 理解Disruptor(上):带你体会CPU高速缓存的风驰电掣
55 | 理解Disruptor(下):不需要换挡和踩刹车的CPU,有多快?
结束语 | 知也无涯,愿你也享受发现的乐趣
免费
答疑与加餐 (5讲)
特别加餐 | 我在2019年F8大会的两日见闻录
FAQ第一期 | 学与不学,知识就在那里,不如就先学好了
用户故事 | 赵文海:怕什么真理无穷,进一寸有一寸的欢喜
FAQ第二期 | 世界上第一个编程语言是怎么来的?
特别加餐 | 我的一天怎么过?
深入浅出计算机组成原理
登录|注册

37 | 高速缓存(上):“4毫秒”究竟值多少钱?

徐文浩 2019-07-19
在这一节内容开始之前,我们先来看一个 3 行的小程序。你可以猜一猜,这个程序里的循环 1 和循环 2,运行所花费的时间会差多少?你可以先思考几分钟,然后再看我下面的解释。
int[] arr = new int[64 * 1024 * 1024];
// 循环1
for (int i = 0; i < arr.length; i++) arr[i] *= 3;
// 循环2
for (int i = 0; i < arr.length; i += 16) arr[i] *= 3
在这段 Java 程序中,我们首先构造了一个 64×1024×1024 大小的整型数组。在循环 1 里,我们遍历整个数组,将数组中每一项的值变成了原来的 3 倍;在循环 2 里,我们每隔 16 个索引访问一个数组元素,将这一项的值变成了原来的 3 倍。
按道理来说,循环 2 只访问循环 1 中 1/16 的数组元素,只进行了循环 1 中 1/16 的乘法计算,那循环 2 花费的时间应该是循环 1 的 1/16 左右。但是实际上,循环 1 在我的电脑上运行需要 50 毫秒,循环 2 只需要 46 毫秒。这两个循环花费时间之差在 15% 之内。
为什么会有这 15% 的差异呢?这和我们今天要讲的 CPU Cache 有关。之前我们看到了内存和硬盘之间存在的巨大性能差异。在 CPU 眼里,内存也慢得不行。于是,聪明的工程师们就在 CPU 里面嵌入了 CPU Cache(高速缓存),来解决这一问题。

我们为什么需要高速缓存?

按照摩尔定律,CPU 的访问速度每 18 个月便会翻一番,相当于每年增长 60%。内存的访问速度虽然也在不断增长,却远没有这么快,每年只增长 7% 左右。而这两个增长速度的差异,使得 CPU 性能和内存访问性能的差距不断拉大。到今天来看,一次内存的访问,大约需要 120 个 CPU Cycle,这也意味着,在今天,CPU 和内存的访问速度已经有了 120 倍的差距。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《深入浅出计算机组成原理》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(20)

  • 斐波那契
    一般二维数组在内存中存放是按行优先存放的 所以在加载数据时候就会把一行数据加载进cache里 这样cache的命中率就大大提高 如果按列迭代 cache就很难名字从而cpu就要经常从内存中读数据 如果数据量不大的话两种方式可能没什么感觉 一旦数据量很大的话按行迭代的速度就能感觉出来了
    2019-07-19
    1
    15
  • J.D.
    图里 Cache Line 0 ~ Cache Line 8 不是 9 个内存块吗?
    2019-10-03
    1
    1
  • Giacomo
    老师我想问一下,我记得之前我们学过,内存里有分段和分页,那这里的分块和之前的页有没有什么关系?
    2019-08-04
    2
    1
  • Geek_JaneJane
    请问徐老师,为什么我在Python上执行3行小程序不是那个效果呢?
    ```
    import time

    a = [0]*64*1024*1024
    start = int(time.time()*1000)
    for i in range(0, len(a)):
        a[i] *= 3
    print '1,', int(time.time()*1000) - start

    start = int(time.time()*1000)
    for j in range(0, len(a), 16):
        a[j] *= 3
    print '2,', int(time.time()*1000) - start

    输出:
    1, 11804
    2, 538

    ```
    2019-07-20
    2
    1
  • alexgzh
    分語言, 有的語言二維數組按照行來存, 例如C++ A[2][2] 存放是A[0][0] A[0][1] 存第一行。A[1][0] A[1][1] 存第二行,按照行迭代的方式快。Fortran按照列來存,按照列迭代快。
    2019-07-20
    1
  • 随心而至
    讲的非常透彻赞。
    课后习题,由于二维数组在内存中是按照行存放的。按行遍历,下一条数据大概率在Cache line中,因而耗时较短。
    public class ArrCacheLineTest {
        public static void main(String[] args){
            int[][] arr = new int[6400][6400];
            long start = System.currentTimeMillis();
            int sum = 0;
            for(int i=0; i<arr.length; i++){
                for(int j=0; j<arr[i].length; j++){
                   sum += arr[i][j];
                }
            }
            //31ms, 由于数据是按照行放的,按行遍历,下一条数据大概在Cache line中,因而耗时较短。
            System.out.println("sum "+ sum +" time ="+(System.currentTimeMillis() - start));
            for(int i=0; i<arr.length; i++){
                for(int j=0; j<arr[i].length; j++){
                    sum += arr[j][i];
                }
            }
            //1610
            System.out.println("sum "+ sum +" time ="+(System.currentTimeMillis() - start));
        }
    }
    2019-10-22
  • 星辰
    老师 那volatile的作用 是不是就是把cache中的有效位 置为0了呢?

    恳请老师解答! 谢谢老师!
    2019-10-20
    1
  • coldpark
    请问如果5号高速缓存块要同时存储5和21号内存的数据,组标记怎么填写呢?
    2019-10-03
  • Fstar
    有点像哈希表。那如果读取的多个内存数据的地址都指向同一个缓存块怎么办?直接覆盖掉?

    作者回复: Fstar同学你好,

    37和38讲里讲了怎么做组相连的缓存加载过程,后面的MESI协议部分里也有怎么做写入的高速缓存同步问题,可以仔细看一下。

    2019-09-27
  • 小先生
    我有个疑问:
    内存中读取数据,也是按照一块一块来的。
    那一个内存地址是怎么存储对应字的位置偏移量。那它得存多少偏移量啊?

    作者回复: 小先生同学,

    你好,偏移量是在内存地址的访问请求里的,并不会存在映射关系里,不需要预先存啊。

    2019-09-19
    1
  • 活的潇洒
    “对自己狠一点,发现还是有潜力可挖”

    day37 天笔记:https://www.cnblogs.com/luoahong/p/11359393.html
    2019-09-02
    1
  • 焰火
    精妙~~
    2019-09-01
  • coder
    徐老师,你好,请教您一个问题:对于指令跟数据分开的哈弗架构,数据cache按照文中提的那几种方式很好理解,
    那么指令cache也是按照全相联,组相联的方式管理的吗?
    2019-07-20
  • 陈华应
    按行,1,空间局部性。2,提高使用cache line命中率
    时间就是金钱!!!
    2019-07-20
  • 许童童
    老师你好,内存地址的表示形式可以说一下吗,不是还有操作系统的虚拟内存地址吗,这一块是怎么直接映射的?
    2019-07-19
    1
  • gigglesun
    比如我有一个int变量的地址,假设是32位,去取它的值,怎么从缓存获得?这个过程是什么,感觉缺了offset的信息呀
    2019-07-19
  • humor
    按行快,按行可以充分利用CPU cache一次加载的内存,按列的话CPU cache利用率比较低。一次加载16个整数,速度大概相差16倍吧
    2019-07-19
  • Linuxer
    有一个问题请教,要表示cache的索引和偏移3个位不够啊,至少要七位啊
    2019-07-19
  • Linuxer
    一行一行处理,高速缓存命中率更高吧
    2019-07-19
  • 安排
    cache和mmu位置关系是怎么样的?哪个在前哪个在后?
    2019-07-19
收起评论
20
返回
顶部