趣谈Linux操作系统
刘超
网易杭州研究院云计算技术部首席架构师
立即订阅
19381 人已学习
课程目录
已完结 72 讲
0/4登录后,你可以任选4讲全文学习。
入门准备篇 (3讲)
开篇词 | 为什么要学习Linux操作系统?
免费
01 | 入学测验:你究竟对Linux操作系统了解多少?
02 | 学习路径:爬过这六个陡坡,你就能对Linux了如指掌
核心原理篇:第一部分 Linux操作系统综述 (3讲)
03 | 你可以把Linux内核当成一家软件外包公司的老板
04 | 快速上手几个Linux命令:每家公司都有自己的黑话
05 | 学会几个系统调用:咱们公司能接哪些类型的项目?
核心原理篇:第二部分 系统初始化 (4讲)
06 | x86架构:有了开放的架构,才能打造开放的营商环境
07 | 从BIOS到bootloader:创业伊始,有活儿老板自己上
08 | 内核初始化:生意做大了就得成立公司
09 | 系统调用:公司成立好了就要开始接项目
核心原理篇:第三部分 进程管理 (10讲)
10 | 进程:公司接这么多项目,如何管?
11 | 线程:如何让复杂的项目并行执行?
12 | 进程数据结构(上):项目多了就需要项目管理系统
13 | 进程数据结构(中):项目多了就需要项目管理系统
14 | 进程数据结构(下):项目多了就需要项目管理系统
15 | 调度(上):如何制定项目管理流程?
16 | 调度(中):主动调度是如何发生的?
17 | 调度(下):抢占式调度是如何发生的?
18 | 进程的创建:如何发起一个新项目?
19 | 线程的创建:如何执行一个新子项目?
核心原理篇:第四部分 内存管理 (7讲)
20 | 内存管理(上):为客户保密,规划进程内存空间布局
21 | 内存管理(下):为客户保密,项目组独享会议室封闭开发
22 | 进程空间管理:项目组还可以自行布置会议室
23 | 物理内存管理(上):会议室管理员如何分配会议室?
24 | 物理内存管理(下):会议室管理员如何分配会议室?
25 | 用户态内存映射:如何找到正确的会议室?
26 | 内核态内存映射:如何找到正确的会议室?
核心原理篇:第五部分 文件系统 (4讲)
27 | 文件系统:项目成果要归档,我们就需要档案库
28 | 硬盘文件系统:如何最合理地组织档案库的文档?
29 | 虚拟文件系统:文件多了就需要档案管理系统
30 | 文件缓存:常用文档应该放在触手可得的地方
核心原理篇:第六部分 输入输出系统 (5讲)
31 | 输入与输出:如何建立售前售后生态体系?
32 | 字符设备(上):如何建立直销模式?
33 | 字符设备(下):如何建立直销模式?
34 | 块设备(上):如何建立代理商销售模式?
35 | 块设备(下):如何建立代理商销售模式?
核心原理篇:第七部分 进程间通信 (7讲)
36 | 进程间通信:遇到大项目需要项目组之间的合作才行
37 | 信号(上):项目组A完成了,如何及时通知项目组B?
38 | 信号(下):项目组A完成了,如何及时通知项目组B?
39 | 管道:项目组A完成了,如何交接给项目组B?
40 | IPC(上):不同项目组之间抢资源,如何协调?
41 | IPC(中):不同项目组之间抢资源,如何协调?
42 | IPC(下):不同项目组之间抢资源,如何协调?
核心原理篇:第八部分 网络系统 (7讲)
43 预习 | Socket通信之网络协议基本原理
43 | Socket通信:遇上特大项目,要学会和其他公司合作
44 | Socket内核数据结构:如何成立特大项目合作部?
45 | 发送网络包(上):如何表达我们想让合作伙伴做什么?
46 | 发送网络包(下):如何表达我们想让合作伙伴做什么?
47 | 接收网络包(上):如何搞明白合作伙伴让我们做什么?
48 | 接收网络包(下):如何搞明白合作伙伴让我们做什么?
核心原理篇:第九部分 虚拟化 (7讲)
49 | 虚拟机:如何成立子公司,让公司变集团?
50 | 计算虚拟化之CPU(上):如何复用集团的人力资源?
51 | 计算虚拟化之CPU(下):如何复用集团的人力资源?
52 | 计算虚拟化之内存:如何建立独立的办公室?
53 | 存储虚拟化(上):如何建立自己保管的单独档案库?
54 | 存储虚拟化(下):如何建立自己保管的单独档案库?
55 | 网络虚拟化:如何成立独立的合作部?
核心原理篇:第十部分 容器化 (4讲)
56 | 容器:大公司为保持创新,鼓励内部创业
57 | Namespace技术:内部创业公司应该独立运营
58 | CGroup技术:内部创业公司应该独立核算成本
59 | 数据中心操作系统:上市敲钟
实战串讲篇 (9讲)
60 | 搭建操作系统实验环境(上):授人以鱼不如授人以渔
61 | 搭建操作系统实验环境(下):授人以鱼不如授人以渔
62 | 知识串讲:用一个创业故事串起操作系统原理(一)
63 | 知识串讲:用一个创业故事串起操作系统原理(二)
64 | 知识串讲:用一个创业故事串起操作系统原理(三)
65 | 知识串讲:用一个创业故事串起操作系统原理(四)
66 | 知识串讲:用一个创业故事串起操作系统原理(五)
67 | 期末测试:这些操作系统问题,你真的掌握了吗?
结束语 | 永远别轻视任何技术,也永远别轻视自己
免费
专栏加餐 (2讲)
学习攻略(一):学好操作系统,需要掌握哪些前置知识?
“趣谈Linux操作系统”食用指南
免费
趣谈Linux操作系统
登录|注册

25 | 用户态内存映射:如何找到正确的会议室?

刘超 2019-05-24
前面几节,我们既看了虚拟内存空间如何组织的,也看了物理页面如何管理的。现在我们需要一些数据结构,将二者关联起来。

mmap 的原理

在虚拟地址空间那一节,我们知道,每一个进程都有一个列表 vm_area_struct,指向虚拟地址空间的不同的内存块,这个变量的名字叫 mmap
struct mm_struct {
struct vm_area_struct *mmap; /* list of VMAs */
......
}
struct vm_area_struct {
/*
* For areas with an address space and backing store,
* linkage into the address_space->i_mmap interval tree.
*/
struct {
struct rb_node rb;
unsigned long rb_subtree_last;
} shared;
/*
* A file's MAP_PRIVATE vma can be in both i_mmap tree and anon_vma
* list, after a COW of one of the file pages. A MAP_SHARED vma
* can only be in the i_mmap tree. An anonymous MAP_PRIVATE, stack
* or brk vma (with NULL file) can only be in an anon_vma list.
*/
struct list_head anon_vma_chain; /* Serialized by mmap_sem &
* page_table_lock */
struct anon_vma *anon_vma; /* Serialized by page_table_lock */
/* Function pointers to deal with this struct. */
const struct vm_operations_struct *vm_ops;
/* Information about our backing store: */
unsigned long vm_pgoff; /* Offset (within vm_file) in PAGE_SIZE
units */
struct file * vm_file; /* File we map to (can be NULL). */
void * vm_private_data; /* was vm_pte (shared mem) */
其实内存映射不仅仅是物理内存和虚拟内存之间的映射,还包括将文件中的内容映射到虚拟内存空间。这个时候,访问内存空间就能够访问到文件里面的数据。而仅有物理内存和虚拟内存的映射,是一种特殊情况。
前面咱们讲堆的时候讲过,如果我们要申请小块内存,就用 brk。brk 函数之前已经解析过了,这里就不多说了。如果申请一大块内存,就要用 mmap。对于堆的申请来讲,mmap 是映射内存空间到物理内存。
另外,如果一个进程想映射一个文件到自己的虚拟内存空间,也要通过 mmap 系统调用。这个时候 mmap 是映射内存空间到物理内存再到文件。可见 mmap 这个系统调用是核心,我们现在来看 mmap 这个系统调用。
SYSCALL_DEFINE6(mmap, unsigned long, addr, unsigned long, len,
unsigned long, prot, unsigned long, flags,
unsigned long, fd, unsigned long, off)
{
......
error = sys_mmap_pgoff(addr, len, prot, flags, fd, off >> PAGE_SHIFT);
......
}
SYSCALL_DEFINE6(mmap_pgoff, unsigned long, addr, unsigned long, len,
unsigned long, prot, unsigned long, flags,
unsigned long, fd, unsigned long, pgoff)
{
struct file *file = NULL;
......
file = fget(fd);
......
retval = vm_mmap_pgoff(file, addr, len, prot, flags, pgoff);
return retval;
}
如果要映射到文件,fd 会传进来一个文件描述符,并且 mmap_pgoff 里面通过 fget 函数,根据文件描述符获得 struct file。struct file 表示打开的一个文件。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《趣谈Linux操作系统》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(17)

  • why
    - 申请小块内存用 brk; 申请大块内存或文件映射用 mmap
    - mmap 映射文件, 由 fd 得到 struct file
        - 调用 ...->do_mmap
            - 调用 get_unmapped_area 找到一个可以进行映射的 vm_area_struct
            - 调用 mmap_region 进行映射
        - get_unmapped_area
            - 匿名映射: 找到前一个 vm_area_struct
            - 文件映射: 调用 file 中 file_operations 文件的相关操作, 最终也会调用到 get_unmapped_area
        - mmap_region
            - 通过 vm_area_struct 判断, 能否基于现有的块扩展(调用 vma_merge)
            - 若不能, 调用 kmem_cache_alloc 在 slub 中得到一个 vm_area_struct 并进行设置
            - 若是文件映射: 则调用 file_operations 的 mmap 将 vm_area_struct 的内存操作设置为文件系统对应操作(读写内存就是读写文件系统)
            - 通过 vma_link 将 vm_area_struct 插入红黑树
            - 若是文件映射, 调用 __vma_link_file 建立文件到内存的反映射
    - 内存管理不直接分配内存, 在使用时才分配
    - 用户态缺页异常, 触发缺页中断, 调用 do_page_default
    - __do_page_fault 判断中断是否发生在内核
        - 若发生在内核, 调用 vmalloc_fault, 使用内核页表进行映射
        - 若不是, 找到对应 vm_area_struct 调用 handle_mm_fault
        - 得到多级页表地址 pgd 等
        - pgd 存在 task_struct.mm_struct.pgd 中
        - 全局页目录项 pgd 在创建进程 task_struct 时创建并初始化, 会调用 pgd_ctor 拷贝内核页表到进程的页表
    - 进程被调度运行时, 通过 switch_mm_irqs_off->load_new_mm_cr3 切换内存上下文
    - cr3 是 cpu 寄存器, 存储进程 pgd 的物理地址(load_new_mm_cr3 加载时通过直接内存映射进行转换)
    - cpu 访问进程虚拟内存时, 从 cr3 得到 pgd 页表, 最后得到进程访问的物理地址
    - 进程地址转换发生在用户态, 缺页时才进入内核态(调用__handle_mm_fault)
    - __handle_mm_fault 调用 pud_alloc, pmd_alloc, handle_pte_fault 分配页表项
        - 若不存在 pte
            - 匿名页: 调用 do_anonymous_page 分配物理页 ①
            - 文件映射: 调用 do_fault ②
        - 若存在 pte, 调用 do_swap_page 换入内存 ③
        - ① 为匿名页分配内存
            - 调用 pte_alloc 分配 pte 页表项
            - 调用 ...->__alloc_pages_nodemask 分配物理页
            - mk_pte 页表项指向物理页; set_pte_at 插入页表项
        - ② 为文件映射分配内存 __do_fault
            - 以 ext4 为例, 调用 ext4_file_fault->filemap_fault
            - 文件映射一般有物理页作为缓存 find_get_page 找缓存页
            - 若有缓存页, 调用函数预读数据到内存
            - 若无缓存页, 调用 page_cache_read 分配一个, 加入 lru 队列, 调用 readpage 读数据: 调用 kmap_atomic 将物理内存映射到内核临时映射空间, 由内核读取文件, 再调用 kunmap_atomic 解映射
        - ③ do_swap_page
            - 先检查对应 swap 有没有缓存页
            - 没有, 读入 swap 文件(也是调用 readpage)
            - 调用 mk_pte; set_pet_at; swap_free(清理 swap)
    - 避免每次都需要经过页表(存再内存中)访问内存
        - TLB 缓存部分页表项的副本
    2019-05-25
    20
  • zzuse
    我感觉学得很吃力,调用链太长了

    作者回复: 忽略调用链,记住重点节点,调用链就是为了证明的确这样过去的

    2019-05-24
    11
  • 活的潇洒
    比起《深入浅出计算机组成原理》和《Linux性能优化实战》的篇幅
    本节花了三天,每天不少于2小时,才把笔记做完,估计老师也花费不少时间
    day25笔记:https://www.cnblogs.com/luoahong/p/10916458.html

    作者回复: 是啊是啊,理解万岁

    2019-05-29
    1
    7
  • 超超
    #include<unistd.h>
    #include<stdio.h>
    #include<stdlib.h>
    #include<string.h>
    #include<sys/types.h>
    #include<sys/stat.h>
    #include<sys/time.h>
    #include<fcntl.h>
    #include<sys/mman.h>

    #define MAX 10000
    //实现把存有10000个整数的文件的每个整数值加1,再写回文件
    int main()
    {
    int i=0;
    int fd=0;

    int *array = (int *)malloc( sizeof(int)*MAX );
    if(!array)
    { return -1;}

    /*mmap*/
    fd = open( "mmap_test", O_RDWR );
    array = mmap( NULL, sizeof(int)*MAX, PROT_READ|PROT_WRITE, MAP_SHARED, fd, 0 );

    for( i=0; i<MAX; ++i )
          ++array[ i ];

    munmap( array, sizeof(int)*MAX );
    msync( array, sizeof(int)*MAX, MS_SYNC );
    free( array );
    close( fd );

    return 0;
    }
    2019-07-17
    4
  • 玉剑冰锋
    分配全局页目录项,赋值给mm_struct的pdg成员变量。这里应该是pgd吧老师?

    作者回复: Page Global Directory,PGD,是的,老是倒

    2019-05-28
    1
  • 安排
    打卡,通俗易懂
    2019-05-24
    1
  • 小橙子
    "从文件里面读取数据并写入这个物理页面,又不能使用物理地址,我们只能使用虚拟地址,这就需要在内核里面临时映射一把"

    为何内核读取文件的时候 不能用物理地址,只能用虚拟地址?
    是不是之前讲过的那个,除了内存管理模块外,其他模块都只能用虚拟地址?
    2019-10-31
  • 小橙子
    当时看内存映射有些懵,可能陷入各种调用了,突然间怎么又出来这么一个调用,其实讲的前面已经提到的调用。看完文件与输入输出后 反过来又看了一遍内存映射,嗯,基本都理解了。

    有一个问题,就是比如内核内存管理模块分配物理内存的时候,是要保证并发安全的吧,因为可能多个核上的程序都发生了缺页中断,也要分配物理内存
    2019-10-31
  • 啦啦啦
    这篇看了四五遍,都是看了一半就没看了,这是第一次全部看完这篇文章,发现后半部分比前面好理解

    作者回复: 还是要坚持,一遍不行,再来一遍

    2019-07-21
  • youyui
    mmap可以将文件映射到内核态的虚拟内存空间吗?(据说NIO直接内存就是这么实现的)

    作者回复: 内核就不是mmap了

    2019-06-21
  • skye
    请问老师,malloc调用的也是mmap 吗?

    作者回复: 大内存是的

    2019-06-21
  • Geek_49fbe5
    老师,我们平时说的pss应该是指已经分配给进程的物理页面大小的总和吧?那如果运行中有部分页面被swap到了硬盘,此时的pss还把这部分大小算进去吗?

    作者回复: 算进去了。

    2019-06-01
  • LDxy
    请问老师,内核里面这些复杂的机制的实现,在当初软件开发开始前有详细的设计文档的吗?分布在全球各地的开发者是如何能达成这种复杂设计的共识的呢?这些内核里的函数相互依赖又和底层硬件相关,是如何进行单元测试的呢?

    作者回复: 可以参考一下开源软件的运作模式,要写设计,大牛review,通过后写代码,大牛组成委员会,看够不够资格合并进去,要合并进去就要有相应的测试用例,覆盖率等,有邮件列表,实时对话工具

    2019-05-26
  • kdb_reboot
    又开始跟这个专栏了 因为感觉内容还是有料的;一个建议:在讲解每一章的时候 可否列出参考资料 或者推荐资料 或者推荐阅读的章节?有证可查 也可以互相参考

    作者回复: 太多了,最后结束语列出来了

    2019-05-26
  • 微秒
    老师,我觉得你这里说了好多地方出现了没有修饰的内存字眼,麻烦你写具体的物理内存或者虚拟内存,不然看得云里雾里的

    作者回复: 在行文中,会强调的

    2019-05-26
  • 卫江
    老师,想问一下,中断和异常有什么区别

    作者回复: 有的异常会产生中断,有的异常是应用层的,可以不产生中断

    2019-05-24
  • 一笔一画
    请教下老师,内核线程的task struct上的mm为什么为空?另外看代码还有个active_mm,这个设计上有什么考虑吗?

    作者回复: 内核线程没有用户地址空间。

    如果是用户进程,则两者一样。如果是内核线程,没有mm,active_mm指向此时用户态的地址空间。

    2019-05-24
    1
收起评论
17
返回
顶部