【概述】-Linux内核三驾马车之-IO管理

IO是Linux内核里面除了进程管理、内存管理之外另一个比较重要的概念。IO涉及的知识覆盖面会非常宽泛，从用户态编程框架模型、到内核系统调用、文件系统、io调度、磁盘驱动、网络驱动等等。IO对于系统的影响，个人理解其实更多的体现在性能方面，并且其中涉及纯软件编程方面的内容会比较多一些。

click here back to Homepage
click here back to Category
click here back to Linux Kernel

本文着重记录IO相关的知识点和脉络，其中部分内容是根据宋宝华老师《IO微课》并加入个人理解整理。

IO模型

模型分为：阻塞IO、非阻塞IO、多路复用IO、SignalIO、异步IO、Libevent等等，这些不同的IO模型有不同的适用场景，IO模型的选择会深刻影响到系统性能。

比如，阻塞/非阻塞/异步IO适合块设备（磁盘），其它更多的是适合字符设备/socket等（因为主要是监听事件）。

Tips:
但是，对于监控磁盘中file的变化，可以使用inotify机制，也是事件通知。
它这里就很类似于字符设备，可以用到几乎所有的IO模型了。
它可以监控的状态有：
IN_ACCESS - 读取文件
IN_MODIFY - 修改文件
IN_ATTRIB - 修改文件属性
IN_OPEN - 打开文件
IN_CLOSE_WRITE - 被打开为“可写入”状态的文件遭关闭
IN_CLOSE_NO_WRITE - 被打开为“非写入”状态的文件遭关闭
IN_MOVED_FROM && IN_MOVED_TO - 文件被移动或者更名
IN_DELETE - 文件或目录被删除
IN_CREATE - 被监控的目录下有新文件产生
IN_DELETE_SELF - 被监控的文件遭删除

红蓝图

标记CPU与IO占用时间分布情况的图形，蓝色的标识CPU耗时阶段，红色的标识IO耗时阶段，如下所示

关键问题

CPU与IO需要并行问题源于：CPU与IO是分属于不同硬件的，两者互不干扰。
将二者并行操作，能最大程度的充分利用硬件资源、节省时间。做软件的比较忌讳的是CPU等IO、IO等CPU这类互等的场景，从红蓝图上直观来看，比较好的系统状态是红/蓝并行，让“红的更红、蓝的更蓝”。

①阻塞IO

最简单的IO模型，进程调用此类API时会被阻塞住等待IO完成才能继续执行。

阻塞IO的两个问题：

IO完不成，那么程序就退不出来，它需要顺序执行、并不适合并发场景。
- 为了解决这个问题，早期编程模型中，会创建出很多进程/线程来单独处理每个阻塞IO，而它带来的问题却是进程/线程都会有不小的CPU开销，这样整个系统的性能不会太好。
IO可能会被信号打断。被信号唤醒后，内核正在执行的相关IO函数中会有分支去调用signal_pending()检测信号。
- 检测到就返回-ERESTARTSYS给内核处理，内核看到-ERESTARTSYS就知道是阻塞IO被信号打断了。
- 而被信号打断的阻塞IO可能返回用户态（返回值-EINTR）、也可能不会返回到用户态，取决于信号处理是否设置sa_flag中有标记SA_RESTART，设置的话该系统调用会被linux内核自动重新触发（有一些系统调用是不支持自动重发的，可以查看signal的man page）。

②非阻塞IO

纯粹的非阻塞基本是不用的，它的原理是：当应用发起一个IO时，如果暂时无法完成，Linux内核返回一个EAGIN，也即需要用户态频繁去尝试。

如下图所示的样子：

③多路复用IO

解决了在一个线程中如何操作才能搞定多个阻塞IO。

它的代码框架实现经历了两个阶段，目前均参在于代码中：

早期以select为代表：（对于大量并发网络请求场景，效率依旧非常低）
- 监控：将select需要监控的所有fd加入到一个set中，只要发现有一个fd满足读写事件select就返回。
  引入问题：返回后再次select监控时，就需要重新将所有要监控的fd加入set中（“健忘症”），对于大量并发场景这里会有不小开销。
- 扫描：select返回之后，需要for循环去一一检测set中哪些fd被满足了，然后进行处理，
  引入问题：循环遍历操作（“后处理”）对于大量并发也会有不小开销。
当前以epoll为代表：（增强版的select，解决了以上select的两个问题，分裂出两个API）

//Epoll注册事件：
int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);
    EPOLL_CTL_ADD - 注册新的fd到epfd中
    EPOLL_CTL_MOD - 修改已经注册的fd的监听事件
    EPOLL_CTL_DEL - 从epfd中删除一个fd

//等待事件触发：
int epoll_wait(int epfd, struct epoll_event *events, int maxevents, int timeout);

Select与Epoll在时序上的区别如下图

Tips：
① 由于epoll将告之监控和等待IO拆分成2个API，相比select前一阶段CPU时间消耗在while(1)循环中变得没有了，“健忘症”被治愈了
② 由于epoll_wait()出参中已经包含了所有满足读写事件的fd，省去了扫描所有fd的时间，这里只需要遍历满足的fd即可，“后处理”时间变短了
因此，对于大量并发场景下epoll消耗的CPU要远低于select的，epoll目前几乎是大规模网络程序设计里面处理并发阻塞读写的代名词

很多网络并发服务的编程框架都是用epoll来做的：

一般由一个线程用epoll来监控IO
然后再结合多线程模型，将有IO发生的fd的具体工作派发到对应的线程池去处理
再把吞吐性能做起来

④SignalIO

SignalIO目前基本很少有人再用了，不过也有一些工具比如perf/strace等还在使用它。

原理是：

内核中某个IO已经ready之后，会kill SIGIO信号比如kill_fasync(&dev->async_queue, SIGIO, POLL_IN)
应用程序在SIGIO信号上绑定一个hander处理函数，当收到SIGIO信号后进行IO处理

⑤异步IO

纯粹的异步IO在Linux中也是存在的，是指发起一个IO后立即返回完全不需要等待，后台线程会负责IO动作，当在同步等待点上需要同步等待IO完成时再利用某个函数去等待。异步IO基本思想同样也是不让IO去阻塞CPU消耗型的task，将CPU与IO做并行处理，让CPU的归CPU、IO的归IO。

目前Linux中异步IO有如下两种实现，一是在glibc中，一是在kernel中

对于在glibc中aio：
一般就是需要发起IO时调用aio_read等IO函数，这些函数会立即返回，然后在IO的同步等待点上调用aio_suspend来等待。

在kernel中的aio版本：
linux提供的一套系统调用，一般是配合硬盘的O_DIRECT形式去访问的。用一系列的系统调用，如io_setup/io_sunmit准备IO，利用io_getevents来在同步等待点等待。

⑥Libevent

现在用户态开发流行基于异步事件的编程模型，libevent也是类似的IO模型，在做大规模网络编程时比较流行的。

所谓“基于事件”，指的是当某一个事件发生时会触发某些动作，比如向某个节点echo一个值之类的，它类似于早期在微软的MFC编程IDE中添加一个button点击button会触发一个事件等等。

在Linux上libevent的底层实现原理是基于epoll的，在其它平台上封装了对应平台的系统调用。
良好的跨平台性，它提供如下一些统一的接口：

//初始化
event_init()
//设置监听处理函数句柄
event_set()
//加入事件
event_add()
//分发事件
event_dispatch()

它编程例子大概如下，注意编译时用gcc xxx.c -levent

各种IO模型的对比

总结如下面表格

模型	特点
一个连接 <=> 一个进程/线程	进程/线程会占用大量系统资源，切换开销大，可扩展性差
多个连接 <=> 一个进程/线程 select	fd上限+重复初始化+逐个排查所有fd状态（O(n)效率）
多个连接 <=> 一个进程/线程 epoll	epoll_wait返回时只给应用提供了发生状态变化的fd。典型用户：nginx和node.js
Libevent跨平台，封装了底层平台系统调用，提供统一的API接口，支持windows-iocp，solaris-/dev/poll，freebsd-kqueue，linux-epoll	当一个fd的特定事件发生（如可读/可写/出错），libevent会自动调用用户设定的callback来处理该事件

工具集

① bootchart
用于linux与android启动加速，能将CPU和IO消耗阶段转换成图片形式显示、哪一部分用时多少。
它的原理描述起来很简单，就是在代码特定函数中打一些统计点，去记录某一段时间内的各个进程的时间消耗分布情况，抓取log数据并解析成图表形式。

FS架构

文件系统的架构，文件系统与VFS的hook，磁盘上目录与文件的组织，用户态文件系统。

VFS

Linux系统的一个基本设计思想就是“一切皆文件”，它实现这一设计的方法即它的VFS层，通过VFS层把内核“各种类型”的访问转换成对用户态统一的API接口，让用户态看到的就是一切皆文件、一切皆文件操作。

下图显示了vfs对下层不同类型操作的封装

VFS与文件系统的hook：
VFS非常类似于CPP中的基类，提供了很多“虚函数”，即面向对象中所谓的“接口”，这个类比是非常形象的，这些接口都需要“实例化”时提供具体实现。
之于VFS，它对上一层提供的“接口”就是read/write/ioctl/open/...这些函数，而实例化，就是对下一层“各种不同操作”所继承的统一struct file_operations结构体进行填充、并且对其内部的函数加以实现。

总之，Linux内核中能够供VFS去hookup（挂接）的，都是file里面的file_operations结构体。

Device File

字符设备：
实现字符设备驱动，就是实现file_operations结构体成员函数。

块设备：
块设备访问有两种方式，一是直接访问裸分区（如/dev/sda），另一种是访问里面文件系统（如ext4/f2fs）。
当以裸分区形式访问块设备时，块设备文件在fs/block_dev.c中，里面有struct file_operations def_blk_fops的具体实现。

字符设备与块设备区别：

字符设备是驱动中自己实现file_operations。
块设备是file_operations都被文件系统层（vfs或某具体fs）实现掉了，并不需要在块驱动中再去实现了，虽然已经被抽象但本质上还是存在file_operations这一实现的。

Superblock、Dentry、Inode

文件转化为对磁盘的访问：
有一个百万格子的网站实践，很类似于磁盘上文件系统的组织，假设每个格子对应磁盘上的一个block块，那么一个file在这些格子上该怎么映射、格子怎么查找、怎么记录空闲格子等等，这些就是文件系统要解决的问题。

① 对于文件本身数据，下面的每种颜色标识一个文件的存储情况，显然一个文件可能占用不止1个格子（多个block块）：

② 在文件系统里面，除了放文件本身数据以外，还需要放文件管理的数据：super block、inode bitmap、block bitmap、inode table等等，他们组织结构如下图：

superblock：文件系统的起始字段，统领所有后面数据结构。
inode bitmap：假设一个文件系统总共可以支持10万个文件，那么在文件系统中会建立起来一个inode的bitmap，去标记哪些inode是被占用的、哪些inode是未被占用的。
block bitmap：描述哪些block块（格子）被占用、哪些block块（格子）没有被占用。因为一个inode可能会对应多个block，因此一个文件变大/变小都可能会造成它的变化。
table of inodes：inode表，这里包含了所有的inode结构体数据，每个inode结构体标识一个文件，这个inode结构体中有各种文件信息，比如文件名字、标记占用block块的第一级inode diagram等等。

文件系统的数据结构

数据结构	描述
file_system_type	① 文件系统启动时通过int register_filesystem(struct file_system_type * fs)函数注册；
-	② mount文件系统时通过`.mount->fill_super`去填充: {读硬盘的super_block；初始化super_block:s_op; 根inode初始化(i_ops/i_fops); 根dentry初始化:sb->s_root}
-	③ umount时s_op.kill_sb()做清理
super_block	文件系统总体信息 s_op: super_operations 对inode分配/销毁
inode	① 目录或者实体文件，是"唯一"描述并映射到一个特定文件的数据结构
-	② i_ops: inode_operations {.create .lookup .mkdir} 生成/查找/创建目录/连接等操作
-	③ i_fops: file_operations 某种特定类型的文件的operations结构体
dentry	① 目录是一类特殊的文件，它的内容就是一张“名字<=>inode”对照表
-	② 关于父子关系的描述： dentry->d_inode指向相应inode结构； dentry_operations
file	① 硬盘一个真实文件的一次打开引用，比如一个文件如果被打开100次，那么就有100个file结构产生。（但是注意磁盘文件对应的inode只有一个）
-	② 也即进程级别打开实例 task_struct.file_struct.fd_array[];
-	③ file.file_operations = inode.i_fops

关键数据结构：Inode
inode映射目录或者实体文件，是"唯一"描述并映射到一个特定磁盘文件/目录的数据结构。
inode是文件系统的核心中的核心数据结构，它才是硬盘的真实的存储，其它都是对inode的引用。
代码路径：kernel/include/linux/fs.h

① inode diagram：
在inode结构体中，它是由一些指针组成的，用于记录这个文件在磁盘占用哪些block块，并且对于大文件而言，这个diagram可能需要进行分级（可能因为文件太大而分成多级indirect指向）以满足空间要求。
下图显示了inode结构中block块指针这部分的分级，包含了直接指向和间接指向：

② Ext4对inode diagram的改进：
用Extents数据结构替代之前对block块的记录形式，用以减少间接映射表的层级数量，它的记录方式是将文件在磁盘上某段儿“连续的block”用一个extent记录，这样就免去了一个block记录一次，节省了存储空间、提升了效率。
下图显示了ext4文件系统中extents在inode中的组织形式：

③ inode cache缓存：
这里的inode cache是各个文件系统在做现实时对“table of inodes”这部分数据的缓存，这部分数据在文章前面有提到，记录了每个inode的数据结构。
在读写文件时inode数据结构的访问会非常频繁，因此为了提高效率用kmem_cache_create创建了专用的slab cache去做了缓存，并且标记该部分slab是可以回收的。
下图显示了ext3文件系统里面创建inode cache的代码：

目录数据结构：Dentry
目录在磁盘中是一个“特殊的实体文件”，dentry用于标识一个目录的父子关系和操作，其中dentry->d_inode指向该目录的inode结构。
代码路径：kernel/include/linux/dcache.h
目录文件内容就是记录filename与inode的对应关系，如下图：

文件在磁盘的存放
下面这个图是将以上各个部分图形综合在一起，显示的文件如何通过文件系统在磁盘存放的

文件发现过程：
由根目录"/"的dentry->d_inode
=》找到根目录"/"文件的内容
=》在目录文件中用file name去做字符串匹配
=》找到对应的下级目录inode
=》根据它找到对应下级目录
=》同样重复操作：在该级目录的文件中用file name做字符串匹配
=》找到对应的file文件inode
=》通过file文件的inode找到对应data块，做读/写操作

假设去查找并读取/usr/bin/emacs文件，这个过程大概如下图：

该过程描述：
○ 因为根"/"对应的dentry->d_inode是知道的，所以读取根的inode表，找到对应的inode结构体，读取其中datablock指针这部分，找到磁盘上对应的文件，读取内容，去做字符串匹配"usr"，找到它对应inode2；
○ 读取“inode cache缓存inode表，找到inode2的结构体，读取inode2里面的datablock指针部分，找到磁盘上文件，读取内容，去做字符串匹配"bin"，找到它对应的inode11；
○ 重复<2>的过程，找到"emacs"文件对应的inode119，查找inode119的datablock指针部分，找到磁盘上文件，读取/写入内容。

以上过程中会读取很多dentry和inode结构体，linux内核都会将之保存在slab cache中。
文件系统中涉及的slab cache有两级：

一级是VFS层次的，保存最通用的信息inode、dentry，不在乎具体的FS实现；
二级是具体FS内部的，记录具体FS的"table of inodes"信息；

Symlink与Hardlink

说起symlink和hardlink这里还需要再提及一下目录，文章前面提到过所谓目录是一个“特殊的目录文件”，它里面内容是file<==>inode对应关系表。

Hardlink 硬链接
对于硬链接而言，它没有单独的inode结构体，只是在目录文件中增加一行，让硬链接文件指向对应的inode。
硬链接：

不能跨本地文件系统，它是特定文件系统内部的
不能对目录创建硬链接，那么，也不能对目录执行unlink
删除文件即删除硬链接，那么，对文件执行unlink相当于对文件执行rm

比如下图显示i5这个inode被name5、name6同时指向，假设name5是name6的硬链接

Symlink 符号链接
符号链接在linux中是一个真实存在的实体文件，它有单独的inode结构体，只不过符号链接文件“内容”是指向源文件。
符号链接（软链接）：

针对目录的软链接，用rm -rf删除时，是不能删除掉源目录中内容的，只是删除了软链接文件自身（rm/unlink）
针对目录的软链接，用cd ..时进入的是软链接自身所在的父目录

比如下图显示一个符号链接cbw_file的创建和它单独的inode

在文件系统中对比Hardlink硬链接和Symlink符号链接

a.out是源文件；
b.out是通过ln -l a.out b.out产生的硬链接；
c.out是通过ln -s a.out c.out产生的符号链接；

通过ls -li显示的inode号a.out与b.out相同，c.out不同

对于目录/文件的hardlink与symlink小练习
① 创建目录a和文件1、2、3：

② 创建目录a的软链接b：

③ 创建软链接b的硬链接c：

④ unlink目录a的软链接b：

⑤ unlink软链接b的硬链接c：

⑥ unlink目录a：

⑦ 创建目录a的硬链接b：

Inode Cache、Dentry Cache、Slab Shrink

Inode Cache简称Icache；
Dentry Cache简称Dcache；

Tips:
这里注意不要与CPU的指令缓存icache、数据缓存dcache混淆！

Icache/Dcache生成
在VFS层级文件系统中的inode cache和dentry cache是通过slab分配器从特定slab cache中分配的object去cache了“跨所有文件系统通用信息”，而不是具体某种FS文件系统内部的inode、detry等信息。

而占据在VFS生成的这些object上的具体inode结构体中都包含有一个i_private成员，这个成员指向了下一级具体FS文件系统的inode信息，这样VFS与具体FS联系在一起了。

Slab Cache Shrink回收
针对以上icache/dcache这些slab cache在linux kernel的kernel/fs/dcache.c实现中写了一个单独的回收接口API：shrink_dache_sb()

比如在我们手动drop cache时执行命令echo X > /proc/sys/vm/drop_caches时，会调用到这个接口，回收时还是根据LRU算法进行，将不活跃的回收掉：

结合这里，有一个slab分配器的知识点：
在Linux Kernel中，对于slab cache而言，每一类slab cache是需要单独的回收API的，即需要写单独的shrinker函数。
比如:

kmalloc创建的kmalloc-64等等slab cache的回收API是：kmeme_cache_shrink()
kasan这个内存feature中创建的slab cache的回收API是：kasan_cache_shrink()
fs中创建的icache/dcache这些slab cache的回收API是：shrink_dache_sb()
...

而在kernel中有的地方在创建“专用的slab cache”时也会标记reclaim，但是却没有给这些专用slab cache写shrinker函数，就造成了这部分slab object虽然被统计在可回收内存部分，但实际上内存紧张时无法被回收。因此，在写专用slab cache时写shrinker函数这一点是需要特别注意的。

Address Space

address_space这部分是沟通文件系统inode与磁盘的桥梁
每个inode都会通过inode->i_mmaping去对应一个address space，它对应2个重要结构体：
① struct address_space{}结构体，在文件include/linux/fs.h中

它是address space总的数据结构，承接了文件系统的inode与磁盘之间的读写转换关系，包含了对这些inode对应的pagecache的管理；（pagecache缓存了磁盘文件内容，即将inode结构体datablock指针指向的那些磁盘block块上内容读入到内存上）

② struct address_space_operations{}结构体，在文件include/linux/fs.h中

它是pagecache的操作函数集，包含read/write/directio等，具体到某个FS文件系统的实现函数最终会调用address_space_operations结构体里面的函数，去实现对pagecache的查找和磁盘的读写。

inode->file_operations与inode->address_space->address_space_operations的关系：

inode->file_operations是由具体FS文件系统实现（ext3/ext4）填充的，当打开文件时，它又被填充到task_struct->file->file_operations中，这个file->file_operations又被hookup到VFS中。它的函数集read/write等会调用address_space->address_space_operations里面的函数集来完成相应操作。
address_space->address_space_operations它提供了pagecache的操作，它会将磁盘中数据读入pagecache中或者将pagecache数据写回磁盘（发起bio）。

file文件读写全过程
最终文件file的读写是怎么透过file_operations走到文件系统dentry/inode、再走到pagecache、最终到磁盘的？

各个数据结构之间的关系：

打开一个file从进程（task_struct）到磁盘（block_dev）的大致过程：

Tips:
并不是所有的fs都像ext3/ext4一样有address space框架这一部分（即上图中右侧绿色部分），有一些简单的fs（比如simplefs）可以是并未接入address space这个框架的，在inode的read/write函数中就直接调用block dev驱动部分操作磁盘了（发起bio）。

用户态文件系统与FUSE

所有的userspace文件系统，在linux kernel看起来都是不存在的，因为在linux kernel注册的文件系统都需要hookup进VFS，而用户态文件系统是在VFS之上的。但是，在内核中有一个模块fuse，对userspace它可以提供API注册接口，对VFS它可以hookup进去。

用户态文件系统注册进FUSE
如下面代码，这里需要实现fuse_operations{}这个结构体成员，同时将它用fuse_main()函数注册进FUSE

用户态文件系统访问流程
当用户态进程想透过VFS去访问一个userspace文件系统下的文件时，VFS先通过fuse转化成消息传递给userspace，然后userspace操作完毕之后再将消息传递给fuse，然后fuse再传递给VFS，VFS再反馈给用户态进程。

这个过程非常繁琐，涉及到内存频繁在用户态和内核态之间互拷、消息在用户态和内核态之间互传，因此效率肯定是不高的，但是实现成本很低，因此对于性能要求不高的场景会有应用优势。而且，通过fuse可以快速实现文件系统原型，因为是用户态的东西调试起来也很方便。

Tips:
zfs是写时拷贝（copy-on-write）文件系统的鼻祖，后来的btrfs等都是学习它的。
在Linux中有一个通过fuse实现的zfs文件系统，但是效率很低，相比其它内核态文件系统，它基本没有使用价值。

FS工程实践

预备知识：数据库里的transaction（事物）有什么特性？

原子性（Atomicity）：事务作为一个整体被执行，包含在其中的对数据库的操作要么全部被执行，要么都不执行。
一致性（Consistency）：事务应确保数据库的状态从一个一致状态转变为另一个一致状态。
持久性（Durability）：一个事务一旦提交，他对数据库的修改应该永久保存在数据库中。

ext2/3/4的layout

Linux中修改一个文件涉及到好几个结构体：inode bitmap、block bitmap、dentry inode、file inode、data block等，这就是fs的layout，即修改一个文件并不是一个原子性的操作。

磁盘在被具体fs组织起来的时候，是以group为单位进行管理的，这样做的好处是：能尽量将同一个目录下的file摆放在同一个group中，这样会避免在连续访问同一目录下的file时在磁盘上跳转的很远，能加速查找的过程。
① 除了第一个group中的主superblock以外，其它会有备份的superblock曾强整个fs的鲁棒性，相应地也增加访问时间和浪费存储空间。
② 每个group中都有自己的group描述符，来记录该group中的inode bitmap、block bitmap、inode表等等位置信息。
文件系统区分group如下

fs的一致性：append一个文件的例子

将一个文件变大的三点修改：

修改操作涉及不同数据区，因此不可能是原子的：

掉电与fs的一致性

fs的这种非原子性操作造成结果是：当有掉电等场景时，就可能造成文件的丢失、损坏等等。

比如：
① 假设先修改了元数据：如果元数据都被修改完了，但是datablock的数据只写了一半，这时掉电了，那么造成的结果是一上电后打开该文件，可能就偷到了之前在磁盘上这个datablock保存的文件内容了；（安全性问题）
② 假设先修改了datablock：如果数据已经写完了，但是元数据还没有写完，会造成元数据之间不一致，文件系统状态错误了；（文件损坏、截断、文件系统损坏）

修改文件系统的一个简单小实验来模拟掉电场景：
① dd创建一个image文件：dd if=/dev/zero of=image bs=4096 count=1024，格式化成ext4：mkfs.ext4 -b 4096 image
② dump一下文件系统信息：dumpe2fs image，查看block bitmap和inode bitmap的位置

③ 查看一下inode bitmap对应部分内容：dd if=image bs=4096 skip=18 | hexdump -C -n 32，skip是跳过的block（每个4096大小），这里注意文件中是小端模式保存数据，低byte在第地址高byte在搞地址，因此组成一个64bit/32bit的bitmap时需要高低byte颠倒一下顺序。发现inode bitmap记录是0x07ff，根据1bit对应一block，说明前11个bloc都是被占用的，新的file将从第12个block开始。

④ 将image mount到本地：mount -o loop image aaa，进入aaa中：cd aaa，创建文件nihao：touch nihao，查看nihao这个文件的inode号：ls -i nihao发现是12，比对一下之前inode bitmap中查看到的是一致的。

⑤ umount掉：umount aaa，再次dump一下inode表：dd if=image bs=4096 skip=18 | hexdump -C -n 32，可以发现里面标记有改变，标记了这个nihao文件占用了哪几个datablock了

⑥ 用vim -b image以二进制模式打开这个image，在vim中切换编辑模式:%!xxd -g 1修改inode bitmap记录，切回二进制模式:%!xxd -r然后保存退出

⑦ 再次dump一下inode表：dd if=image bs=4096 skip=18 | hexdump -C -n 32，可以发现里面标记有又被修改回了ff 07。这时就模拟出了文件系统不一致的场景了：在inode bitmap中没有标记该inode被使用，但是在其它地方（比如目录文件、inode、datablock、databitmap等地方）这个file都是有记录的。

⑧ 此时文件系统已经存在不一致的情况了，尝试用fsck.ext4这个工具去修复fsck.ext4 image，发现它并没有检测出来fs不一致的情况。它并没有删除fs中记录的nihao这个文件的其余部分、或者也没有补齐inode bitmap中记录的比特位。（当然，这里可以用fsck.ext4 image -f命令强制修复还是可以的）

⑨ 再次将该文件mount到本地mount -o loop image aaa，发现inhao文件依旧存在，查看inode号ls -i nihao依旧是12。但问题是：这时inode bitmap中的第12bit早就已经却已经被我们置为0了，虽然fs不一致却依然可以工作。。。

⑩ 在该目录下重新创建一个文件echo dddd > buhao，这时发现文件系统报了I/O错误，这是因为inode bitmap标记12号inode是空的，但是其它对应12号inode的信息却都存在。用dmesg查看kernel log发现ext4文件系统报错：inode被二次分配。

Tips:
从以上例子可以看出，文件系统不一致时，文件系统读访问也可能是正常的，但是写入一个文件时就会报莫名其妙的错误，后续再无法写入了。

fsck

基于以上描述，突然掉电对于fs的一致性损害是非常大的，很可能造成fs不能使用了、重要数据丢失了等等。
在Linux Kernel早期，当出现异常掉电时，下次开机会首先自动运行一个fsck程序，该程序对fs进行检查，并尝试修复fs不一致的情况，它会询问用户意见如何修复等等。

下面描述了fsck的基本功能：

针对上面模拟文件系统掉电的小实验，使用fsck尝试修复：

Tips:
之前直接修改完时，用fsck是没有发现错误的，但是这里在建立新文件报错后，再次用fsck是可以检查到错误的
另外，可以使用fsck.ext4 -f参数来强制修复，也是可以修复之前错误的

这里需要再次提及的是，无论软件技术有多么牛逼，也是无法保证掉电不丢数据的，只有硬件上UPS电源、大电容才能彻底确保不丢数据。而软件只能提供fs的一致性保护（恢复/修复）

fs的日志系统

fsck是可以修复fs不一致问题，但也有自身缺陷：fsck检查和修复fs的速度是非常慢的。因此，目前文件系统的一致性保护，都是使用fs的日志系统。

fs的日志系统借用了数据库的transaction的概念，数据库里的transaction（事物）的特性：

原子性（Atomicity）：事务作为一个整体被执行，包含在其中的对数据库的操作要么全部被执行，要么都不执行。
一致性（Consistency）：事务应确保数据库的状态从一个一致状态转变为另一个一致状态。
持久性（Durability）：一个事务一旦提交，他对数据库的修改应该永久保存在数据库中。

日志借用了以上特性，当需要修改fs中的内容时，如下操作：
① 首先去写一个日志区，然后将日志commit了，表示日志已经写完了；
② 真正去修改fs中内容，写完后checkpoint该日志，表示fs中内容刚已经写完了该日志没有用处了；
③ 最后日志系统将该日志free掉；
因此，增加日志后，修改fs流程变为这个过程：【写日志】=>【commit】=>【写fs】=>【checkpoint】=>【free】

对于掉电情况：
以上fs操作中每个环节都可能发生突然掉电，因此日志对于fs一致性保护的操作是：
① 日志未commit：日志损坏，下次上电直接放弃该日志，当作修改fs动作从未发生过
② 日志已commit未checkpoint：下次上电时回放日志，写入fs中即可

日志性能改进：
从日志操作的流程上看出，以上操作的开销是很大的，意味着每次通过fs写磁盘都会做2次写操作（元数据+data数据），这对IO性能是一个极大的挑战。

因为对于写fs时显然datablock数据块是更大的部分，因此是否可以只将元数据部分做日志、即只确保fs的一致性，而不是去保证元数据与datablock数据的一致性？？即：掉电后fs通过日志还是可以正常工作的，而datablock数据可能错了。在这种情况下，fs的元数据和data数据可能就对不上了，但是也只能如此来确保fs的读写性能了。如果只做元数据的一致性的话，datablock部分可以单独来搞了。

如下显示元数据日志（Metadata）采用这种只对元数据做日志的方式：

如上图，
① 对于只做元数据日志（metadata）时，有两种情况：data=writeback和data=ordered

data=ordered：是指在写元数据之前先写datablock数据，这样能避免元数据写完了但是datablock没有写完情况，但效率会稍差一些
data=writeback：是指可以同步写元数据和datablock数据，不需要等待datablock数据写完再对元数据做日志，效率更高一些

② 如果元数据和datablock数据全做日志：data=journal

data=journal：是指datablock数据也需要做日志，但是效率最低，写入速度会慢1倍（因为写2份）

其实，日志无非有两个特性：一是备份、二是锁

ext4 mount选项

TODO...

工具集：fs的debug和dump

fs相关工具集，这些debug工具和方法对于快速查看和定位问题还是很重要的

① fdisk
查看硬盘分区情况：

② mkfs
格式化文件系统，例如前面制作一个block=4KB大小的文件：mkfs.ext4 -b 4096 image

③ dumpe2fs
查看block bitmap和inode bitmap的位置，例如前面查看image的inode等信息：dumpe2fs image

④ blkcat
通过*直接读取block块*内容来查看其上存贮的原始数据（打印出来的内容是存在block块号1015373上的数据）:blkcat /dev/sda1 1015373

⑤ dd
通过*直接读取sector（扇区）*来查看其上存贮的原始数据，一个block是4KB大小，每个sector是512bytes，这样一个block上有8个sector，所以计算一个block号对应的sector时用（block number * 8）。通dd到文件中的结果见该文件末尾还是一堆@@@符号、还并没有占满整个sector：

⑥ debugfs
注意这里指的是调试文件系统的debugfs工具，而不是指的Linux Kernel的调试文件系统debugfs。

开启root用户模式sudo bash

用debugfs查看文件状态debugfs -R 'stat /home/baohua/main.c' /dev/sda1

用debugfs通过block号查看inode号debugfs -R 'icheck 1015373' /dev/sda1

用debugfs通过inode号查看filename路径debugfs -R 'ncheck 367289' /dev/sda1

⑦ blktrace
这个工具是专门用于跟踪block io的整个生命周期的，能观测到bio层面的plug queue、elevator queue、dispatch queue的三进三出，如果进行bio层面的分析该工具几乎是必须的；它的原理是在内核中的一些关键函数点上增加了一些记录信息，然后抓下来这些记录并且解析。

这个工具执行后的效果如下面显示，包含了设备号、执行core、序号、时间戳、pid、事件、读写/sync/barrier、开始块/块数、进程名等等。执行的例子如下： blktrace -d /dev/sda1 -o - | blkparse -i - > 1.trace

Copy-On-Write文件系统：btrfs

btrfs是一种通过“读-拷贝-更新”来完成fs修改的文件系统，这个文件系统是没有日志的（也不需要日志），它是通过copy-on-write来实现fs一致性的。

所谓cow，即当写入fs的操作时，先去读取需要写入的block并对它拷贝一个副本，然后更新副本中的内容，最后再把它上一级节点做拷贝更新，如此一级一级向上修改，一直到修改superblock节点指向（这个修改是原子的），完成整个树状结构修改：

在修改superblock指向前任意时间断电，都不会造成fs一致性问题，因为superblock一直是指向老树
在修改superblock指向后任意时间断电，也不会造成fs一致性问题，因为superblock已经修改指向新树
而修改superblock指向是一条指令，属于原子操作，不会有断电问题

这个修改过程如下图显示：

btrfs的transaction完全是靠树是否更新完来决定的，对btrfs的cow流程更加详细的描述如下：

因此，这个文件系统以cow替代日志，一是效率很高，二是很适合做快照这种场景（只新建一个快照的root即可）；

btrfs的一些命令示例：

btrfs试用小例子
下面是一个展示btrfs文件系统的一些简单操作的示例，创建、挂载、快照、子卷等操作：
① 制作一个btrfs的image：mkfs.btrfs image

② 把image做mount到aaa目录，cd进去，创建文件1

③ 在这个btrfs文件系统下创建一个snapshot快照btrfs subvolume snapshot . snapshot1，snapshot是一个特殊的子卷，它有一个指向原来文件系统的指针

④ 在这个btrfs文件系统下创建一个子卷btrfs subvolume create sub1，在子卷中创建一个文件2

⑤ 查看当前btrfs文件系统中有多少个子卷btrfs subvolume list .

⑥ 单独mount某一个子卷比如mount image -o subvolid=257 aaa

⑦ 测试快照snapshot的cow功能，在生成snapshot之后又创建了一个文件added，然后单独mount snapshot快照这个子volume，发现里面并没有added这个文件，说明在创建新的added文件时执行了cow，这时snapshot与.已经指向不同的fs树了

Tips:
这里引申出一个有cow的fs的一个功能：当升级fs时，可以先做快照，然后再升级原fs，如果升级失败可以回滚使用快照即可，不会影响到分区加载、或者系统启动

Block IO与IO Scheduler

BIO与IO调度是介于vfs/fs与磁盘之间部分，通过pagecache、电梯算法queue等实现了对磁盘的统一读写，这里也是IO的性能瓶颈之一。

一个块IO的一生：从pagecache到bio到request

应用程序对于磁盘的访问流程，是能够以pagecache为界分成两个较为明显的层次的：

第一阶段：从file到pagecache，这里是文件系统部分
第二阶段：从pagecache到bio到request到磁盘，这里是块设备驱动部分

在下图结构中：

① 左半个部分：是第一阶段“文件系统部分”从file到address_space_operations的图示，之前章节已经介绍过了

fs的read/write函数会首先看pagecache是否命中，命中则读写pagecache后返回；
如果未命中，下一步，调用address_space的readpages/writepages函数，去“透过”pagecache中的page页读写磁盘的block；

② 右半个部分：灰色框体内是address_space的软件架构，左侧通过inode->i_mmaping指针嵌入inode结构体中与fs交互，右边依靠块驱动部分与磁盘交互

address_space，顾名思义“地址空间”，它指的是“file文件==(通过)==>RadixTree==(映射到)==>pagecache的page页”组织结构
- 磁盘通常情况以4KB为一个block进行格式化和读写，因此RadixTree在组织时会将file的偏移（0、4、8、12、...）与pagecache中每个page页（4KB）建立一一映射关系
- 当读写file文件内容时，先通过偏移在RadixTree中查找是否有对应的pagecache页，有则读写后直接返回
- 如果没有，则调用address_space_operations中的readpages/writepages函数，先在内存中申请一个page页，然后修改RadixTree将该page挂入pagecache中，然后在从磁盘读入内容到page或直接写入page
块驱动部分，从最广义上来讲，包含bio、io调度、block驱动等各层级

Tips:
这里有几个概念需要澄清一下，它们的大小关并系不固定
○ page - 内存管理的最小数据单元，Linux内核通常4KB
○ block - 文件系统管理的最小数据单元，通常按照page页大小来格式化成4KB读写性能好，另外，因为一次会读写磁盘的一个block，当文件小时block越大会越浪费磁盘空间
○ sector - 硬件读写磁盘的最小数据单元，跟硬件有关

需要注意的是：
① 对于pagecache而言，在做内存统计时是区分buffers和cached，它们都是通过RadixTree来组织的

buffers是指以“裸分区为背景”（直接读写）的磁盘读写，比如/dev/sda1
cached是指以“fs为背景”（透过fs读写）的磁盘读写，比如/mnt/a/b.txt

② address_space中标记的pagecache究竟是buffers？还是cached？这是由指向的是address_space这个结构体的指针inode->i_mmaping决定的。
如下显示，在统计buffers占用内存时，函数nr_blockdev_pages()会遍历所有“原始块设备”，把它们里面inode->i_mmaping->nrpages全加在一起算总值。注意：这里遍历的直接是设备的inode！

而所有pagecache加在一起，刨除以上buffers的值就是cached部分，cached部分的inode->i_mmaping并不在原始设备节点inode中，而在fs文件系统里面的inode中。

参数：O_DIRECT和O_SYNC

Linux有两种办法让读写磁盘时不经过pagecache的，这两个参数是O_DIRECT、O_SYNC。

这两个的区别是：

O_DIRECT：应用程序直接写入到磁盘中（类似于将内存配置成不带cpu cache的，注意这里仅仅是“类似”来做个类比而已）
O_SYNC：首先写入pagecache然后接着马上再写入磁盘。（类似于cpu cache的write through写穿）

一般情况下，O_DIRECT参数是基本上没有人使用，因为会引入2个问题：

① 一旦某一个应用使用O_DIRECT，那么需要该应用程序自行做磁盘cache的管理，因此只有某些很特殊业务逻辑的应用才可能会使用这个。比如某些做数据库的公司可能会这样使用。
② 一旦某一个应用使用O_DIRECT，那么其它应用程序如果还是非O_DIRECT就会造成pagecache与磁盘数据的不一致，这种情况下coding时需要非常小心仔细地确认涉及到的pagecache是否做了同步，需要内核去做pagecache的flush和invalid。

基于以上，因此Linux内核一般不建议用O_DIRECT，而如果非要O_DIRECT就所有磁盘访问都采用O_DIRECT，这样会比较安全。

Block IO

① Block IO流程
BIO的作用：
处理磁盘的哪些block（fs单位）最终需要被读到哪些page上（memory单位），而且进一步，最好是磁盘的哪些blocks最终读到哪些pages。

它是一个最原始的从block到page之间的对应关系，如下图所示，如果通过inode表查询到file它的datablock在磁盘上不是连续的一段，那么，每个独立的datablock就被address_space_operations组织成一个bio：

Tips:
当fs被格式化成的（block大小 < page大小）的时候，这时候可能一个page就对应着几个bio（也即对应几个不连续的datablock）
这时会有大量的bio产生，会对性能产生影响。
因此，当格式化成的block较大就会造成空间浪费，当格式化成的block较小就会造成性能降低。这里也恰恰体现了“时间空间互换”的编程思维。

BIO处理的流程：（plug queue、elevator queue、dispatch queue队列三进三出）
<1> “生成”：address_space软件框架部分将从fs的inode表中读出的所有datablock打包生成bio；
<2> “蓄水”：bio会首先被发送到本TASK的“闸门”——plug队列，在插入plug queue之前需要将每个bio转换成request（转换方法是先找bio是否能够match到某一个request，如果不能的话就创建一个新的request，不同的bio可能会被组合到同一个request内，因为request会被对应到磁盘连续空间上）；
<3> “防水”：当本TASK的plug队列积蓄到一定程度或者task认为足够了，就“开闸”放水，将plug queue内的所有request都发到“IO电梯调度队列”中，这样汇总起来，所有TASK的request最终都进入到IO电梯调度queue中；
<4> “QoS”：IO电梯调度queue将根据不同的电梯调度算法（Deadline，cfq等等，这里算法更新很快）不同策略，将这些request进行排序，然后将排好序的request放入dispatch队列；
<5> “收发”：这个dispatch queue被块设备驱动使用，块设备驱动将会从dispatch queue中取出一些request，将这些request发送给磁盘host controller
如下显示了BIO处理流程与request三个queue对应关系：

② Block IO流程示例
下面是用ftrace去跟踪一个IO读写流程函数级别的操作：

查看结果：

从ftrace的执行结果上看，这里不单单是有函数调用关系图，还有每个函数的执行时间，因此可以用于在验证性能时抓热点函数。

IO电梯调度算法

IO电梯调度算法有很多种，目前比较流行的调度算法有NOOP、Deadline、CFQ三个。
虽然算法不同但是中心目的都是做QoS的（优先级、流量控制、资源预留等等）。比如：

NOOP只是合并技术，并不排序，比较适合固态硬盘（随机访问无磁头），并不适合磁盘
CFQ是完全公平调度，指定进行调度实时星、优先级、nice值。类似进程调度CFQ。
Deadline既要优先级排序又要优先保证读、保证写不会饿死；

修改某个硬盘的IO调度算法：

IO性能调试与调试工具集

① blktrace
操作级别分析工具，跟踪每个IO从上到下流程
见上面工具集：“⑦ blktrace”

② ftrace
函数级别分析工具，分析函数调用关系和函数执行时间。

③ ionice
设置某个进程对IO访问的调度类、优先级等：

TASK的IO调度优先级不一样，会影响到TASK访问磁盘的速率。如下iotop查看的3546优先级=0，3547优先级=7，访问磁盘速率还是蛮大的。

④ iotop
查看磁盘IO性能，每个TASK访问磁盘优先级、访问速度等等：

⑤ iostat
用于监控每个硬盘上的流量情况，有多少IO请求、每秒钟读写多少等等，是看整个硬盘宏观情况。

⑥ cgroup
正如进程调度、内存管理里面的cgroup一样，在IO部分也可以通过区分不同的cgroup来控制IO资源的使用（基于权重的优先级、绝对的优先级、调度类等等等等）。
cgroup的V1版本：

cgroup的V2版本：

在cgroup v2版本中，在memory管理子系统中去监控了TASK写的dirtypage，然后控制dirtypage被写回的速率来控制IO写回速率。

Tips:
在新版本Linux Kernel中Cgroup V1和V2两个版本是同时存在的，需要选择一个生效！切记！

读写限速的例子：

参考文档

宋宝华：Linux铁三角之IO-IO模型
宋宝华：Linux铁三角之IO-文件系统架构
宋宝华：Linux铁三角之IO-文件系统实践
宋宝华：Linux铁三角之IO-BIO与IO调度
宋宝华：文件读写（BIO）波澜壮阔的一生
Github案例代码路径
C10K问题
EMC潘国林: 大话存储系列之磁盘娶亲(RAID)
Linux DirectIO机制分析
Linux内核写文件流程
debugfs总结
刘正元: Linux 通用块层之DeadLine IO调度器
块层介绍第一篇: bio层
原文：A block layer introduction part 1: the bio layer
块层介绍第二篇: request层
22.Linux-块设备驱动之框架详细分析(详解)
23.Linux-块设备驱动(详解)
块设备驱动架构分析

#IO #Kernel #VFS #FS

@3000-01-01 00:00

Comments

975935259 reply

2021-06-10 11:13:44

真诚求问还有没有宋老师上这个课的原视频，非常想学习一下
- 975935259 reply
  
  2021-06-10 11:14:25
  
  @975935259 如果有的话烦请作者发我邮箱一份可以吗？975935259@qq.com
  - 1785099588@qq.com reply
    
    2022-04-21 19:40:55
    
    @975935259 同问
- ace reply
  
  2022-11-01 12:11:01
  
  @975935259 这个真的没有了，时间太长了，而且当时也是微信语音形式，没有视频的。
  - haha reply
    
    2022-11-09 17:32:56
    
    @ace 那语音文件有吗
1785099588@qq.com reply

2022-04-16 02:16:41

同问，可以有偿，内容很好。