linux的数据一致性和io类型怎么理解

这篇文章主要讲解了“linux的数据一致性和io类型怎么理解”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“linux的数据一致性和io类型怎么理解”吧！对linux内核来说，读写要经过层层路径，才能真正读写硬盘。从io路径来说，io要经过page cache，io调度队列，dispatch队列，ncq队列和硬盘cache，才能真正到达硬盘。Page cache：page cache是linux内核提供的缓存接口，page cache的名字就说明内核是通过page单元（通常4K大小）来管理cache。读操作首先在page cache查找，如果找到，就复制page cache的内容返回，找不到，才真正调用下层处理。写操作，buffer io 写到page cache就返回，真正的磁盘写，是由内核的pdflush内核线程负责IO调度队列：Linux内核提供了四种io调度算法，as,deadline,cfq,noop。每种调度算法都实现了一个调度队列，io首先在队列中排序（noop最简单，不排序），然后根据条件，决定是否到dispatch队列。从调度队列下发，涉及一个unplug的概念。也就是说，调度队列通常处于阻塞（plug）状态，当执行unplug操作时，io离开调度队列，开始下发。unplug是个循环动作，将调度队列的所有io都尝试下发，直到不能下发为止。
总结一下，执行unplug有下列条件：第一个io启动了三毫秒的定时器，定时器到了，会unplug，开始下发io请求超过设定的限制（缺省是4），执行unplug，开始下发Sync标志的io，立即unplug，开始下发。Barrier标志的io，清空调度队列后，执行unplug，开始下发一个io执行完毕，也要unplug队列。dispatch队列：dispatch队列对应用关系不大。但是内核层对日志文件系统的joural数据，提供了一种barrier io，这个主要在dispatch队列实现。Ncq队列：
NCQ是sata硬盘自身的队列。（sas硬盘的队列叫TCQ）。NCQ队列是由操作系统创建的，但是加入到NCQ队列的io，是由硬盘来决定执行顺序。为了实现这个，NCQ队列创建在内核的DMA内存中，然后通知硬盘，至于硬盘选择那个io执行，是硬盘自身选择的结果。硬盘cache:
硬盘cache是硬盘内部的cache。如果打开硬盘cache的话，写硬盘的io，首先是到硬盘cache，而非直接落到硬盘。Pdflush提供了四个参数来控制回写。在内核实现中，pdflush的回写策略控制还比较复杂。但是简单一点说，内核缺省情况下，每5秒钟扫描脏页，如果脏页生存时间超过30秒（缺省数值），就刷脏页到磁盘。详细的可参考本人写的《linux内核回写机制和调整》一文。从上文的分析，通常的io写，到page cache层就结束返回了，并没真正写到硬盘。这样机器掉电或者故障的时候，就有丢失数据的风险。为了尽快下io，系统又提供了一些措施解决这个问题。O_SYNC:打开文件的时候，可以设置O_SYNC标志，在page cache的写完成后，如果文件有O_SYNC标志，立即开始将io下发，进入调度队列。随后将文件系统的meta data数据也下发，然后开始循环执行unplug操作，直到所有的写io完成。和回写机制比较，O_SYNC没有等脏页生存30秒，就尝试立即下发到硬盘。O_SYNC本质就是io下发，然后执行unplug操作。O_SYNC的几个问题是：写page cache时候要把io拆成4k的单元。回写也是每次写4K的页面，如果是大io，就需要内核的调度层把4k的io重新再合并起来。这是冗余的过程每个io都要立即unplug，这样就不能实现io的排序和合并。O_SYNC的性能相当低。如果多个进程并发写，不能保证写操作的顺序。Ncq队列根据硬盘磁头的位置和磁盘旋转位置确定执行的顺序。一般是meta data数据一起写，这样存在不同步的风险。如果硬盘cache打开了，那么写只到硬盘cache就返回了。存在丢数据的风险。通常存储厂商都要求硬盘cache关闭。不过腾讯的服务器都是打开硬盘cache的。O_DIRECT：打开文件的时候，可设置O_DIRECT标志。O_DIRECT不使用内核提供的page cache。这样读操作，就不会到page cache中检查是否有需要数据存在。而写操作，也不会将数据写入page cache，而是送入调度队列。O_DIRECT执行写io的时候，会置WRITE_SYNC标志。这个标志在io进入调度队列后，会执行一次unplug操作。而不是像O_SYNC那样，循环执行unplug操作。为了避免O_SYNC每个写io都要阻塞等待的问题，系统提供了fsync和fdatasync系统调用，可以让应用层自己控制同步的时机。Fsync：fsync将文件范围内，所有的脏页面都下发到硬盘。然后也要将脏的元数据写到硬盘。如果文件的inode本身有变化，同样需要写到硬盘。Fdatasync：fdatasync和fsync的区别其实很轻微。比如ext2文件系统，如果文件的inode只有轻微的变化，fdatasync此时不更新inode。典型的轻微变化是文件atime的变化。而在ext3文件系统，fsync和fdatasync是完全一样的。不管是否轻微变化，都要回写inode。Fsync和fdatasync都是对整个文件的操作，如果应用只想刷新文件的指定位置，这两个系统调用就失效了。所以新的内核还提供了sync_file_range来指定范围写。不过要注意，sync_file_range是不回写文件的meta data。必须应用层保证meta data没有更新。Pdflush提供了四个参数来控制回写。在内核实现中，pdflush的回写策略控制还比较复杂。但是简单一点说，内核缺省情况下，每5秒钟扫描脏页，如果脏页生存时间超过30秒（缺省数值），就刷脏页到磁盘。从上文的分析看出，内核没有为用户态提供保证顺序的，确定写到硬盘的系统调用。但是对于内核文件系统来说，必须提供这样的接口。比如日志文件系统，必须要数据落到硬盘后，才能修改元数据的日志。否则，出错情况下就可能造成文件系统崩溃。为此，内核专门提供了一个barrier方式实现日志的准确写到硬盘。文件系统的barrier io，意味着，这个barrier io之前的写io必须完成。同时，在barrier io完成之前（是真正写到硬盘，不是写到cache就返回），也不能有别的写io再执行。为此，上文分析的dispatch 队列完成了这个功能。当写io从调度队列进入dispatch队列的时候，要检查是否是一个barrier io。如果是barrier io，dispatch首先在队列中插入一个SCSI命令SYNCHRONIZE_CACHE，这个命令指示硬盘cache刷所有的写io到硬盘。然后再下发barrier io，之后再插入一个SYNCHRONIZE_CACHE命令，指示硬盘将刚才的barrier io真正写到硬盘（还有一种方式，是通过命令携带FUA标志实现不经过cache直接下盘）。感谢各位的阅读，以上就是“linux的数据一致性和io类型怎么理解”的内容了，经过本文开发云主机域名的学习后，相信大家对linux的数据一致性和io类型怎么理解这一问题有了更深刻的体会，具体使用情况还需要大家实践验证。这里是开发云，小编将为大家推送更多相关知识点的文章，欢迎关注！

相关推荐: 云计算的概念、原理、分类、特点和应用是什么

今天就跟大家聊聊有关云计算的概念、原理、分类、特点和应用是什么，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。　　导读：对于云计算的阐述，我们将从云计算概念、原理、分类、特点和应用这5个方面展开。　　01…

免责声明：本站发布的图片视频文字，以转载和分享为主，文章观点不代表本站立场，本站不承担相关法律责任；如果涉及侵权请联系邮箱：360163164@qq.com举报，并提供相关证据，经查实将立刻删除涉嫌侵权内容。