零拷贝技术解读:如何优化CPU开销提升I/O性能?

在实际应用中,我们可以利用sendfile技术高效传输静态文件,比如nginx就内置了对这一功能的支持;通过mmap将日志数据映射到用户空间,写入操作由内核自动刷回磁盘,显著提升了写入性能。像Kafka这样优秀的系统同样运用了零拷贝技术来增强其数据传输能力。
0. 引言
在高并发场景中,传统的I/O操作需要进行多次数据拷贝,很容易成为系统性能瓶颈。而零拷贝技术(Zero-Copy)通过消除冗余的数据拷贝,使系统轻松实现百万级吞吐量(如Kafka)。本文将从内核原理、API实现到实战应用,深入解析这项关键技术。
1. 零拷贝原理
零拷贝是一种高效的数据传输技术,核心目标是减少数据拷贝次数来提升性能,接下来我们详细探讨其实现原理。
要理解零拷贝的原理,首先需要掌握传统数据传输过程,也就是我们之前讨论的read和write流程。让我们来梳理一下(以读取磁盘数据通过网络发送为例):用户调用read系统调用来请求文件数据,此时CPU需要切换到内核态,然后通过DMA将磁盘数据拷贝到内核空间,再将内核缓冲区数据拷贝到用户空间缓冲区,之后CPU切换回用户态;对于写操作来说,用户调用write系统调用,从用户态切换到内核态,然后将数据从用户缓冲区拷贝到Socket关联的缓冲区,随后数据由DMA传送至网卡缓冲区,最后返回,从内核态切换至用户态。
 图片
图片
有了对传统数据传输流程的认识,我们接着来看零拷贝的相同操作流程:用户进程发起sendfile系统调用,触发DMA拷贝将数据复制到内核缓冲区,然后把内核缓冲区数据复制到网卡,将文件描述信息拷贝到socket缓冲区,随后切换回用户态。

通过对上面两个流程的对比,我们可以理解,零拷贝(指的是消除了内核到用户空间的数据拷贝)就是减少了数据的拷贝和用户-内核空间的切换。
2. 零拷贝接口实现(代码均基于Linux 5.10)
2.1 sendfile
2.1.1 函数定义
sendfile用于在两个文件描述符之间传递数据。
#include 
//out_fd:输出文件描述符,通常为套接字描述符。
//in_fd:输入文件描述符,必须是一个支持 mmap() 操作的文件描述符。
//offset:指定从文件的哪个偏移量开始读取数据,如果为 NULL,则从当前文件指针位置开始。
//count:要传输的数据长度。
//sendfile() 成功返回实际传输的字节数,失败返回 -1。
ssize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count);
 2.1.2 函数源码解析
sendfile核心函数为do_sendfile,而do_sendfile中主要函数为splice_direct_to_actor,接下来我们对其流程梳理如下,其通过内部管道消除了向用户空间的拷贝。
 图片
图片
2.2 mmap
2.2.1 函数定义
mmap用于申请一段内存空间,将内核缓冲区数据映射到用户空间。
#include 
//addr:指定映射的起始地址,通常设为 NULL,由系统自动分配。
//length:映射的长度。
//prot:映射区域的保护方式,如 PROT_READ(可读)、PROT_WRITE(可写)等。
//flags:映射的标志,如 MAP_SHARED(共享映射)、MAP_PRIVATE(私有映射)等。
//fd:要映射的文件描述符。
//offset:映射的起始偏移量。
void *mmap(void *addr, size_t length, int prot, int flags, int fd, off_t offset);
int munmap(void *addr, size_t length);
  图片
图片
2.2.2 函数源码解析
mmap中主要调用为ksys_mmap_pgoff,最终会落到do_mmap函数,其整体流程如下,通过多次检测和惰性分配以及权限分离来实现:
 图片
图片
2.3 splice
2.3.1 函数定义
splice用于在两个文件描述符之间移动数据。
#include 
//fd_in:输入文件描述符。
//off_in:输入文件的偏移量指针。
//fd_out:输出文件描述符。
//off_out:输出文件的偏移量指针。
//len:要传输的数据长度。
//flags:传输标志,如 SPLICE_F_MOVE(尝试移动数据)、SPLICE_F_NONBLOCK(非阻塞操作)等。
ssize_t splice(int fd_in, loff_t *off_in, int fd_out, loff_t *off_out, size_t len, unsigned int flags);
 2.3.2 源码分析
其实现也是依赖管道缓冲区,通过内核区创建和转移所有权避免了向用户空间拷贝。
2.4 tee
2.4.1 函数定义
tee用于在两个管道描述符之间复制数据,和splice差异存在于一个是复制一个是移动,且tee只支持管道。
#include 
//out_fd : 待写入内容的文件描述符
//in_fd : 待读取出内容的文件描述符
//len : 需要复制的字节数
//flags : 选项
//返回值:成功:返回在两个文件描述符之间复制的字节数;没有数据:返回0
ssize_t tee(int fd_in, int fd_out, size_t len, unsigned int flags);
 2.4.2 实现分析
和splice类似,只不过一个是移交所有权,一个是增加引用。
3. 实际应用以及分析
在实际场景中,我们可以使用sendfile发送静态文件,比如nginx就支持这种配置;可以通过mmap来映射日志文件数据到用户空间,写完后通过内核将数据刷到磁盘,提升写入性能。比较优秀的使用者还有kafka,其也是通过零拷贝提升其数据传输能力。
4. 总结
本文介绍了零拷贝的原理、相关接口实现和一些实际例子,下届将继续IO系列,IO性能的衡量和监控。
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
应对腾势掉链子,这几点车主必须知道
腾势销售事业部原总经理赵长江的离职引发了诸多议论,但舆论的聚光灯已迅速转向腾势汽车的未来。面对车企之间激烈的竞争,新任总经理李慧如何带领品牌实现突围?新上市的腾势N8L,能否成为D9之后的下一个爆款
汽车之家极寒冬测开启:陈震受邀参与,自费采购无充值
一场围绕冬季测试标准的行业讨论,近日因汽车之家与车评人陈震的公开互动引发关注。此前,汽车之家对小米YU7、理想i6及特斯拉Model Y三款车型开展的低温性能测试,因测试环境温度设定在3-13℃区间
第八届进博会开幕在即!NFC徽章亮相,600款文创云上等你
第八届中国国际进口博览会的文创产品迎来全面升级,由上海广播电视台旗下文广实业独家代理的进博文创系列正式亮相。此次焕新不仅保留了经典元素,更融入创新科技与地域文化,为全球参观者带来耳目一新的体验。一款
东方甄选启示录:告别流量喧嚣,做产品才是电商出路
当直播电商行业仍在为流量争夺而陷入内卷时,东方甄选已悄然开启一场从“流量至上”到“产品为王”的深度变革。这场变革不仅重塑了企业的增长逻辑,更在行业格局中刻下新的坐标。最新财报数据显示,东方甄选的战略
江苏纳芯微港股上市:252亿市值背后,年销芯片超30亿颗
江苏苏州的模拟芯片龙头企业纳芯微,近日向港交所重新提交了上市申请。这家成立于2013年的公司,在模拟芯片领域已占据重要地位。按2024年中国模拟芯片市场收入计算,纳芯微位列中国模拟芯片厂商第五、汽车
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
 
												
                                                 
												
                                                 
												
                                                 
												
                                                 
												
                                                 
												
                                                 
												
                                                 
												
                                                 
												
                                                 
												
                                                 
												
                                                 
												
                                                 
												
                                                 
												
                                                 
												
                                                 
												
                                                 
												
                                                 
												
                                                 
												
                                                 
												
                                                








 
								 
								 
								 
								 
								 
								 
								 
								 
								