首页
科技
零拷贝技术解读:如何优化CPU开销提升I/O性能?

零拷贝技术解读:如何优化CPU开销提升I/O性能?

热心网友
转载
2025-10-30

在实际应用中,我们可以利用sendfile技术高效传输静态文件,比如nginx就内置了对这一功能的支持;通过mmap将日志数据映射到用户空间,写入操作由内核自动刷回磁盘,显著提升了写入性能。像Kafka这样优秀的系统同样运用了零拷贝技术来增强其数据传输能力。

0. 引言

在高并发场景中,传统的I/O操作需要进行多次数据拷贝,很容易成为系统性能瓶颈。而零拷贝技术(Zero-Copy)通过消除冗余的数据拷贝,使系统轻松实现百万级吞吐量(如Kafka)。本文将从内核原理、API实现到实战应用,深入解析这项关键技术。

1. 零拷贝原理

零拷贝是一种高效的数据传输技术,核心目标是减少数据拷贝次数来提升性能,接下来我们详细探讨其实现原理。

要理解零拷贝的原理,首先需要掌握传统数据传输过程,也就是我们之前讨论的read和write流程。让我们来梳理一下(以读取磁盘数据通过网络发送为例):用户调用read系统调用来请求文件数据,此时CPU需要切换到内核态,然后通过DMA将磁盘数据拷贝到内核空间,再将内核缓冲区数据拷贝到用户空间缓冲区,之后CPU切换回用户态;对于写操作来说,用户调用write系统调用,从用户态切换到内核态,然后将数据从用户缓冲区拷贝到Socket关联的缓冲区,随后数据由DMA传送至网卡缓冲区,最后返回,从内核态切换至用户态。

图片图片

有了对传统数据传输流程的认识,我们接着来看零拷贝的相同操作流程:用户进程发起sendfile系统调用,触发DMA拷贝将数据复制到内核缓冲区,然后把内核缓冲区数据复制到网卡,将文件描述信息拷贝到socket缓冲区,随后切换回用户态。

图片

通过对上面两个流程的对比,我们可以理解,零拷贝(指的是消除了内核到用户空间的数据拷贝)就是减少了数据的拷贝和用户-内核空间的切换。

2. 零拷贝接口实现(代码均基于Linux 5.10)

2.1 sendfile

2.1.1 函数定义

sendfile用于在两个文件描述符之间传递数据。

#include 
//out_fd:输出文件描述符,通常为套接字描述符。
//in_fd:输入文件描述符,必须是一个支持 mmap() 操作的文件描述符。
//offset:指定从文件的哪个偏移量开始读取数据,如果为 NULL,则从当前文件指针位置开始。
//count:要传输的数据长度。
//sendfile() 成功返回实际传输的字节数,失败返回 -1。
ssize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count);
2.1.2 函数源码解析

sendfile核心函数为do_sendfile,而do_sendfile中主要函数为splice_direct_to_actor,接下来我们对其流程梳理如下,其通过内部管道消除了向用户空间的拷贝。

图片图片

2.2 mmap

2.2.1 函数定义

mmap用于申请一段内存空间,将内核缓冲区数据映射到用户空间。

#include 
//addr:指定映射的起始地址,通常设为 NULL,由系统自动分配。
//length:映射的长度。
//prot:映射区域的保护方式,如 PROT_READ(可读)、PROT_WRITE(可写)等。
//flags:映射的标志,如 MAP_SHARED(共享映射)、MAP_PRIVATE(私有映射)等。
//fd:要映射的文件描述符。
//offset:映射的起始偏移量。
void *mmap(void *addr, size_t length, int prot, int flags, int fd, off_t offset);
int munmap(void *addr, size_t length);

图片图片

2.2.2 函数源码解析

mmap中主要调用为ksys_mmap_pgoff,最终会落到do_mmap函数,其整体流程如下,通过多次检测和惰性分配以及权限分离来实现:

图片图片

2.3 splice

2.3.1 函数定义

splice用于在两个文件描述符之间移动数据。

#include 
//fd_in:输入文件描述符。
//off_in:输入文件的偏移量指针。
//fd_out:输出文件描述符。
//off_out:输出文件的偏移量指针。
//len:要传输的数据长度。
//flags:传输标志,如 SPLICE_F_MOVE(尝试移动数据)、SPLICE_F_NONBLOCK(非阻塞操作)等。
ssize_t splice(int fd_in, loff_t *off_in, int fd_out, loff_t *off_out, size_t len, unsigned int flags);
2.3.2 源码分析

其实现也是依赖管道缓冲区,通过内核区创建和转移所有权避免了向用户空间拷贝。

2.4 tee

2.4.1 函数定义

tee用于在两个管道描述符之间复制数据,和splice差异存在于一个是复制一个是移动,且tee只支持管道。

#include 
//out_fd : 待写入内容的文件描述符
//in_fd : 待读取出内容的文件描述符
//len : 需要复制的字节数
//flags : 选项
//返回值:成功:返回在两个文件描述符之间复制的字节数;没有数据:返回0
ssize_t tee(int fd_in, int fd_out, size_t len, unsigned int flags);

2.4.2 实现分析

和splice类似,只不过一个是移交所有权,一个是增加引用。

3. 实际应用以及分析

在实际场景中,我们可以使用sendfile发送静态文件,比如nginx就支持这种配置;可以通过mmap来映射日志文件数据到用户空间,写完后通过内核将数据刷到磁盘,提升写入性能。比较优秀的使用者还有kafka,其也是通过零拷贝提升其数据传输能力。

4. 总结

本文介绍了零拷贝的原理、相关接口实现和一些实际例子,下届将继续IO系列,IO性能的衡量和监控。

来源:https://www.51cto.com/article/827135.html

免责声明

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章

应对腾势掉链子,这几点车主必须知道

腾势销售事业部原总经理赵长江的离职引发了诸多议论,但舆论的聚光灯已迅速转向腾势汽车的未来。面对车企之间激烈的竞争,新任总经理李慧如何带领品牌实现突围?新上市的腾势N8L,能否成为D9之后的下一个爆款

2025-10-31.

汽车之家极寒冬测开启:陈震受邀参与,自费采购无充值

一场围绕冬季测试标准的行业讨论,近日因汽车之家与车评人陈震的公开互动引发关注。此前,汽车之家对小米YU7、理想i6及特斯拉Model Y三款车型开展的低温性能测试,因测试环境温度设定在3-13℃区间

2025-10-31.

第八届进博会开幕在即!NFC徽章亮相,600款文创云上等你

第八届中国国际进口博览会的文创产品迎来全面升级,由上海广播电视台旗下文广实业独家代理的进博文创系列正式亮相。此次焕新不仅保留了经典元素,更融入创新科技与地域文化,为全球参观者带来耳目一新的体验。一款

2025-10-31.

东方甄选启示录:告别流量喧嚣,做产品才是电商出路

当直播电商行业仍在为流量争夺而陷入内卷时,东方甄选已悄然开启一场从“流量至上”到“产品为王”的深度变革。这场变革不仅重塑了企业的增长逻辑,更在行业格局中刻下新的坐标。最新财报数据显示,东方甄选的战略

2025-10-30.

江苏纳芯微港股上市:252亿市值背后,年销芯片超30亿颗

江苏苏州的模拟芯片龙头企业纳芯微,近日向港交所重新提交了上市申请。这家成立于2013年的公司,在模拟芯片领域已占据重要地位。按2024年中国模拟芯片市场收入计算,纳芯微位列中国模拟芯片厂商第五、汽车

2025-10-30.

热门教程

更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程

最新下载

更多
海岛奇兵应用宝
海岛奇兵应用宝 棋牌策略 2025-10-31更新
查看
小黄人快跑国际
小黄人快跑国际 休闲益智 2025-10-31更新
查看
海岛奇兵腾讯
海岛奇兵腾讯 棋牌策略 2025-10-31更新
查看
海岛奇兵昆仑
海岛奇兵昆仑 棋牌策略 2025-10-31更新
查看
愤怒的小鸟2国际服
愤怒的小鸟2国际服 休闲益智 2025-10-31更新
查看
Melon Sandbox国际
Melon Sandbox国际 休闲益智 2025-10-31更新
查看
拳击大作战
拳击大作战 体育竞技 2025-10-31更新
查看
死亡扳机手游
死亡扳机手游 飞行射击 2025-10-31更新
查看
进击的巨人Brave Order正
进击的巨人Brave Order正 角色扮演 2025-10-31更新
查看
西奥小镇正
西奥小镇正 休闲益智 2025-10-31更新
查看