Linux CPU分配指南:按容器权重分配资源的两种方法
在Linux内核的完全公平调度器中,每个逻辑核都维护着一个独立的调度队列struct cfs_rq。这些调度队列采用红黑树结构进行组织,每个红黑树节点都对应一个调度实体struct sched_entity。值得注意的是,sched_entity既可以关联具体进程的struct task_struct,也能够对应容器使用的struct cfs_rq。
本文重点探讨了Linux内核为容器分配CPU资源的第一种实现机制,通过period和quota的组合来限制容器使用CPU时间的上限。不过内核还提供了第二种CPU资源分配策略——按权重分配。接下来我们将深入分析这种分配方式的具体使用方法及其底层实现原理。
一、Linux的完全公平调度器
在详细讲解容器权重分配之前,我们有必要先回顾一下内核中完全公平调度器的核心机制。
Linux内核的完全公平调度器为每个逻辑核都配备了独立的调度队列struct cfs_rq,这些队列采用红黑树结构来组织任务。红黑树中的每个节点都是一个调度实体struct sched_entity,这些实体既可以代表具体的进程task_struct,也能够对应容器层的cfs_rq。
图片
以下是完全公平调度器cfs_rq内核对象的完整定义。
// file:kernel/sched/sched.h
struct cfs_rq {
...
// 当前队列中所有进程vruntime的最小值
u64 min_vruntime;
// 保存就绪任务的红黑树
struct rb_root_cached tasks_timeline;
...
}
在该对象中,最核心的是rb_root_cached类型的对象,这个对象的数据结构就是以红黑树来组织的。在红黑树的节点中,存放的是一个调度实体sched_entity对象。这个对象有可能是属于普通进程task_struct的,也有可能是属于容器进程组task_group的。
//file:kernel/sched/sched.h
struct task_group {
...
struct sched_entity **se;
struct cfs_rq **cfs_rq;
unsigned long shares;
}
//file:include/linux/sched.h
struct task_struct {
...
struct sched_entity se;
}
无论sched_entity对应的是具体进程还是容器实体,都会包含一个虚拟运行时间vruntime字段,以及一个用于存储权重数据的load字段。
图片
在进程调度的过程中,每个逻辑核上都设有一个定时器,周期性地触发调度器从红黑树上判断是否需要用最左侧调度实体替换当前正在运行的进程。在选择进程进行切换时,虽然存在多种策略,但最核心的是要保持所有调度实体的vruntime的公平性。换句话说,不管Linux系统上有多少个使用完全公平调度器的进程(使用实时调度策略的进程除外),它们最终的vruntime基本会保持一致。
二、权重的设置
上节我们讲到完全公平调度器运转是基于vruntime来维持所有调度实体公平地使用CPU资源的。但现实情况是,有的服务确实需要多使用一些CPU资源,另一些服务只需要少使用一点就可以。例如说某台服务机是云上的一台服务器,有的用户购买了8核套餐,有的用户只购买的1核配置。在计算vruntime的时候必然需要一些策略来支持。
为了实现这个需求,每个调度实体中的权重就显得非常关键了。
//file:include/linux/sched.h
struct sched_entity {
struct load_weight load;
u64 vruntime;
...
}
struct load_weight {
unsigned long weight;
u32 inv_weight;
};
对于普通进程来说,这个权重可以使用nice命令来间接地修改。在容器中,在cgroup v1下可以通过cgroupfs下的cpu.shares文件来修改,在cgroup v2下通过cpu.weight / cpu.weight.nice来修改。
在cgroup v1中,对cpu.shares的修改会执行到cpu_shares_write_u64这个函数中。
//file:kernel/sched/core.c
static struct cftype cpu_legacy_files[] = {
{
.name = "shares",
.read_u64 = cpu_shares_read_u64,
.write_u64 = cpu_shares_write_u64,
},
...
}
在cgroup v2中,对cpu.weight的修改会执行到cpu_weight_write_u64函数中。
//file:kernel/sched/core.c
static struct cftype cpu_files[] = {
{
.name = "weight",
.flags = CFTYPE_NOT_ON_ROOT,
.read_u64 = cpu_weight_read_u64,
.write_u64 = cpu_weight_write_u64,
},
...
}
不管是cgroup v1修改cpu.shares时执行cpu_shares_write_u64,还是cgroup v2修改cpu.weight是执行cpu_weight_write_u64,最终都会调用到__sched_group_set_shares来把权重信息shares记录到调度实体se上去了。
//file:kernel/sched/fair.c
static int __sched_group_set_shares(struct task_group *tg, unsigned long shares){
......
tg->shares = shares;
for_each_possible_cpu(i) {
struct sched_entity *se = tg->se[i];
for_each_sched_entity(se)
update_cfs_group(se);
}
}
具体的设置是在update_cfs_group中完成的,它依次调用reweight_entity、update_load_set来把权重值记录到调度实体上。这样后面就可以通过调度实体se->load->weight找到进程或容器的权重信息了。
//file:kernel/sched/fair.c
static inline void update_load_set(struct load_weight *lw, unsigned long w){
lw->weight = w;
lw->inv_weight = 0;
}
三、容器CPU权重分配实现
完全公平调度器是维持的所有调度实体的vruntime的公平性。但是vruntime会根据权重来进行缩放,vruntime的实现是calc_delta_fair函数。
// file:kernel/sched/fair.c
static inline u64 calc_delta_fair(u64 delta, struct sched_entity *se){
if (unlikely(se->load.weight != NICE_0_LOAD))
delta = __calc_delta(delta, NICE_0_LOAD, &se->load);
return delta;
}
在这个函数中,NICE_0_LOAD宏对应的是1024。如果权重是1024,那么vruntime正好等于实际运行时间。否则会进入到__calc_delta中根据权重和实际运行时间来折算一个vruntime增量来计算。__calc_delta函数为了追求极致的性能,实现上比较繁杂一些,源码就不给大家展示了。我们只把它用到的缩放算法展示如下:
vruntime = (实际运行时间 * ((NICE_0_LOAD * 2^32) / weight)) >> 32
如果权重weight较高,那么同样的实际运行时间算出来的vruntime会偏小,这样它就会在调度中获得较多的CPU时长。如果权重weight较低,那么算出来的vruntime会比实际运行时间偏大。这样它就会在调度的过程中获得的CPU时间就会较少。完全公平调度器就是这样简单地实现了CPU资源的按权重分配。
我们再举个例子,假如有一个8核的物理机上,上面运行着A服务、B服务、C服务的一些容器。
图片
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
4月规上工业原油产量1794万吨 同比增长1.2%
国家统计局最新发布的能源数据显示,四月份我国原油生产与加工领域呈现出截然不同的发展态势。总体来看,上游生产保持稳健增长,而下游加工环节则面临一定压力。 从生产端来看,四月份规模以上工业原油产量达到1794万吨,同比增长1 2%,增速较三月份提升1 0个百分点。日均产量约为59 8万吨,生产节奏稳步加
iPhone 18 Pro手机壳曝光 相机模组尺寸或进一步增大
知名爆料人分享了iPhone18Pro系列保护壳图片。设计延续前代风格,但相机模组尺寸可能进一步扩大,机身或略增厚,导致新保护壳与旧款不兼容。屏幕尺寸预计保持不变。综合信息显示,该系列更像是前代的强化升级版,重点在于内部性能与影像系统的提升。
百望股份与中关村两院战略合作共建产学研创投生态
百望股份与中关村学院、中关村人工智能研究院达成战略合作,共建产学研创投生态。依托百望的真实企业交易数据与两院的科研人才优势,在合规前提下挖掘数据要素价值。双方聚焦财税金融领域,利用AI技术研发智能应用,并通过共建数据沙箱、人才通道与共创机制,推动数据智能从学术创。
小米SU7 GT发布会5月21日举行 多款新品同步亮相
小米创始人雷军宣布,小米YU7GT将于5月21日晚7点发布。新车定位纯血GT,拥有修长车头、跑车宽体设计,最大马力1003匹,续航705公里。同场还将推出小米17Max手机、耳夹式耳机等多款生态新品。雷军解释,YU7GT侧重长途旅行与日常使用平衡,其纽北测试旨在验证极端条件下的整车性能。
英伟达洽谈领投印度AI初创公司Simplismart
英伟达正洽谈领投印度AI初创公司Simplismart,计划投资约2000万美元,投后估值预计达1亿美元。该公司专注于生成式AI和MLOps,若交易达成,其估值将在数月内从2500万美元跃升近四倍,增长迅猛。英伟达今年在AI领域投资已超400亿美元,持续扩张其生态布局。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

