容器核心:cgroups

cgroups-desc.png

Cgroups(control groups)

Cgroups是Linux内核提供的一种机制,这种机制可以根据特定的行为,把一系列系统任务及其子任务整合(或分隔)到按资源划分等级的不同组内,从而为系统资源管理提供一个统一的框架。

Cgroups 可以限制、记录、隔离进程组所使用的物理资源(包括:CPU、memory、IO等),它本质上是系统内核附加在程序上的,为容器实现虚拟化提一系列钩子,通过程序运行时对资源的调度触发相应的钩子,从而达到资源追踪和限制的目的。供了基本保证,是构建Docker等一系列虚拟化管理工具的基石。

  • Cgroups的API以一个伪文件系统的方式实现,即用户可以通过文件操作实现cgroups的组织管理
  • Cgroups的组织管理操作单元可以细粒度到线程级别,用户态代码也可以针对系统分配的资源创建和销毁Cgroups,从而实现资源再分配和管理
  • 所有资源管理的功能都以“subsystem(子系统)”的方式实现
  • 子进程创建之初与其父进程处于同一个cgroups的控制组。

cgroups的作用

资源限制

cgroups可以对进程组使用的资源总额进行限制。如设定应用运行时使用内存的上限,一旦超过这个配额就发出OOM(Out of Memory)。

优先级分配

通过分配cpu时间片数量及硬盘io,带宽大小来控制进程的优先级

资源统计

统计系统的资源使用量,如CPU使用量,内存用量等

进程控制

cgroups可以对进程组执行挂起、恢复等操作。

术语

术语 描述
task(任务) 系统中的进程
cgroup(控制组) cgroups 中的资源控制都以cgroup为单位实现。cgroup表示按某种资源控制标准划分而成的任务组,包含一个或多个子系统。一个任务可以加入某个cgroup,也可以从某个cgroup迁移到另外一个cgroup
subsystem(子系统) cgroups中的subsystem就是一个资源调度控制器(Resource Controller)。比如CPU子系统可以控制CPU时间分配,内存子系统可以限制cgroup内存使用量。
hierarchy(层级树) hierarchy由一系列cgroup以一个树状结构排列而成,每个hierarchy通过绑定对应的subsystem进行资源调度。hierarchy中的cgroup节点可以包含零或多个子节点,子节点继承父节点的属性。整个系统可以有多个hierarchy

如何管理Cgroups

Cgroup 是分层管理的,类似进程,且子Cgroup会继承上级Cgroup的一些属性。

相同点

Cgroup与进程都是分级的,且子Cgroup/进程 会集成父Cgroup的某些属性

不同点

Cgroup 在某个系统中可以同时存在不同的分级Cgroup.如果linux的进程看成一棵树,那么Cgroups则可以是一棵或多棵树

Red Hat Enterprise Linux 中的可用子系统

  • blkio -- 这个子系统为块设备设定输入/输出限制,比如物理设备(磁盘,固态硬盘,USB 等等)。
  • cpu -- 这个子系统使用调度程序提供对 CPU 的 cgroup 任务访问。
  • cpuacct -- 这个子系统自动生成 cgroup 中任务所使用的 CPU 报告。
  • cpuset -- 这个子系统为 cgroup 中的任务分配独立 CPU(在多核系统)和内存节点。
  • devices -- 这个子系统可允许或者拒绝 cgroup 中的任务访问设备。
  • freezer -- 这个子系统挂起或者恢复 cgroup 中的任务。
  • memory -- 这个子系统设定 cgroup 中任务使用的内存限制,并自动生成由那些任务使用的内存资源报告。
  • net_cls -- 这个子系统使用等级识别符(classid)标记网络数据包,可允许 Linux 流量控制程序(tc)识别从具体 cgroup 中生成的数据包。
  • ns -- 名称空间子系统。

子系统、层级、控制组群和任务的关系

这里又一些简单的规则子系统、cgroup层级以及任务任务之间的关系,并给出那些规则的合理结果

规则一

规则一

任何单一子系统(如CPU)最多可附加到一个层级中。

结果 : cpu子系统永远无法附加到两个不同的层级。

规则二

规则二

单一层级可附加一个或多个子系统

结果 : cpu和memroy子系统(或者任意数目的子系统)都可附加到单一层级中,只要每个子系统不再附加到另一个层级即可。

规则三

规则三

每次在系统中创建新层级时,该系统中的所有任务都是哪个层级的默认cgroup(root cgroup)的初始成员。对于您创建的任何单一层级,该系统中的每个任务都可以是哪个层级中唯一一个cgroup的成员。单一任务可以在多个cgroup中,只要每个cgroup都在不同的层级中即可。只要某个任务成为同一层级中的cgroup的成员,就会将其从那个层级的第一个cgroup中删除。一个任务永远不会同时位于同一层级的不同cgroup中

结果 : 如果cpu和memory子系统都附加到名为cpu_and_mem 的层级中,且net_cls子系统是附加到名为net的层级中,那么运行的httpd进程可以是cpu_and_mem中任意cgroup的成员,同时也是net中任意cgroup成员

httpd进程所在cpu_and_mem中的cgroup可将其CPU时间限制为分配给其他进程时间的一半,并将其内存用量限制为最多1024MB。另外,net中的cgroup还可将其传输速率限制为30MB/s

首次创建层级时,该系统中的每个任务都至少是一个cgroup的成员,即root cgroup,因此每当使用cgroup时,每个系统任务总是至少在一个cgroup中。

规则四

规则四

该系统的任意进程都将自己分支创建子进程。该子任务自动称为其父进程所在的cgroup的成员,然后可根据需要将该子任务移动到不同的cgroup中,但开始时它总是继承其父任务的cgroup(进程术语中称其为‘环境’)。

cpu_and_mem层级中名为half_cpu_1gb_max的cgroup成员任务,以及net层级中cgroup trans_rate_30的成员。当httpd进程将其自身分成几个分支时,其子进程会自动成为half_cpu_1gb_max cgroup 和trans_rate_30 cgroup的成员。它会完全继承其父任务所属的同一cgroup.

此后,父任务和子任务就彼此完全独立: 更改某个任务所属cgroup不会影响到另一个。同样更改父任务的cgroup 也不会以任何方式影响其子任务。总之:所有子任务总是可继承其父任务的cgroup 也不会以任何方式影响其子任务。总之: 所有子任务总是可继承其父任务的同一cgroup 的成员关系,但之后可更改或删除那些成员关系

组织结构与基本规则

CGroup层级

上图所示的CGroup层级管理显示,CPU和Memory两个系统由自己独立的层级系统,而又通过Task Group取得关联关系

CGroup应用架构图

上图所示,CGroup技术可以被用来在操作系统底层限制无力资源,起到Container的作用。

参考资料

Cgroups 介绍、应用实例及原理描述

红帽企业版 Linux 6资源管理指南

推荐阅读更多精彩内容