容器实战

认识容器

Namespace帮助容器来实现各种计算资源的隔离,Cgroups主要限制的是容器能够使用的某种资源量。

为什么在容器中不能Kill 1进程

init进程创建的过程:
打开电源--> 执行BIOS/boot-loader--->boot-loader加载Linux内核(内核文件存放在/boot目录,文件名类似vmliunz*)--> 执行的第一个用户态程序就是init进程。

1号进程就是第一个用户态的进程,有它直接或者间接创建了namespace中的其他进程。

特权信号就是Linux为kernel和超级用户去删除任意进程所保留的,不能被忽略也不能被捕获。

由于SIGKILL是一个特例，因为SIGKILL是不允许注册用户handler的，那么它只有SIG_DFL handler，init进程是永远不能被SIGKILL所杀,但是可以被SIGTERM杀死。

进程处理信号的选择：

类型	说明
忽略	对信号不做任何处理,但SIGKILL和SIGSTOP例外。
捕获	让用户进程可以注册自己针对这个信号的handler，但SIGKILL和SIGSTOP例外。
缺省	Linux为每个信号都定义一个缺省的行为,对于大部分应用程序不需要注册自己的handler,使用系统缺省定义行为即可。

为什么容器中这么多僵尸进程

1.Linux内核里其实都是用task_struct这个接口来表示的。Linux里基本的调度单位是任务。任务的状态有两个TASK_RUNNING(运行态)和睡眠态(TASK_INTERRUPTIBLE,TASK_UNINTERRUPTIBLE).
运行态是无论进程是正在运行中，还是进程在run queue队列里随时可以运行,都处于这个状态。
睡眠是指进程需要等待某个资源而进入的状态，要等待的资源可以是一个信号量,或者是磁盘IO,这个状态的进程会被放入到wait queue队列里。
TASK_INTERRUPTIBLE是可以被打断的,显示为S stat,TASK_UNINTERRUPTIBLE 是不能被打断的,显示的进程为D stat。
在调用do_exit()的时候，有两个状态,EXIT_DEAD,就是进程在真正结束退出的那一瞬间的状态;EXIT_ZOMBIE状态,是在EXIT_DEAD之前的一个状态。
可以通过/proc/sys/kernel/pid_max设置进程最大的数量。如果机器中CPU数目小于等于32，pid_max设置为32768(32K),如果CPU数目大于32，pid_max的数目为N*1024.
在创建容器成功之后, 创建容器的服务会在/sys/fs/cgroups/pids下建立一个字目录，就是一个控制组,控制组里最关键的一个文件是pids.max。
父进程在创建完子进程就不管了，这就是子进程变成僵尸进程的原因。
在主进程里,就是不断在调用带WHOHANG参数的waitpid(),通过这个方式清理容器中所有的僵尸进程。

为什么容器中的进程被强制杀死了

Containerd在停止容器的时候，就会向容器的init进程发送一个SIGTERM信号,其他进程收到的是SIGKILL信号。
kill()这个系统调用,输入两个参数:进程号和信号,就把特定的信号发送给指定的进程了。
signal调用，决定了进程收到特定的信号如何来处理,SIG_DFL参数把对应信号恢复为缺省handler, 也可以用自定义的函数作为handler,或者用SIG_IGN参数让进程忽略信号。

如何解决停止容器的时候，容器内应用程序被强制杀死的问题:
在容器的init进程中对收到的信号做转发,发送到容器中的其他子进程,这样容器中的所有进程在停止时,都会收到SIGTERM，而不是SIGKILL信号了。

如何限制容器的CPU使用

类型	具体含义
us	User，用户态CPU时间，不包括低优先级进程的用户态时间
sys	System，内核态CPU时间
ni	Nice，1-19的进程用户态CPU时间
id	idele，系统空闲CPU时间
wa	iowait，系统等待I/O的CPU时间，这个时间不计入进程CPU时间
hi	hardware irq，处理硬中断的时间，这个时间不进入CPU时间
si	softirq，处理软中断的时间，这个时间不计入进程CPU时间
st	Steal，表示同一个宿主机上的其他虚拟机清走的CPU时间

在/sys/fs/cgroup/cpu这个目录看到cpu的数据
Linux普通的调度的算法是CFS（完全公平调度器）
cpu.cfs_period_us,cfs算法的一个调度周期，是以位秒为单位。
cpu.cfs_quota_us,在一个调度周期里这个控制组被允许的运行时间。
cpu.shares，cpu cgroup对于控制组之间的cpu分配比例，缺省值为1024.

如何获取CPU的开销

由于/proc/stat文件是整个节点全局的状态文件,不属于任何一个Namespace,因此在容器中无法通过读取/proc/stat文件来获取单个容器的CPU使用率。
单个容器CPU使用率=((utime_2 - utime_1)+(stime_2 - stime_1))100.0/(HZet*1)

添加Cpu Cgroup限制,容器还是很慢

无法通过CPU Cgroup来控制Load Average的平均负载。
Load Average是一种CPU资源需求的度量:

Load Average都是Linux进程调度器中可运行队列里的一段时间的平均进程数目。

单位时间进程CPU Usage相加的平均值应该就是load average的值。

计算机上的CPU满负载的情况下,计算机上的CPU已经是满负载了,同时还有更多的进程在排队需要CPU资源。

平均负载统计了这两种情况的进程:

Linux进程调度器中可运行队列一段时间的平均数。

Linux进程调度器中休眠队列里的一段时间的TASK_UNINTERRUpTIBLE状态下的进程平均数。

Load Average = 可运行队列进程平均数 + 休眠队列中不可打断的进程平均数

容器为什么被杀

OOM Killer是在Linux系统里如果内存不足时,就需要杀死一个正在有耐性的进程来释放一些内存。
Linux允许进程在申请内存的时候是overcommit，就是允许进程申请超过实际物理内存上线的内存。
malloc()申请的是内存虚拟地址,系统只是程序一个地址范围,由于没有写入数据,所以程序没有得到真正的物理内存。
oom_badness()函数,判断条件:
1.进程已经使用的物理内存页面数;
2.每个进程的OOM校准值oom_scire_adj。在/proc文件系统中,每个进程都有一个/proc/<pid>/oom_score_adj的接口文件。
用系统总的可用页面数,乘以OOM校准值oom_score_adj,再加上进程已经使用的物理页面数, 计算出来的值越大,那么这个进程被OOM Killer的几率也越大。
Memory Cgroup是对一组进程的Memory做限制,挂在/sys/fs/cgroup/memory目录下。
journalctl -k查看/var/log/message，看到的信息如下:
1.容器中每一个进程使用的内存页面数量。
2.oom-kill: 可以看到那个容器发生
3.Killed process7445 那个进程被杀死。

参数	解释
memory.limit_in_bytes	直接限制控制组里所有进程可使用内存的最大值
memory.oom_control	当控制组中的进程内存使用达到上限时,这个参数能够决定会不会触发OOM Killer,默认回触发。
memory.usage_in_bytes	只读参数,里面的数值是当前控制组里所有进程实际使用的内存总和。数值越接近参数1，OOM的风险越高。

为什么容器内存使用量总是在临界点

Linux内存模型:RSS和Page Cache。
RSS:进程真正申请到物理页面的内存大小。
判断容器实际使用的内存量需要使用memory.stat里的rss值。free获取到的内存值，需要去掉available字段下的值。
Page Cache是进程在运行中读写磁盘文件后，作为Cache而继续保留在内存中，它的目的是为了提高磁盘文件的读写性能。
内存使用量计算公式(memory.kmem.usage_in_bytes表示该memcg内核内存使用量)：memory.usage_in_bytes=memory.stat[rss]+memory.stat[cache]+memory.kmem.usage_in_bytes.
Memory Cgroup OOM不是真正依据内存使用量memory.usage_in_bytes，而是依据working set,working set的计算公式: working_set = memory.usage_in_bytes - total_inactive_file。

容器可以使用swap空间吗？

swappiness(/proc/sys/vm/swapiness)可以决定系统将会有多频繁地使用交换分区。取值范围为0-100，缺省值为60。

值	解释
100	100:100,释放Page Cache和匿名内存是同等优先级的。
60	60:140,Page Cache的释放优先级高于匿名内存的释放
0	不能完全禁止Swap分区的使用。如果内存紧张,仍会通过Swap回收匿名内存。

memory.swapiness(Cgroup中的参数)可以控制这个Memory Cgroup控制组下面匿名内存和page cache的回收。
当memory.swapiness=0的时候,对匿名页的回收是始终禁止的,也就是始终不会使用Swap空间。

我在容器中读写文件怎么变慢了

为了有效地减少磁盘上冗余的镜像数据,同时减少冗余的镜像数据在网络上的传输,选择一种针对容器的文件系统是很有必要的,这类的文件系统被称为UnionFS。
UnionFS实现的主要功能是把多个目录一起挂载在同一目录下。
OverlayFS是Liunx发行版本里缺省使用的容器文件系统。
OverlayFS也是把多个目录合并挂载,被挂载的目录分为两大类:lowerdir和upperdir。
lowerdir允许有多个目录,在被挂载后,这些目录里的文件都是不会被修改或者删除,也就是只读的;upper只有一个,不过这个目录是可读写的，挂载点目录中的所有文件修改都会在upperdir中反映出来。
OverlayFS建立2个lowerdir目录，并且在目录中建立相同文件名的文件,然后一起做一个overlay mount，为将文件合并成为一个。

容器为什么把宿主机的磁盘写满了

为了避免容器把宿主机的磁盘写满，对OverlayFS的upper目录做XFS Quota的限流。
docker run --storage-opt size=10M,就能限制容器OverlayFS文件系统可写入的最大数据量。
限制文件大小分为两步:
第一步:给目标目录打上一个Project ID;
第二步:为这个Project ID在XFS文件系统中,设置一个写入数据块的限制。
setProjectID()是调用ioctl()，setProjectQuota()调用quotactl()来修改内核中XFS的数据结构,从而完成project ID的设置和quota的设置。

如何判断是对那个目录做了限制:
根据/proc/mounts中容器的OverlayFS Mount信息，可以知道限制的目录/var/lib/docker2/<docker_id>，目录下的diff目录就是限制目录。

容器里磁盘读写为什么不稳定

IOPS就是每秒钟磁盘读写的次数,这个数值越大,性能越好。
吞吐量是每秒钟磁盘中数据的读取量。
吞吐量 = 数据块大小 * IOPS。
在Cgroup v1里,bulkio Cgroup的虚拟文件系统挂载点一半在/sys/fs/cgroup/blkio/。
Direct I/O模式,用户进程如果要写磁盘文件,就会通过Linux内核的文件系统层(fileSystem)-->块设备层(block layer)-->磁盘驱动-->磁盘硬件。
Buffer I/O模式,用户进程只是把文件写到内存中就返回,Linux内核自己有线程会被内存中的数据写入到磁盘中Cgroup v1 blkio的子系统独立于memory系统,无法统计到有Page Cache刷入到磁盘的数据量。Linux中绝大多数使用的是Buffered I/O模式。
Direct I/O可以通过blkio Cgroup来限制磁盘I/O。Cgroup V2从架构上允许一个控制组里只要同时有IO和Memory子系统,就可以对Buffered I/O做磁盘读写的限速。

容器写文件的延时为什么波动很大

dirty_backgroud_ratio和dirty_ratio,这两个值都是相对于节点可用内存的百分比值。
当dirty pages数量超过dirty_backgroud_ratio对应的内存量的时候,内核flush线程就会开始把dirty page写入磁盘;当dirty pages数量超过dirty_ratio对应的内存量,这时候程序写文件的函数调用write()就会被阻塞住,知道这次调用的dirty pages全部写入到磁盘。
在节点是大内存容量,并且dirty_ratio为系统缺省值为20%,dirty_backgroud_ratio是系统缺省值10%的情况下,通过观察/proc/vmstat中的nr_dirty数值可以发现,dirty pages不会阻塞进程的Buffered I/O写文件操作。

修改网络参数,容器中不生效

修改网络参数的有两种方法:一种方法是直接到/proc文件系统下的/proc/sys/net目录对参数做修改；还有就是使用sysctl来修改。
创建新的network namespace的方法:系统调用clone()或者unshare()。
Network Namespace工具包:

工具	使用条件
ip netns	直接对Network Namespace做相关操作,需要在/var/run/netns/有命名文件指向一个Network Namespace
unshare	用来建立一个新的Namespace
lsns	用于查看当前宿主机上所有的Namespace
nsenter	可以进入到任意Namespace中命令

runC也在对/proc/sys目录做read-only mount之前,预留出了修改接口,就是用来修改容器里/proc/sys下参数的,同样也是sysctl的参数。
在容器启动之前修改网络相关的内容，是可以的，如果启动之后,修改网络相关内容的是不生效的。

docker exec、kubectl exec、ip netns exec、nsenter等命令原理相同,都是基于setns系统调用,切换至指定的一个或多个namespace。

容器网络不通了怎么调试

解决容器与外界通讯的问题,一共需要两步完成。

1.怎么让数据包从容器的Network Namespace发送到Host Network Namespace；

2.数据包到了Host Network Namespace之后,还需要让它可以从宿主机的eth0发送出去。

容器网络延时要比宿主机上的高吗

对于macvlan,每个虚拟网络接口都有自己独立的mac地址,而ipvlan的虚拟网络接口是和物理网络接口共享一个mac地址。
veth对外发送数据的时候,peer veth接口都会raise softirq来完成一次收报操作,这样就会带来数据包处理的额外开销。
容器使用ipvlan/macvlan的网络接口,网络延时可以非常接近物理网络接口的延时。
对于需要使用iptables规则的容器,Kubernetes使用service的容器,就不能工作:

Kubernetes的service是靠kube-proxy实现

L2模式下,出入流量就不会经过host namespace,kube-proxy就无法工作。

L3模式下,单入方向不经过host namesspace,无法支持kube-proxy。

docker inspect lat-test-1 | jq.[0].state.Pid

容器中的网络乱序怎么这么高

Linux capabilities就是把Linux root用户原来所有的特权做了细化,可以更加细粒度地给进程赋予不同权限。
Privileged的容器也就是允许容器中的进程可以执行所有的特权操作。
容器中root用户的进程,系统也只允许了15个capabilities。

在容器中,不以root用户来运行程序来进行吗

使用不同用户执行程序:

Run as non-root user(给容器指定一个普通用户),启动时指定用户。

User Namespace(用户隔离技术的支持)

使用命名空间的好处:它把容器中root用户映射成主机上的普通用户。

对于用户在容器中自己定义普通用户uid情况,只要为每个容器在节点上分配一个uid范围,就不会出现在宿主机上uid冲突的问题了。

rootless container(以非root用户启动和管理容器)。

参考文献

xfs quota功能
 centos7 xfs 文件系统配置quota 用户磁盘配额
 quota磁盘配额（xfs）
xfs_quota 磁盘配额
 xfs_quota 磁盘配额限制篇
 XFS文件系统中quota的使用
 xfs文件系统quota
Linux学习—CentOS7磁盘配额工具quota
linux磁盘配额详解（EXT4和XFS）

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 157,012评论 4赞 359
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 66,589评论 1赞 290
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 106,819评论 0赞 237
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,652评论 0赞 202
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 51,954评论 3赞 285
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,381评论 1赞 210
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,687评论 2赞 310
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,404评论 0赞 194
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,082评论 1赞 238
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,355评论 2赞 241
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,880评论 1赞 255
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,249评论 2赞 250
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,864评论 3赞 232
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,007评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,760评论 0赞 192
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,394评论 2赞 269
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,281评论 2赞 259