Elasticsearch 6.4版本节点文件描述符耗尽的原因与解决办法

背景

某日线上一个6.4.3版本的Elasticsearch集群,规模只有2核4G*3节点,分片有大约10000个,因为JVM堆内存使用率过高,导致节点频繁掉线,在重启了该集群后,分片逐渐恢复,但是最后只剩不到300个分片迟迟无法恢复,通过GET _cluster/allocation/explain 看到如下原因:

failed to write index state
java.nio.file.FileSystemException: /data1/containers/1568005591000623209/es/data/nodes/0/indices/YoM9bi5vSgW2pm8L4o9dzw/_state: Too many open files in system

从表面上看是系统打开的文件描述符过多,导致分片无法恢复,但是我们线上集群都会把启动es进程的用户的ulimit各种限制调的比较大,最大文件描述符为655360,难道这个限制也超过了吗?

问题定位与解决

1. 查看系统资源的使用情况

对ES进程执行lsof命令:lsof -p 3383 |wc -l, 结果为387220, 说明ES本身占用了将近40w个文件描述符。

再通过netstat命令,查看到ES进程的http或者tcp连接都只有几十条,排除网络原因造成的过多文件描述符占用。

2. 查看ES目录

ES本身占用了将近40w个文件描述符,进入到ES的data目录后,发现translog目录下有大量的文件.tlog和.ckp文件,应该就是这些文件占用了大量的文件描述符。而为什么会产生这么多的translog文件,发现就是因为节点只有4G内存,节点内存使用率过高,频繁触发系统的OOM-killer将ES进程杀死,进程被kill掉以后保活agent又将ES进程重启,而每次重启后都会产生新的translog文件,最终把系统的文件描述符耗尽。

3. 临时解决办法

问题是线上集群所用的centos系统我们默认会通过修改/etc/security/limits.conf文件把启动ES进程的用户的文件描述符限制调的很大,如下所示:

elasticsearch - nofile 655360
* - as unlimited
* - nproc 2056474
* - fsize unlimited
elasticsearch - memlock unlimited

为什么还会出现文件描述符耗尽的情况呢?通过Google, 发现系统级别的最大文件描述符数量还受限于file-max参数,通过执行"cat /proc/sys/fs/file-nr"命令可以看到如下结果:

379648   0  379380

上述结果中三个至分别为当前系统已经分配的文件描述符数量,已经分配但未使用的文件描述符数量,系统最大能分配的文件描述符数量。从这个结果中可以看出,ES进程消耗的文件描述符数量已经超过了系统最大能分配的文件描述符数量。

因此,通过临时调大系统最大文件描述符数量限制:

sysctl -w fs.file-max=579380;
sysctl -p;

然后重启ES进程,后续集群所有的分片都逐渐恢复,集群恢复正常。

从上面的解决办法我们看到,虽然我们调整了elasticsearch用户的文件描述符限制为655360, 但是这个只是用户级别的,还有系统级别的总的文件描述符数量限制,这个是和所使用的机器规格有关的,因为节点只有4G内存,所以最大文件描述符限制比较低,只有不到40w。

4. 为什么ES没有自动清理translog文件

ES进程每次重启后都会产生新的translog文件和ckp文件,为什么没有清理这些过期的旧文件呢?

ES清理translog文件是由"index.translog.retention.size"和"index.translog.retention.age"两个参数控制,默认值分别为512MB和12h, 也即translog文件总的大小超过512MB之后会清理最老的文件,以及超过12小时的文件也会被清理。但是在本例中,实际上老的translog文件的修改时间早已经超过12小时,但是为什么没有被清理呢?实际上这是ES 6.x的bug,因为ES进程不断的重启,重启后进程还有触发flush,就被kill掉,导致translog generation始终为1,所有的文件都被保留下来,最终触发了系统级别的最大文件描述符限制。

这个问题在github上有issue: https://github.com/elastic/elasticsearch/issues/49970, 最终在7.x版本被修复,PR为:https://github.com/elastic/elasticsearch/pull/51905

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 157,298评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,701评论 1 290
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 107,078评论 0 237
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,687评论 0 202
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,018评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,410评论 1 211
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,729评论 2 310
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,412评论 0 194
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,124评论 1 239
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,379评论 2 242
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,903评论 1 257
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,268评论 2 251
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,894评论 3 233
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,014评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,770评论 0 192
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,435评论 2 269
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,312评论 2 260