ES集群优化 之 海量时序数据处理

背景

终于要用ES干一件大事了,最近一个需求需要记录用户作品的实时访客行为,有点类似于pv明细日志,记录用户什么时间打开的产品、在里面都做了什么操作,初步预估日流量在5000w左右,月累积15亿+,业务方要求数据保留1年,没有聚合,只需支持任意检索与排序,这么大的数据量如何实现高并发下的查询排序将是一个很大的挑战。

操作流程

经常有同学问我,想用ES但不知道怎么去优化,根据在易企秀多年业务实战经验总结 分别是:集群规划、索引配置、存储策略、索引拆分、冷热分区、段合并等几个维度优化。

集群规划

hot 组 4台:

参数 说明
cpu 16c
内存 48g
硬盘 300g ssd
数据 近3个月
特点 经常读写

cold 组 2台:

参数 说明
cpu 16c
内存 64g
硬盘 1T*2 hdd
数据 历史9个月
特点 没有写、也不怎么读

索引配置

搜索业务不同,并不需要对文档数据的相关度计算,所以索引配置可以做些优化:

1、通过配置index_options优化text field的索引生成方式,es默认除生成倒排以外还会记录文档的词频与term的位置信息,如果只是用来对文档的检索不需要评分与高亮,可优化。

2、禁用field评分,如果该字段不需参与相关度打分那么可禁用,通过将norms设置为false来禁用评分提升检索性能。

3、禁用doc_values,es为提升keyword类型下数据的排序与聚合性能,默认为每一个keyword field都开启了此功能,非必要场景禁用此操作可节省磁盘空间。

4、开启最优化压缩,通过配置"index.codec":"best_compression"开启最优压缩,可节省磁盘空间,但会增大cpu负载。

5、单分片的优势是检索速度快,但并发支持不高;我们大多数业务场景 1-2 个分片足够了(官方建议单分片10-20亿条,20GB 到 40GB存储大小为最佳)。

6、热数据采用两副本,提升数据容错与检索性能,冷数据禁用副本分片,节约存储空间。

7、设置刷新,当月数据设置"index.refresh_interval":"120s",历史索引禁用刷新操作。

8、translog异步操作,"index.translog.durability": "async"

9、term的使用
ES 7对term类型做了性能优化 ,较之前提升37倍多,所以能用term解决的就不要使用数值或文本类型

10、自动生成Id
因为存储的是用户行为日志,所以不存在更新操作,每条日志的唯一标识可随机生成,写入性能提升近1倍。

索引策略

routing,根据某个字段将相同数据发送到相同分片上存储,检索时使用相同路由策略可实现数据的快速获取:

shard_num = hash(_routing) % num_primary_shards

默认使用doc id路由,因为我们存储的是用户作品的访问记录,这里会根据user_id,将同一用户下作品数据的访问记录路由到一个分片:

PUT my_index/my_type/1?routing=user_id
{
  "title": "This is a document"
}

GET my_index/my_type/1?routing=user_id

由于用户的作品量是不同的,且不同作品的传播能力差别也很大,故上面的路由规则实际操作过程中会出现数据倾斜的问题,导致各别节点存储资源,检索压力会特别大,故优化上述路由策略,新增routing_partition_size

shard_num = (hash(_routing) + hash(_id) % routing_partition_size) % num_primary_shards

routing_partition_size 为ES 6.x之后新增配置,取值大于1 且小于主分片数,另外在mapping中还需配置:


{
  "mappings": {
    "_routing": {
      "required": true 
    }
  }
}

经测试 routing 在分片数大于2时使用效果明显

索引拆分(冷热分离)

应用程序内通过系统时间动态生成索引,并将超出3个月的索引通过定时任务归档到cold组 :
1、将data node划分为冷热数据节点

# cat elasticsearch.yml    // 配置文件设置tag区分
node.attr.tag: cold/hot   

# bin/elasticsearch -d -Enode.attr.box_type=hot  //启动设置

2、根据模板按月生成索引,格式如 visitor_2019-01

  
#构建索引模板,滚动新增的索引将按照模板进行创建
curl -X PUT "localhost:9200/_template/visitor" -H 'Content-Type: application/json' -d'
{
  "index_patterns": ["visitor_*"], 
  "settings": {
    "number_of_shards": 1,
    "number_of_replicas": 1,
    "index.routing.allocation.include.tag" : "hot"
  },
 "mappings": {}
}
' 

3、归档历史数据到cold节点

curl -X PUT "${es}/${i}/_settings" -H 'Content-Type: application/json' -d'{
        "number_of_replicas": 0,
        "index.routing.allocation.include.tag": "cold"
     }'

段合并

对于不再进行数据写入的历史索引,强制进行segment合并可大幅提升检索性能


curl -XPOST "http://host/visitor/_forcemerge?only_expunge_deletes=true&max_num_segments=1&flush=true"

结论

想要了解按照上面流程优化后的实际性能,请关注我的下一篇文章 ES数据实测分析

架构的快速迭代源于业务的快速发展,正是由于易企秀近几年的快速发展,ES集群的规模也在不断升级;正所谓没有最好的架构,只有最适合的架构,数据中台做性能最强、稳定最好、使用便捷的系统初心不会改变

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,117评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,328评论 1 293
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,839评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,007评论 0 206
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,384评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,629评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,880评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,593评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,313评论 1 243
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,575评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,066评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,392评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,052评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,082评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,844评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,662评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,575评论 2 270