Kafka Index Service Task数据丢失

问题:

Druid的Kafka Index Service Task在配置完规则之后,按天分Segement,导致每天都有8小时的数据丢失

原因:

Druid里使用UTC时间,而且是写死的,按天分Segment时,Segment取的开始时间和结束时间是数据时间,而配置了规则的删除策略为Drop Forever之后,
Coordinate不会触发handoff,导致0点到7点之间的数据无法加载到history节点,导致数据丢失。同时在Coordinator Console界面也能看到对应的task为FAILED。

解决方案:

目前的Bug还没解决,ISSUE为https://github.com/apache/incubator-druid/issues/4137https://github.com/apache/incubator-druid/issues/5868 , 目前是把DropForever修改为Drop Period,如:Load P30D, Drop P31D
history未加载的数据,可在元数据库中将表druid_segments的used字段修改为1即可。

推荐阅读更多精彩内容