Kafka 进阶：Internal & Reliable

1. Kafka internal

1.1 Request processing

Kafka 的 request 分为：

produce request
fetch request
metadata request
and so on

1.1.1 Metadata request

kafka client 会定期向任意一个 broker（所有的 brokers 都拥有 partition metadata）发起 metadata request 来获取到每个 topic partition leader 的位置，并缓存在本地（有定期的缓存更新机制），从而在需要发送 produce or fetch requests 时正确的定位 broker 的位置。

如果缓存更新延迟，导致错误的 produce request 发到非 leader partition 的 broker 上，该 broker 会直接返回 error，而不是像 ElasticSearch 那样内部转发。

client 收到 produce/fetch response 的 "not a leader" error 后会 refresh metadata。

1.1.2 Produce request

produce request 的过程之前也聊过了，一个重要配置是 acks。

1.1.3 Fetch request

fetch request 由 consumer 或者 follower replicas 发起。

client 发起人request:

通知 broker 自己要 poll 的 messages 的 topics, partitions & offsets
可以设置 messages 数量的上限 & 下限，上限是为了防止 OOM，下限是为了减少网络次数。

broker delaying response.jpg
可以设置 timeout，如果 timeout 时间内，messages 量不够，也直接返回目前可以返回的 messages

consumers 只能 poll 到写入所有 replicas 的 messages，这也是为了尽量保证 consistency。
这就带来一个问题，replication 是有 lag 的，会导致消息无法第一时间到达 consumers。
// todo : This delay is limited to replica.lag.time.max.ms—the amount of time a replica can be delayed in replicating new messages while still being considered in-sync.

broker 会校验 request 的正确性，包括 leader partition, offset。
broker 使用 zero-copy method 将 messages 发送给 client，大大增加了性能。
broker 处理 fetch request 的方式和处理 produce request 非常相似。

1.1.4 OffsetCommitRequest

过去，kafka 使用 zk 维护 consumers 的 offsets。当 consumer 启动时，向 zk 发请求获取要读的 partition 以及 offset。
但是因为频繁的读写 offsets 对 zk 的压力较大，所以推荐通过 Kafka broker 直接管理，现在 kafka 通过创建一个单独的特殊的 __consumer_offsets topic 来维护 offsets。

1.2 Physical Storage

我们会将 partition 在物理层面拆分成 segments。默认情况下，每个 segment 包含 1GB 的数据／一周的数据。当 broker 往 partition 中写数据时，如果当前 segment 的限制到了，会关闭该文件 & 创建一个新的。当前正在使用的 segment 叫做 active segment。每个 segment 会单独存储在 *.log 的物理文件中。

1.2.1 Indexes

由于 Kafka 支持 consumers 从任意可用的 offset 处读取 message，所以需要能快速的定位 message 所在的 segment 位置，Kafka 为每个 partition 创建有 index，index 维护从 offset 到 segment file 及 file 中的位置的映射。

index 也按照 segment 来拆分。

1.2.2 Compact

有一种场景，只保存相同 key 的最新的 message，就用到了 compact，将老旧的 message delete 掉。本质上也是一种 retention policy，技术细节这里不做介绍了。

这部分内容主要整理总结自《Kafka The Definitive Guide》 Chapter 6: Reliable Data Delivery

2. Reliable

Kafka 的 components 有 producer, broker, consumer，整体服务的 reliable(可靠性) 依赖每一个环节的 reliable，需要 Linux administrators, network and storage administrators, and the application developers 共同努力。

最常为人知的 Reliability Guarantees 是 ACID，它只要用在关系型数据库中。

2.1 Reliability Guarantees

Kafka 提供的基本的 guarantee 包括：

单个 partition 中 messages 的 order
produce 只有 messages 被写到所有的 replicas 时，该 messages 才被认为 "committed"
- acks: 0, producer 通过网络成功发出去就不管了
- acks: 1, producer 等到 leader 收到消息
- acks: all, producer 等到 message committed
messages 只要 committed，就不会丢失，因为已经同步到所有 replicas
consumers 只能读到 committed 的 messages

但是这种 guarantee 只能保证基本的 reliable，并不能保证 fully reliable。
系统中存在着 trade-offs，需要在 reliable 和 availability, high throughput, low latency, hardware costs 间做 trade-offs。

2.2 Replication

replication 是 kafka reliability guarantee 的核心。通过做 replication 来对抗 broker 的 crash。

如何判断某个 replica 是处于 in-sync 状态呢：

不言而喻 leader 是 in-sync 的
与 zk 有活跃的 session，定期(默认 6s)给 zk 发送 heartbeat
在过去10秒（可配置）内从 leader 那里 fetch messages
在过去10秒内获取 leader 的最新消息。也就是说，追随者仍然从领导者那里得到消息是不够的; 它必须几乎没有滞后。

可以看出：

in-sync 是指 replica 处在活跃的持续同步数据的状态，但不代表 leader 的数据已经全部同步到 replica 中。即使 replica 处在 in-sync 状态，消息数据本身的同步也是有延迟的。
只要在一个时间周期内有同步操作，replica 就被认为是 in-sync 的，这会导致误判。如 replica 向 zk, leader 活跃过状态后，立马 crash(out of sync)，但由于还没到下次同步状态的时间，此时 leader 会误以为此 replica 还是 in-sync 的。

什么情况下可能导致 replicas out-of-sync 呢：

broker 在某些时间做 garbage collection，导致进程 pause 一段时间，此时会丢掉和 zk, leader 的链接，被认为 out-of-sync，在 gc 完后，重新链接 leader & zk，恢复回 in-sync 状态
replica 处在的 broker crash/ network partition

2.3 Broker Configuration

对于 reliable 的配置，可以配置在 broker level，也可以配置在 topic level。

2.3.1 Replication Factor

replication.factor 即副本个数，这个参数在 topic 创建后，也可以手动修改的。
replication.factor 越大，会有越高的 reliability，但是会带来更大的备份延迟时间。

不同的 replicas 建议在不同的 brokers 上，而存有 partition replicas 的 broker 尽量在不同的 rack 上。

topic level 的配置是 replication.factor
broker level 的配置是 default.replication.factor(针对自动创建的 topic)

2.3.2 Unclean Leader Election

clean leader election 是指当 leader unavailable 时，kafka 会自动从 in-sync 的 replicas 中选举一个作为新 leader。所有 committed data(committed 是指 message 已经备份到所有 in-sync 的 replicas 中) 都不会丢失。

但是，当 leader unavailable 时，完全没有 in-sync replicas 存在时，该怎么办？参数 unclean.leader.election.enable 决定了这种情况发生时的处理办法，默认配置为 true。

假设存在 3 个 replicas，如果 2 个 followers 全变为 unavailable，leader 会继续接受 write request, followers 变为 out-of-sync。现在 leader unavailable，之前 unavailable 的 out-of-sync 的 followers 恢复后，系统如何抉择：

如果不允许 out-of-sync 的 replica 参与 election 变成新 leader，那么 partition 只能处于 unavailable 状态，直到之前的 leader 恢复。这种配置适合金融等强数据一致性问题的场景。
如果允许 out-of-sync 的 replica 变成新 leader，可能会丢失一部分写在老 leader 中的数据，可能引起不同 consumer group 读到的数据不一致。这种配置适合对数据一致性不那么敏感的场景。

可以看出，这也是在 consistency 和 availability之间做选择，符合 CAP 理论。默认为 true，说明 Kafka 倾向于选择 AP & weak consistency。

Kafka 的数据同步模式很像 Master / Slave Async。

2.3.3 Minimum In-Sync Replicas

min.insync.replicas 这个参数的意思有些晦涩，我读了两三遍才算理解。它是指 replicas 中，至少有几个 replicas 处于 in-sync 状态，leader 才会执行写请求，否则拒绝写。而不是 message 至少写入了几个 replicas。

假设有 3 个 replicas(leader 包含在内)，如果 min.insync.replicas = 2，则当 producer 写 messages 时，至少要有两个 replicas 处于 in-sync 状态，leader 才会执行写入操作，否则返回 producer NotEnoughReplicasException。

所以该参数配置的越高，则 messages 越可能成功写入到更多的副本。如果该参数设置为 1，则 leader 不会关心其他 replicas 是否处于及时更新数据的状态，只要 leader 自身写没问题，就写入了，而其他 replicas 可能过很长时间才能同步到数据，这就增加了 leader unavailable 时，数据丢失的风险。

2.4 Using Producers in a Reliable System

上面说完了如何配置 broker 来尽量保证 reliable，但是如果 producer 配置不当，也会导致丢数据的情况发生。

2.4.1 ACK

考虑如下场景，partition 有 3 个 replicas：

acks=0。producer 向 leader 发送请求时，如果 serialized error 或者 network fail 时，会返回 error，能成功发出去就认为写成功，但是 leader & replicas 在过程中出任何问题导致数据没写成功，都会造成数据丢失。
acks＝1。当 producer 向 leader 写消息，leader 写成功，返回 producer success，之后在数据还没同步到 replicas 时 crash，replicas 中的一个晋升为 leader。此时，producer 认为数据写成功了，但是 leader 却把这条数据丢失了。
acks=all。可以规避第一种情况，但是，当 producer 向 leader 写消息时，leader 宕机了 & 新的 leader 还没选出来，producer 会收到 “Leader not Available” 。如果 producer 没有处理好异常，没有重试直到写成功，这条消息也会丢失。但是如果做好 error handle，是可以保证数据不丢失的。

单独 acks 的配置不能完全保证数据的成功存储。对于 producer 来说，为了保证 reliable，需要：

Use the correct acks configuration to match reliability requirements
Handle errors correctly both in configuration and in code

2.4.2 Retries

当有 error 发生时，需要进行 handle。error 分为两种：

Retriable errors: KafkaProducer 针对这种异常，可以自动发起重试。全部逻辑隐藏在 send 方法中，开发人员不需要人工干预
- a connection error can be resolved because the connection may get reestablished.
- A “no leader” error can be resolved when a new leader is elected for the partition.
Nonretriable errors: 这种错误没法通过重试修复，会直接抛异常，需要开发人员在代码层面处理
- message size too large error
- serialization errors

retry 也有风险：

可能造成消息被重复写入多次。考虑以下场景：broker 成功写消息，但是由于网络原因，没及时返回 ack，producer 认为消息创建失败，发起 retry，会导致消息写入两次。当然了，我们可以在 consumer 端解决这个问题，将 consumer 做成 idempotent 幂等的接口。
producer 耗尽了 retry 次数

这些处理方式都需要根据业务需求，做出恰当的选择。

2.5 Using Consumers in a Reliable System

由于 Kafka broker 内部已经保证了返回给 consumer 的都是 committed data（保存到全部 in-sync replicas 中），所以 consumer 需要处理的事情就简单多了。但是 consumer 还需要能够正确的处理跟踪消息 offset & 处理消息，保证每次获取到的 message 的正确性，既不重复，也不缺失。

consumer 中有 4 个参数可以影响 reliable:

group.id: 之前已经有过详细介绍
auto.offset.reset: 控制当 consumer 提交的 offset 不存在，或者 consumer 刚启动 & offset topic 中没有记录过 offset 时的处理方法
- earliest: 可以导致重复处理消息
- latest: 可能导致遗漏处理消息
enable.auto.commit: 这个配置很关键，是否让 consumer 自动提交 offset，或者开发人员在自己的代码中提交
- true: 好处，不需要开发人员写代码干预。坏处：可控性差，由于是周期性提交 offset，可能会重复处理消息。
- false: 好处，灵活控制提交频率
auto.com mit.interval.ms: 如果 enable.auto.commit=true，这个配置自动提交的间隔周期，默认是 5s，周期越短，越能减少意外发生时，重复处理的消息数

2.5.1 Consumer retry

有时，当 consumer poll 到 messages 后，处理 messages 时会发生错误，如短暂的写入 db 失败，但是又不想丢失消息，这时可以：

存储消息到某个 buffer(本地 queue, redis, db...) 中，consumer 继续提交最新的 offset
存储消息到 kafka 中单独为这种情况创建的 topic 中，有专门的 consumer 来从该 topic 中消费

最后编辑于：2018.07.14 00:35:06

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 156,907评论 4赞 360
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 66,546评论 1赞 289
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 106,705评论 0赞 238
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,624评论 0赞 203
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 51,940评论 3赞 285
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,371评论 1赞 210
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,672评论 2赞 310
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,396评论 0赞 195
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,069评论 1赞 238
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,350评论 2赞 242
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,876评论 1赞 256
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,243评论 2赞 251
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,847评论 3赞 231
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,004评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,755评论 0赞 192
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,378评论 2赞 269
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,266评论 2赞 259