etcd 3.2.7源码解析-Raft实现(臆想篇)

这篇文章实际上并不是我在阅读etcd中跟Raft相关的部分之后得出的，而是我在读了ZooKeeper中Zab的实现以及重新读<<IN Search of an Understandable Consensus Algorithm(Extended Version)>>这篇论文而得到的．虽然可能跟实际的实现有一点差距，但是应该不大．后面我会读etcd源码中的Raft部分，然后再写一篇文章介绍．

文末的参考资料中，有一个动画版的对Raft算法的解析，各位可以看一下．当然，很多细节方面的内容，它并没有说的很明确．

Raft算法中，各个Server具有的属性

currentTerm：这个是Server当前的term．如果Server处于Follower状态，则其表示的是Server认为的leader的当前的term．
votedFor：表示Server为谁投过票，也就是Server认为谁更有资格成为Leader．在一个term中，只能给一个Server投票．
log[]：log entries．每个Log Entry都包含状态机要执行的命令，以及其term．
commitIndex：已知的要被提交的Log的最大的index
lastApplied：已应用Log的index

Leader还有两个特殊的属性：

nextIndex[]：代表下次要发送给各个Server的log entry．开始时是Leader的最后一个log的index + 1
matchIndex[]：代表Leader的log和各个Server的log匹配的位置

Raft算法的三个阶段

跟Zab算法一样，可以将Raft算法分成三个阶段，分别是Election，Synchronization，Broadcast．

Election阶段

在这个阶段，顾名思义，就是选择一个Leader．

那么什么时候需要选择一个Leader呢？有这么三种情况：

当集群刚开始启动时
当一台新的Server想要加入到集群时
当一台Server经过分区或者故障后，想要重新加入集群时

下面我们会拿第一种情况，即集群刚开始启动时举例说明：

Server会先进入到Follower状态，并设置一个超时时间
如果过了超时时间，那么Server进入到Candidate状态
- 增加Server的currentTerm
- 为它自己投票
- 设置选举超时时间
- 给集群中的其他机器发送RequestVote RPC
- 如果从半数以上的Servers中收到Ok，则进入到Leader状态
- 如果收到来自Leader的AppendEntries RPC，则进入到Follower状态
- 如果收到其他Server的RequestVote RPC，并且当前Server的voteFor为null或者那台Server，并且那台Server的log比这台Server的log更新，则为那台Server投票
- 如果收到的RequestVote RPC的响应中，term比当前Server的term大，则重置当前Server的term为来自RequestVote RPC的term，并进入到Follower状态
- 如果在过了选举超时时间之后，还未确认自己就是Leader或者来自Leader的Append Entries RPC，则将当前Server的term+1并开始新的一轮选举
如果在超时时间内收到了来自Candidate的RequestVote RPC：
- 如果RequestVote RPC中的term比当前Server的更大，那么更新当前Server的term．同时，判断一下voteFor是否为null或者发送RequestVote RPC的Server，以及Candidate的log是否比当前Server的更新，如果是，那么就返回true和当前Server的term．同时，在当前term中，不能再为其他具有相同term的Server投票．
- 如果RequestVote RPC中的term没有当前Server的大，那么返回false以及当前的term
如果在超时时间内收到了来自Leader的AppendEntries RPC：
- 如果leader的term比当前Server的term大，那么就重置当前Server的term
- 如果leader的term比当前Server的term小，那么返回false以及当前Server的term
- 如果当前Server的log和Leader的log在prevLogIndex处的日志冲突，删除当前Server对应位置以及往后位置的log，并返回false
- 如果Leader包含当前Server没有的log，那么就将这些Log追加到当前Server的log的末尾
- 如果leaderCommit > commitIndex，则更新commitIndex为min(leaderCommit，当前Server的最后一个log entry的位置)

Synchronization阶段

在一个Server成为Leader之后，它需要将其日志同步给Follower．

Leader会做下面的操作，将其log同步给Follower：

向Follower发送AppendEntries RPC，其中prevLogIndex为其最后一条log的index，prevLogTerm为其最后一条log的term
如果收到的AppendEntries RPC的响应为true，则更新nextIndex[]和matchIndex
如果收到的AppendEntries RPC的响应为false并且其中的term比Leader当前的term大，那么更新Leader的term并进入到Follower状态
否则的话，如果只是响应为false，那么就减小nextIndex[]的值并且重试

Broadcast阶段

在这一阶段，Leader将接收客户端请求并应用到状态机.

Leader会这样做：

接收来自Client的请求，将其封装成一个log，保存到log[]，并且将其发送给Follower
Follower在收到AppendEntries RPC之后，会将其添加到本地log[]并应用到状态机，然后给Leader回复Ok．
Leader在收到半数以上的Follower的OK之后，就将这个log应用到本地状态机，更新commitIndex以及lastApplied，同时给Client回复OK.

AppendEntries RPC和RequestVote RPC

上面我们反复提到这两种RPC，却并没有深入介绍．这里介绍一下这两种RPC的请求数据以及响应数据，关于Leader和Follower以及Candidate对于这两种RPC会作何反应，上面已经介绍过．

AppendEntries RPC

请求数据：

term：leader的term
leaderId：有了这个leaderId，follower才能接收到客户端请求时，将其重定向到leader
prevLogIndex：要发送给follower的log entry的index
prevLogTerm：要发送给follower的log entry的term
entries[]：要存储的log entries

响应数据：

term：Follower或Candidate的当前的term
success：是否更新成功，当其为true时，表明Follower已经成功的将log entries保存了下来

RequestVote RPC

请求数据：

term：Candidate的term
candidateId：Candidate的Id
lastLogIndex：Candidate的最后一个log entry的index
lastLogTerm：Candidate的最后一个log entry的term

响应数据：

term：接受者当前的term
voteGranted：接受者是否为这个Candidate投票．如果为true，则表明此接受者愿意为这个Candidate投票．

实例

上面说了那么多，都是比较理论的东西，下面我们来讨论几个场景，以及一些难题．

当一个集群刚刚启动时，此时集群中的Server均处于Follower状态．此时它们都接收不到来自Leader的Append Entries RPC，因为此时集群中压根就没有Leader．

Server在初始化时，除了会初始化为Follower状态，还会为其设置一个固定的超时时间．

假设集群中有三台Server，分别是Server A，Server B以及Server C，它们的超时时间均为300ms．

在这300ms过去后，Server A，B和C均进入到Candidate状态，此时Server A，B和C会获得一个随机分配的选举超时时间，假设这三台Server获得的超时时间为50ms,100ms,150ms．

Server A, B和C在第一轮选举中，分别为自己投票．由于在每个term中，一台Server只能投一次票，所以在第一轮选举中，无Server成为Leader．

50ms过去以后，Server A会将它的term+1，并通知其他Server为自己投票，Server B和C收到Server A的RequestVote RPC以后，由于开始时他们的term都相同，此时RequestVote RPC中的term更大，所以Server B和C会更新自己的term为从RequestVote RPC中收到的term，然后比较一下Server A中的log是否比自己的新，如果是，则为Server A投票．

那么Server A的log在满足什么条件下比其他Server的log更新呢？

①Server A中的log的term比其他Server的term更大
②Server A中log的term跟其他Server的log的term相同，但是Server A中log的index更大，即Server A的log更长

在这两种情况下，我们认为Server A的log比其他Server的log更新．

这两条还可以保证选出的leader一定包含全部已提交的log．

为什么呢？

因为当一台Server收到半数以上的Server的赞同时，才会被选为leader，而leader提交一个log时，也需要半数以上Server的同意．所以它们之间至少有一台Server相交．

注意已提交Log和已应用的Log的区别．

当Leader收到来自客户端的请求时，它会将其添加到本地log[]中，然后发送给全部Followers，当收到半数以上的Followers回复Ok的时候，它会提交这个log entry，这时Log称为已提交Log，然后，它会回复给客户端一个Ok，同时，将这个log entry应用到本地状态机，然后在下次给Follower发送AppendEntries RPC的时候，将其commitIndex发送给Followers，Follower在收到AppendEntries RPC的时候，会将commitIndex位置上及之前位置上的log entry应用到本地状态机．此时log entry被称为已应用Log．

我们可以看到，已应用Log就是已经成功应用到集群的Log，而已提交Log则是Leader收到半数以上Followers的回复但是并没有被应用到集群上的Log．

Leader并不会记录是否多半的Followers已成功应用此Log，实际上，这也完全没有意义，因为已经告诉Client成功了．所以，如果一个log已提交，它就必须应用到Followers．

所以，如果leader崩溃了，新选出的Leader必须将这些已提交log应用到集群中．

那么新的leader要在何时应用上一个leader所在的term的log呢？

最简单也最容易想到的就是，在新的leader选择出来之后，计算上个term留下的log在集群中的数量，如果过半则认为它已经被应用到集群了呗．

但是在Raft论文中，专门强调了这样做是不行的，有数据被覆盖的风险．

在解释这一点之前，我们需要明白，Raft必须满足下面的条件：

已经给Client请求成功的响应的log，必须被应用到状态机中．

记住这一点，我们再来解释为何不能通过计算上个term留下的log在集群中的数量来判断它是否已经应用．

这幅图是Raft论文中用来解释这样做不行的原因的例子．

在这幅图中，每个方框代表一个Log Entry，方框中的数字代表Log Entry的term，最上面的数字表示的是Log Entry的index．

在(a)时刻，S1是Leader，它的term是2，此时，它接受了一个客户端请求并成功发送给了S2，S2也保存在logs[]中了．

在(b)时刻，S1崩溃了，S5通过给S3和S4发送RequestVoteRPC并收到了成功的回复，成为了Leader，其term为3．此时S5收到了客户端请求并加到了log中，但是还未来得及向其他Server发送就崩溃了．

在(c)时刻，S5崩溃以后，S3和S4由于选举超时时间还未到，还是Candidate状态(其实处于Follower状态也无妨)，此时S1再次选举成为Leader，在S1的Synchronization阶段，会将index为2以及term为2的Log Entry复制到S2和S3，加上S1正好达到了半数以上的条件，所以这个log就被认为成功应用到了集群．

在(d)时刻，如果S1再次崩溃了，则S5必定会成为leader．那么此时，它会在Synchronization阶段，用index为2而term为3的entry覆盖掉s2,S3,S4上index为2，term为2的entry．

我们可以看到，S1认为已被集群应用的log却被S5覆盖掉了．

那么如何解决这个问题呢？

我们首先考虑一下这个问题产生的原因，就是因为在(d)时刻，S5的log确实比S2，S3，S4的更新，所以才能成为Leader并将Log覆盖掉．

那么，我们如果能够阻止S5在(d)时刻成为leader，即让其他的Server的Log比S5的更新，不就可以防止这种情况了吗？

在Raft论文中，便是通过这种方式解决的．

即，Server在将当前term的entry应用到状态机时，才顺带着应用之前的term的entry，正如前面那幅图中(e)时刻所做的那样．

其实这里数据是否被覆盖，我感觉没有那么重要，因为我们前面介绍过，选举得出的Leader一定是含有全部已提交Log的Server，所以，即使被覆盖，也只是覆盖一些未提交的log，也就是并未给Client回复Ok的log．而且，在实现中，当一台Leader宕机后，它跟客户端之间的连接肯定就会被关闭了，客户端收到的肯定是一个错误．所以，客户端如果需要的话，肯定会再次发起请求．

那么，这样的话，又有一个难点，即对于非幂等性的操作，如果Leader已经成功引用到集群，却对Client响应了一个错误，客户端再次发送一个请求，该怎么办呢？

对于幂等性的操作，这里并不重要，在发送一次就再发送一次呗，无所谓．

而对于非幂等性的操作，再发送一次就可能造成数据错误．

那么如何处理这个问题呢？

Raft论文中并没有给出明确的方案，但我在其他文章中看到过一个方案．

我们可以在客户端动一些手脚，客户端每次发送请求时，都为这个请求生成一个唯一的ID，Leader在收到请求之后，同样在Broadcast阶段将这个ID随着AppendEntries RPC发送给Followers．当客户端重试时，还是发送这个ID，Leader检查一下，如果发现该ID的请求已被处理过，则直接返回给客户端OK.

由于这个ID是随着AppendEntries RPC发送给Followers的，所以Leader上的ID的记录必然能够正确地反映出此集群已经处理的请求．

这样便能解决上面提到的非幂等性操作的问题．

总结

我们可以看到，Raft实现的是强一致性，因为全部的请求，不管是读请求还是写请求，都是先到Leader的．

同时，它也实现了CAP中的CP．

其实这些都是可以打破的．比如说，我们不想要强一致性，而只想要最终一致性，那么我们完全可以让Follower接收客户端的读请求，而不是重定向给Leader．如果我们想要实现AP，那么完全可以让分区的Server继续接受读请求．

参考资料

Raft动画解释
 Raft算法解析-乒乓狂魔

最后编辑于：2018.06.23 09:07:57

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 157,198评论 4赞 359
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 66,663评论 1赞 290
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 106,985评论 0赞 237
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,673评论 0赞 202
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 51,994评论 3赞 285
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,399评论 1赞 211
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,717评论 2赞 310
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,407评论 0赞 194
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,112评论 1赞 239
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,371评论 2赞 241
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,891评论 1赞 256
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,255评论 2赞 250
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,881评论 3赞 233
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,010评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,764评论 0赞 192
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,412评论 2赞 269
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,299评论 2赞 260