Redis哨兵(Sentinel)机制 --高可用的保障

哨兵机制是用来解决主从同步Master宕机后的动态自动主从切换问题。
主要有以下作用

试想如果用来保障redis集群高可用的哨兵是单机的，然后哨兵挂了，redis也挂了，这tm是何等 卧槽？ 所以哨兵也是集群的，所有操作需要进行投票决定。
（1）故障转移时，判断一个master node是宕机了，需要大部分的哨兵都同意才行，涉及到了分布式选举的问题
（2）即使部分哨兵节点挂掉了，哨兵集群还是能正常工作的。

（1）哨兵至少需要3个实例，来保证自己的健壮性
（2）哨兵 + redis主从的部署架构，是不会保证数据零丢失的， 只能保证redis集群的高可用性

我们在多个机器部署哨兵，它们需要共同协作完成一项任务，所以它们就组成了一个「分布式系统」。

在分布式系统领域，多个节点如何就一个问题达成共识的算法，就叫共识算法。

在这个场景下，多个哨兵共同协商，选举出一个都认可的领导者，就是使用共识算法完成的。

这个算法还规定节点的数量必须是奇数个，这样可以保证系统中即使有节点发生了故障，剩余超过「半数」的节点状态正常，依旧可以提供正确的结果，也就是说，这个算法还兼容了存在故障节点的情况。

共识算法在分布式系统领域有很多，例如 Paxos、Raft，哨兵选举领导者这个场景，使用的是 Raft 共识算法 ，因为它足够简单，且易于实现。

sdown和odown两种失败状态

sdown达成的条件很简单，如果一个哨兵 ping 一个master，超过了 is-master-down-after-milliseconds （哨兵配置文件里可配置）指定的毫秒数之后，就主观认为master宕机

sdown到odown转换 的条件很简单，如果一个哨兵在指定时间内，收到了 quorum指定数量的其他哨兵也认为那个master是sdown了，那么就认为是odown了，客观认为master宕机。

哨兵互相之间的发现，是通过 redis的pub/sub系统实现的，每个哨兵都会往 __sentinel__:hello 这个channel里发送一个消息，这时候所有其他哨兵都可以消费到这个消息，并感知到其他的哨兵的存在

每隔两秒钟，每个哨兵都会往自己监控的某个 master+slaves 对应的 __sentinel__:hello channel里发送一个消息，内容是自己的 host、ip和runid 还有对这个master的监控配置

每个哨兵也会去监听自己监控的每个master+slaves对应的 __sentinel__:hello channel，然后去感知到同样在监听这个master+slaves的其他哨兵的存在

每个哨兵还会跟其他哨兵交换对master的监控配置，互相进行监控配置的同步

哨兵会负责自动纠正 slave的一些配置 ，比如如果master宕机了，选举出了新的master，原来slave连接到了一个错误的master上，故障转移之后，那么哨兵会确保它们连接到正确的master上

如果一个master被认为odown了，而且majority哨兵（大多数哨兵数量）都允许了主备切换，那么某个哨兵就会执行主备切换操作，此时首先要选举一个slave来

选举新的主节点会考虑slave的一些信息
（1）跟master断开连接的时长过长的被先过滤掉，然后进行选择
（2）slave优先级
（3）复制offset
（4）run id

首先：如果一个slave跟master断开连接已经超过了down-after-milliseconds的10倍，外加master宕机的时长，那么 该slave就被认为不适合选举为master -- (down-after-milliseconds * 10) + milliseconds_since_master_is_in_SDOWN_state

除去断开连接过长的结点，接下来会对slave进行排序
（1）按照 slave优先级 进行排序， slave priority越低，优先级就越高
（2）如果slave priority相同，那么看 replica offset ， 哪个slave复制了越多的数据，offset越靠后，优先级就越高
（3）如果上面两个条件都相同，那么选择一个 run id比较小的那个slave

主要有一个根本原则就是推断那个slave拥有的数据是最新的；

quorum：达到odwn的条件。
majority：主备切换的条件。

每次一个哨兵要做主备切换，首先需要quorum数量的哨兵认为odown，然后选举出一个哨兵来做切换，这个哨兵还得得到majority哨兵的授权，才能正式执行切换

哨兵会对一套redis master+slave进行监控，有相应的监控的配置， configuration epoch 就是一个 version号，每次切换的version号都必须是唯一的。（configuration epoch 用于从结点比较自己的配置是否是最新的，可看第8点）

执行切换的那个哨兵，会从要切换到的新master（salve->master）那里得到一个configuration epoch,拿到了之后该哨兵就去切换主从结点。

如果第一个选举出的哨兵切换失败了，那么其他哨兵，会等待 failover-timeout 时间，然后 接替继续执行切换 ，此时会 重新获取 一个 新的configuration epoch，作为新的version号

哨兵完成切换之后，会在自己本地更新生成最新的 master配置 ，然后同步给其他的哨兵，就是通过之前说的pub/sub消息机制

这里之前的version号就很重要了，因为各种消息都是通过一个channel去发布和监听的，所以一个哨兵完成一次新的切换之后，新的master配置是跟着新的version号的。

其他的哨兵都是根据版本号的大小来更新自己的master配置的，（ 如果发现自己的version落后于拿到的version就会更新自己的master配置 ）

您可能感兴趣问答

Collapsible

热门标签

热点问答