Redis的几种部署架构

Redis的几种部署架构

单例部署

Redis单例部署,采用单个Redis节点部署架构,没有备用节点实时同步数据,不提供数据持久化和备份策略,适用于数据可靠性要求不高的纯缓存业务场景。

单例部署

这个方案优点是:

  • 架构简单,部署方便;
  • 高性价比:缓存使用时无需备用节点(单实例可用性可以用supervisor或crontab保证),当然为了满足业务的高可用性,也可以牺牲一个备用节点,但同时刻只有一个实例对外提供服务;
  • 高性能

缺点是:

  • 不保证数据的可靠性;
  • 在缓存使用,进程重启后,数据丢失,即使有备用的节点解决高可用性,但是仍然不能解决缓存预热问题,因此不适用于数据可靠性要求高的业务;
  • 高性能受限于单核CPU的处理能力(Redis是单线程机制),CPU为主要瓶颈,所以适合操作命令简单,排序、计算较少的场景。也可以考虑用Memcached替代。

主从部署

配置主从节点

在从节点上执行SLAVEOF命令或者设置slaveof选项,然一个服务器是复制另外一个服务器。

SLAVEOF master_ip master_port

复制过程

  1. 从节点执行slaveof命令
  2. 从节点内部的定时任务发现有主节点信息,开始使用Socket连接主节点
  3. 连接建立成功后,发送ping命令,希望得到pong命令响应,否则重试
  4. 如果主节点设置了权限,那么就需要进行权限验证;如果验证失败,复制终止。
  5. 权限验证通过后,进行数据同步,主节点会把所有数据发送给从节点
  6. 当主节点把已有的数据副本同步给从节点后,就会把在开始复制到复制完成期间的写命令发送给从节点,保证主从节点数据一致性

旧版复制过程(Redis 2.8以前)

Redis的复制功能分为同步(sync)和命令传播(command propagate)两个操作:

  • 同步操作用于将从服务器的数据库状态更新至主服务器当前所处的数据库状态
  • 命令和传播操作则用于在主服务器的状态被修改,导致主从服务器的数据库状态出现不一致时,让主从服务器的数据库重新回到一致状态

同步

当客户端向从服务器发送SLAVEOF命令,要求从服务器复制主服务器时,从服务器首先要执行同步操作,也就是将从服务器的数据库状态更新至主服务器当前所处的数据库状态。

从服务器对主服务器的同步操作需要通过向主服务器发送SYNC命令来完成,以下是SYNC命令的执行步骤:

  1. 从服务器向主服务器发送SYNC命令
  2. 收到SYNC命令的主服务器执行BGSAVE命令,在后台生成一个RDB文件,并使用一个缓冲区记录从现在开始执行的所有写命令
  3. 当主服务器的BGSAVE命令执行完毕时,主服务器会将BGSAVE命令生成的RDB文件发送给从服务器,从服务器接收并载入这个RDB文件,将自己的数据库状态更新至主服务器执行BGSAVE命令时的数据库状态
  4. 主服务器将记录在缓冲区里面的所有写命令发送给从服务器,从服务器执行这些写命令,将自己的数据库状态更新至主服务器数据库当前所处的状态。

命令传播

为了让主从服务器一直保持一致状态,主服务器需要对从服务器执行命令传播操作:主服务器会将自己执行的写命令,也就是造成主从服务器不一致的那条写命令,发送给从服务器执行,当从服务器执行了相同的写命令之后,主从服务器将再一次回到一直状态。

缺陷

这个复制逻辑存在一个比较严重的缺陷。在正常情况下还好,如果从服务器在复制的期间断线了的话,那么在从服务器再次上线的时候,它还是会发送一个SYNC命令,然后又从头开始同步,等同于每次断线后都重新开始一次全量同步。这个操作是不是必要的呢?

新版复制过程(Redis 2.8及以后)

为了解决旧版复制功能在处理断线重复制时的低效问题,Redis从2.8版本开始,使用PYSNC命令代替SYNC命令来执行复制时的同步操作。

PSYNC命令具有完整同步和部分重同步两种模式:

  • 完成冲同步用于处理初次复制的情况:完成重同步的执行步骤和SYNC命令的执行步骤基本一样,它们都是通过让主服务器创建并发送RDB文件,以及向从服务器发送保存在缓冲区里面的写命令来进行同步。
  • 部分冲同步则用户处理断线后重复值情况:当从服务器在断线以后重新连接主服务器时,如果条件允许,主服务器可以将主从服务器连接断开期间执行的写命令发送给从服务器,从服务器只要接受并执行这些命令,就可以将数据库更新至主服务器当前所处的状态。

部分重同步的实现

部分重同步由以下三个部分构成:

  • 主服务器的复制偏移量和从服务器的复制偏移量
  • 主服务器的复制积压缓冲区
  • 服务器的运行ID
复制偏移量

执行复制的双方-主服务器和从服务器会分别维护一个复制偏移量:

  • 主服务器每次想从服务器传播N个字节的数据时,就将自己的复制偏移量的值加上N
  • 从服务器每次收到主服务器传播来的N个字节的数据时,就将自己的复制偏移量的值加上N

通过比对主从服务器的偏移量,可以很容易知道主从服务器是否处于一直状态:

  • 如果主从服务器处于一致状态,那么主从服务器两者的偏移量总是相等的
  • 如果主从服务器两者的偏移量并不相等,说明主从服务器并未处于一致状态
复制积压缓冲区

复制积压缓冲区是由主服务器维护的一个固定长度先进先出的队里,默认大小为1MB。

当主服务器进行命令传播史,它不仅会将写命令发送个所有从服务器,还会降写命令入队到复制积压缓冲区里面。因此,主服务器的复制积压缓冲区里面会保存一部分最近传播的写命令,并且复制积压缓冲区回味队列的每个字节记录相应的复制偏移量。

当从服务器重新链上主服务器时,从服务器会通过PSYNC命令将自己的复制偏移量offset发送个主服务器,主服务器会根据这个复制偏移量来决定对从服务器执行何种同步操作:

  • 如果offset偏移量之后的数据仍然存在于复制积压缓冲区里面,那么主服务器将对从服务器执行部分重同步操作
  • 如果offset偏移量之后的数据已经不存在与复制积压缓冲区内了,那么主服务器将对从服务器执行完整重同步操作
运行ID

每个Redis服务器,不管是主服务器还是从服务器,都会在启动的时候自动生成一个40个十六进制字符组成的随机ID。

当从服务器对主服务器进行初次复制时,主服务器会将自己的运行ID传送给从服务器,而从服务器则会将这个运行ID保存起来。当从服务器断线并重新链上一个主服务器时,从服务器将向当前连接的主服务器发送之前保存的运行ID:

  • 如果从服务器保存的运行ID和当前连接的主服务器的运行ID相同,主服务器可以继续尝试执行部分重同步操作
  • 如果不同,主服务器将对从服务器执行完全重同步操作。

优缺点:

优点:

  • 采用主备架构,可以在主库出现故障的时候自动进行主备切换,从库升级为主库提供服务;另一方面,开启数据持久化功能和配置合理的备份策略,能有效的解决数据误操作和数据异常丢失的问题;
  • 读写分离策略:从节点可以扩展主库节点的读能力,有效应对大并发量的读操作。

缺点:

  • 故障恢复复杂,如果没有RedisHA系统(需要开发),当主库节点出现故障时,需要手动将一个从节点晋升为主节点,同时需要通知业务方变更配置,并且需要让其它从库节点去复制新主库节点,整个过程需要人为干预,比较繁琐;

Redis Sentinel

Redis Sentinel是社区版本推出的原生高可用解决方案,其部署架构主要包括两部分:Redis Sentinel集群和Redis数据集群。

其中Redis Sentinel集群是由若干Sentinel节点组成的分布式集群,可以实现故障发现、故障自动转移、配置中心和客户端通知。Redis Sentinel的节点数量要满足2n+1(n>=1)的奇数个。

Redis sentinel集群部署1

Redis sentinel集群部署2

优缺点:

优点:

  • Redis Sentinel集群部署简单;
  • 能够解决Redis主从模式下的高可用切换问题;
  • 很方便实现Redis数据节点的线形扩展,轻松突破Redis自身单线程瓶颈,可极大满足Redis大容量或高性能的业务需求;
  • 可以实现一套Sentinel监控一组Redis数据节点或多组数据节点。

缺点:

  • 部署相对Redis主从模式要复杂一些,原理理解更繁琐;
  • 资源浪费,Redis数据节点中slave节点作为备份节点不提供服务;
  • Redis Sentinel主要是针对Redis数据节点中的主节点的高可用切换,对Redis的数据节点做失败判定分为主观下线和客观下线两种,对于Redis的从节点有对节点做主观下线操作,并不执行故障转移。
  • 不能解决读写分离问题,实现起来相对复杂。

Redis Cluster

Redis Cluster是社区版推出的Redis分布式集群解决方案,主要解决Redis分布式方面的需求,比如,当遇到单机内存,并发和流量等瓶颈的时候,Redis Cluster能起到很好的负载均衡的目的。

Redis Cluster集群节点最小配置6个节点以上(3主3从),其中主节点提供读写操作,从节点作为备用节点,不提供请求,只作为故障转移使用。

Redis Cluster采用虚拟槽分区,所有的键根据哈希函数映射到0~16383个整数槽内,每个节点负责维护一部分槽以及槽所印映射的键值数据。

Redis Cluster部署

优缺点

优点:

  • 无中心架构;
  • 数据按照slot存储分布在多个节点,节点间数据共享,可动态调整数据分布;
  • 可扩展性:可线性扩展到1000多个节点,节点可动态添加或删除;
  • 高可用性:部分节点不可用时,集群仍可用。通过增加Slave做standby数据副本,能够实现故障自动failover,节点之间通过gossip协议交换状态信息,用投票机制完成Slave到Master的角色提升;
  • 降低运维成本,提高系统的扩展性和可用性。

缺点:

  • Client实现复杂,驱动要求实现Smart Client,缓存slots mapping信息并及时更新,提高了开发难度,客户端的不成熟影响业务的稳定性。目前仅JedisCluster相对成熟,异常处理部分还不完善,比如常见的“max redirect exception”。

  • 节点会因为某些原因发生阻塞(阻塞时间大于clutser-node-timeout),被判断下线,这种failover是没有必要的。

  • 数据通过异步复制,不保证数据的强一致性。

  • 多个业务使用同一套集群时,无法根据统计区分冷热数据,资源隔离性较差,容易出现相互影响的情况。

  • Slave在集群中充当“冷备”,不能缓解读压力,当然可以通过SDK的合理设计来提高Slave资源的利用率。

  • Key批量操作限制,如使用mset、mget目前只支持具有相同slot值的Key执行批量操作。对于映射为不同slot值的Key由于Keys不支持跨slot查询,所以执行mset、mget、sunion等操作支持不友好。

  • Key事务操作支持有限,只支持多key在同一节点上的事务操作,当多个Key分布于不同的节点上时无法使用事务功能。

  • Key作为数据分区的最小粒度,不能将一个很大的键值对象如hash、list等映射到不同的节点。

  • 不支持多数据库空间,单机下的redis可以支持到16个数据库,集群模式下只能使用1个数据库空间,即db 0。

  • 复制结构只支持一层,从节点只能复制主节点,不支持嵌套树状复制结构。

  • 避免产生hot-key,导致主库节点成为系统的短板。

  • 避免产生big-key,导致网卡撑爆、慢查询等。

  • 重试时间应该大于cluster-node-time时间。

  • Redis Cluster不建议使用pipeline和multi-keys操作,减少max redirect产生的场景。

参考资料

这可能是目前最全的Redis高可用技术解决方案总结

Redis设计与实现-黄建宏

0%