前言

时间回到 2011 年 4 月,当时我正在编写一个用户关系模块,这个模块需要实现一个“共同关注”功能,用于计算出两个用户关注了哪些相同的用户。

举个例子,假设 huangz 关注了 peter 、tom 、jack 三个用户,而 john 关注了 peter 、tom 、bob 、david 四个用户,那么当 huangz 访问 john 的页面时,共同关注功能就会计算并打印出类似“你跟 john 都关注了 peter 和 tom ”这样的信息。

从集合计算的角度来看,共同关注功能本质上就是计算两个用户关注集合的交集,因为交集这个概念是如此的常见,所以我很自然地认为共同关注这个功能可以很容易地实现,但现实却给了我当头一棒:我所使用的关系数据库并不直接支持交集计算操作,要计算两个集合的交集,除了需要对两个数据表执行合并(join)操作之外,还需要对合并的结果执行去重复(distinct)操作,最终导致交集操作的实现变得异常复杂。

是否存在直接支持集合操作的数据库呢?带着这个疑问,我在搜索引擎上面进行查找,并最终发现了 Redis 。在我看来,Redis 正是我想要找的那种数据库 ——它内置了集合数据类型,并支持对集合执行交集、并集、差集等集合计算操作,其中的交集计算操作可以直接用于实现我想要的共同关注功能。

得益于 Redis 本身的简单性,以及 Redis 手册的详尽和完善,我很快学会了怎样使用 Redis 的集合数据类型,并用它重新实现了整个用户关系模块:重写之后的关系模块不仅代码量更少,速度更快,更重要的是,之前需要使用一段甚至一大段 SQL 查询才能实现的功能,现在只需要调用一两个 Redis 命令就能够实现了,整个模块的可读性得到了极大的提高。

自此之后,我开始在越来越多的项目里面使用 Redis ,与此同时,我对 Redis 的内部实现也越来越感兴趣,一些问题开始频繁地出现在我的脑海中,比如说:

  • Redis 的五种数据类型分别是由什么数据结构实现的?
  • Redis 的字符串数据类型既可以储存字符串(比如 "hello world" ),又可以储存整数和浮点数(比如 100863.14 ),甚至是二进制位(使用 SETBIT 等命令),Redis 在内部是怎样储存这些不同的值的?
  • Redis 的一部分命令只能对特定数据类型执行(比如 APPEND 只能对字符串执行, HSET 只能对哈希表执行),而另一部分命令却可以对所有数据类型执行(比如 DEL 、 TYPE 和 EXPIRE ),不同的命令在执行时是如何进行类型检查的?Redis 在内部是否实现了一个类型系统?
  • Redis 的数据库是怎样储存各种不同数据类型的键值对的?数据库里面的过期键又是怎样实现自动删除的?
  • 除了数据库之外,Redis 还拥有发布与订阅、脚本、事务等特性,这些特性又是如何实现的?
  • Redis 使用什么模型或者模式来处理客户端的命令请求?一条命令请求从发送到返回需要经过什么步骤?

为了找到这些问题的答案,我再次在搜索引擎上面进行查找,可惜的是这次搜索并没有多少收获:Redis 还是一个非常年轻的软件,对它的最好介绍就是官方网站上面的文档,但是这些文档主要关注的是怎样使用 Redis ,而不是介绍 Redis 的内部实现。另外,网上虽然有一些博客文章对 Redis 的内部实现进行了介绍,但这些文章要么并不齐全(只介绍了 Redis 中的少数几个特性),要么就写得过于简单(只是一些概述性的文章),要么关注的就是旧版本(比如 2.0 、 2.2 或者 2.4 ,而当时的最新版已经是 2.6 了)。

综合来看,详细而且完整地介绍 Redis 内部实现的资料,无论是外文还是中文都不存在。意识到这一点之后,我决定自己动手注释 Redis 的源代码,从中寻找问题的答案,并通过写博客的方式与其他 Redis 用户分享我的发现。在积累了七八篇 Redis 源代码注释文章之后,我想如果能将这些博文汇集成书的话,那一定会非常有趣,并且我自己也会从中学到很多知识。于是我在 2012 年年末开始创作《Redis 设计与实现》,并最终于 2013 年 3 月 8 日在互联网发布了本书的第一版。

尽管《Redis 设计与实现》第一版顺利发布了,但在我的心目中,这个第一版还是有很多不完善的地方:

  • 比如说,因为第一版是我边注释 Redis 源代码边写的,如果有足够时间让我先完整地注释一遍 Redis 的源代码,然后再进行写作的话,那么书本在内容方面应该会更为全面。
  • 又比如说,第一版只介绍了 Redis 的内部机制和单机特性,但并没有介绍任何 Redis 多机特性(复制、Sentinel 和集群),而我认为只有将关于多机特性的介绍也包含进来,这本《Redis 设计与实现》才算是真正的完成了。

就在我考虑应该何时编写新版来修复这些缺陷的时候,机械工业出版社的吴怡编辑来信询问我是否有兴趣正式地出版《Redis 设计与实现》,能够正式地出版自己写的书一直是我梦寐以求的事情,我找不到任何拒绝这一邀请的理由,就这样,在《Redis 设计与实现》第一版发布几天之后,新版《Redis 设计与实现》的写作也马不停蹄地开始了。

从 2013 年 3 月到 2014 年 1 月这 11 个月间,我重新注释了 Redis 在 unstable 分支的源代码(也即是现在的 Redis 3.0 源代码),重写了《Redis 设计与实现》第一版已有的所有章节,并向书中添加了关于二进制位操作(bitop)、排序、复制、Sentinel 和集群等主题的新章节,最终,这本新版的《Redis 设计与实现》不仅介绍了 Redis 的内部机制(比如数据库实现、类型系统、事件模型),而且还介绍了大部分 Redis 单机特性(比如事务、持久化、 Lua 脚本、排序、二进制位操作),以及所有 Redis 多机特性(复制、Sentinel 和集群)。

虽然作者创作本书的初衷只是为了满足自己的好奇心,但了解 Redis 内部实现的好处并不仅仅在于满足好奇心:通过了解 Redis 的内部实现,理解每一个特性和命令背后的运作机制,可以帮助我们更高效地使用 Redis ,避开那些可能会引起性能问题的陷阱。我衷心希望这本新版《Redis 设计与实现》能够帮助读者更好地了解 Redis ,并成为更优秀的 Redis 使用者。

本书的第一版获得了很多热心读者的反馈,这本新版的很多改进也来源于读者们的意见和建议,因此我将继续在 www.RedisBook.com 设置 disqus 论坛(可以不注册直接发贴),欢迎读者随时就这本新版《Redis 设计与实现》发表提问、意见、建议、批评、勘误,等等,我会努力地采纳大家的意见,争取在将来写出更好的《Redis 设计与实现》,以此来回报大家对本书的支持。

黄健宏(huangz)

2014 年 3 月于清远