《Redis深度历险》 读书笔记(2)

位图(Bitmap)

  • 什么是位图?

    • 一串连续的二进制数字,每一位所在的位置为偏移量(offset), 在位图上可执行AND, OR, XOR以及其他的位操作。
    • 位图实际上是一个byte数组,可以使用普通的get/set获取和设置整个位图的内容,也可以使用getbit/setbit 等将 byte 数组看成「位数组」来处理
  • 使用场景

    • 例子:统计用户一年的签到记录。
      • 用普通的key/value需要记录365个,当用户数量达到上亿时,需要很大的存储空间。使用位图的话,每天签到的记录占据一个位,365天就是365个位,46个字节,可以大大节约存储空间
    • 例子:统计日活用户。
      • 建立一个bitmap,每一位标识一个用户ID,当某个用户访问时就将此用户的位置标识为1。即每次登录时会执行一次redis.setbit(daily_active_users, user_id, 1)的操作。时间复杂度为O(1)。
      • 扩展: 统计整个周或整个月的活跃用户,可以通过对范围内的所有bitmap求并集,得出新的bitmap,并对它计数。
  • 如何计数?

    • 通过位图统计指令 bitcount 和位图查找指令 bitpos,bitcount 用来统计指定位置范围内 1 的个数,bitpos 用来查找指定范围内出现的第一个 0 或 1。
    • 需要注意的点:用bitpos指令时,如果指定了范围参数[start, end], 那么要注意start和end是字节索引,也就是说指定的位范围必须是 8 的倍数,所以如果我们要计算某个月内用户签到了多少天,需要将这个月的字节内容全部取出来(用getrange),然后在内存里统计,比较繁琐。
  • 高级用法(bitfield)

    • 使用setbit和getbit来指定为的值时,只能指定一个位,如果要一次操作多个位,可以用bitfield来操作(Redis 3.2 以上)

    • bitfield 有三个子指令,分别是 get/set/incrby,它们都可以对指定位片段进行读写,但是最多只能处理 64 个连续的位,如果超过 64 位,就得使用多个子指令,bitfield 可以一次执行多个子指令。

    • 例子

      127.0.0.1:6379> set w hello
      OK
      127.0.0.1:6379> bitfield w get u4 0  # 从第一个位开始取 4 个位,结果是无符号数 (u)
      (integer) 6
      127.0.0.1:6379> bitfield w get u3 2  # 从第三个位开始取 3 个位,结果是无符号数 (u)
      (integer) 5
      127.0.0.1:6379> bitfield w get i4 0  # 从第一个位开始取 4 个位,结果是有符号数 (i)
      1) (integer) 6
      127.0.0.1:6379> bitfield w get i3 2  # 从第三个位开始取 3 个位,结果是有符号数 (i)
      1) (integer) -3
      

      有符号数是指获取的位数组中第一个位是符号位。第一位是1代表负数,0代表正数。获取的位数组全部都是值。有符号数最多可以获取 64 位,无符号数只能获取 63 位 (因为 Redis 协议中的 integer 是有符号数,最大 64 位,不能传递 64 位无符号值)。

      子指令 incrby,它用来对指定范围的位进行自增操作。如果出现了溢出,就将溢出的符号位丢掉。例如,如果是 8 位无符号数 255,加 1 后就会溢出,会全部变零。如果是 8 位有符号数 127,加 1 后就会溢出变成 -128。

    • bitfield提供了子指令 overflow,用户可以选择溢出行为,默认是折返 (wrap),还可以选择失败 (fail) 报错不执行,以及饱和截断 (sat),超过了范围就停留在最大最小值。overflow 指令只影响接下来的第一条指令,这条指令执行完后溢出策略会变成默认值折返 (wrap)。

    • 饱和截断 SAT

      127.0.0.1:6379> set w hello
      OK
      127.0.0.1:6379> bitfield w overflow sat incrby u4 2 1
      1) (integer) 11
      127.0.0.1:6379> bitfield w overflow sat incrby u4 2 1
      1) (integer) 12
      127.0.0.1:6379> bitfield w overflow sat incrby u4 2 1
      1) (integer) 13
      127.0.0.1:6379> bitfield w overflow sat incrby u4 2 1
      1) (integer) 14
      127.0.0.1:6379> bitfield w overflow sat incrby u4 2 1
      1) (integer) 15
      127.0.0.1:6379> bitfield w overflow sat incrby u4 2 1  # 保持最大值
      1) (integer) 15
      
    • 失败不执行 FAIL

      127.0.0.1:6379> set w hello
      OK
      127.0.0.1:6379> bitfield w overflow fail incrby u4 2 1
      1) (integer) 11
      127.0.0.1:6379> bitfield w overflow fail incrby u4 2 1
      1) (integer) 12
      127.0.0.1:6379> bitfield w overflow fail incrby u4 2 1
      1) (integer) 13
      127.0.0.1:6379> bitfield w overflow fail incrby u4 2 1
      1) (integer) 14
      127.0.0.1:6379> bitfield w overflow fail incrby u4 2 1
      1) (integer) 15
      127.0.0.1:6379> bitfield w overflow fail incrby u4 2 1  # 不执行
      1) (nil)
      

HyperLogLog

  • 场景:统计每个网站的UV数据时,需要将UV去重。这要求每一个网页请求都要带上唯一的用户ID。假如使用set来存储访问过某一个页面的所有ID,这样做是可行的,但是如果页面访问量到达几千万甚至更高时,需要惊人的存储空间。同时,我们并不需要知道每一个访问这个页面的用户ID,并且并不需要太过精确的计数,105W和106W对我们来说并没有太大的区别

  • Redis提供了HyperLogLog来解决这种统计问题,它提供了一种不太精确的去重计数方案,标准误差是0.81%,而这样的精确度已经可以满足UV统计需求了

  • 使用方法

    • HyperLogLog 提供了 pfadd 、pfcount 、 pfmerge。一个是增加计数,一个是获取计数,一个是合并计数。pfadd 和 pfcount类似与集合中的 sadd 和 scard , pfmerge用于将多个 pf 计数值累加在一起形成一个新的 pf 值。
  • 注意的点

    • HyperLogLog 这个数据结构需要占据最多 12k 的存储空间,所以它不适合统计单个用户相关的数据。如果你的用户上亿,空间成本是非常惊人的。在计数比较小时,它的存储空间采用稀疏矩阵存储,空间占用很小,仅仅在计数慢慢变大,稀疏矩阵占用空间渐渐超过了阈值时才会一次性转变成稠密矩阵,才会占用 12k 的空间。
  • 内存占用为什么是 12k?

    • Redis 的 HyperLogLog 实现中用到的是 16384 个桶,也就是 2^14,每个桶的 maxbits 需要 6 个 bits 来存储,最大可以表示 maxbits=63,于是总共占用内存就是2^14 * 6 / 8 = 12k字节。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,165评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,720评论 1 298
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,849评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,245评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,596评论 3 288
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,747评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,977评论 2 315
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,708评论 0 204
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,448评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,657评论 2 249
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,141评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,493评论 3 258
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,153评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,108评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,890评论 0 198
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,799评论 2 277
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,685评论 2 272

推荐阅读更多精彩内容