Facebook 中使用 NVM 来减少 DRAM 的占用

最近看到一篇论文 Reducing DRAM Footprint with NVM in Facebook,写的非常不错,讲的是 Facebook 的工程师是如何在 MyNVM 项目里面使用 NVM 来减少 DRAM 的使用的。

当然,对我的启发是非常大的,一方面的原因是从里面学到了如何对硬件进行更好的测试,另一方面,则是让后面自己做 engine 有了参考,知道在那些点上面需要关注。

NVM

NVM 在 Wiki 中的定义是 Non-volatile memory,可以认为是一种非常快速的,持久化的储存介质。相比于传统的 SSD,无论在带宽,还是延迟上面,都要优秀很多。当然,价格也是不便宜的,譬如我们买了 10 块 Optane 盘,每块盘都一万多了,不过比 DRAM 现在还是便宜太多了。下图是 Facebook 给出的一个性能对比

可以看到,相比于传统的 TLC Flash,NVM 在带宽上面优势比较明显,而且 read latency 也非常的低,虽然相比于 DRAM 差距还比较大,但 NVM 能存放更多的数据,同时考虑到成本,DRAM 能在一些场景(譬如二级 cache,DRAM 较小)下面有效的替换掉 DRAM。

减少 DRAM 使用的挑战

在 RocksDB 里面,很早就提供了 Persistent Read Cache 的功能,方便用户将数据 cache 持久化到特定的路径,所以我们可以非常方便的使用这个功能。但如果想用这个功能来减少 DRAM 的使用,还是有很多挑战的,主要包括:

  1. NVM 的带宽比 DRAM 小很多,并且极大的依赖不同的 block size,所以如果只是单纯的替换 DRAM,我们很可能在读带宽上面就先遇到瓶颈,从而达不到想要的性能。
  2. 减少 DRAM 的使用也需要重新设计新的索引机制,因为只有一小部分数据现在会 cache 在 DRAM 里面了。
  3. 使用比较小的 block size 会减少压缩的比率,相应的就会增加整个数据库的大小。
  4. 不同于 DRAM,NVM 有耐用性约束,如果我们仅仅是像 DRAM 那样使用 NVM,很有可能就会造成 NVM 过早的报废。
  5. 因为 NVM 相比于其他的 disk 有更低的延迟了,所以系统调用的开销就会变得非常的明显。

知己知彼,百战百胜

虽然挑战很大,但还是有可行的空间的。不过首先,最重要的一件事情,就是当我们拿到手一块 NVM 盘,这个盘性能到底是怎样的,在哪一些场景下面性能最优,我们是需要知道的。只有知道了这个,后面对我们构建系统才会有明确的指导。对于盘的测试,自然,大家通常都会选择 Fio。

Facebook team 使用 Fio 做了非常充分的测试,主要集中在延迟和带宽上面,他们使用了非常多的维度来测量,主要有:

  1. 在 100% 和 70% read + 30% write 场景下面 mean 和 P99 的延迟还有带宽
  2. 使用不同 block size 下面的 read mean 和 P99 延迟
  3. 使用不同的 write block size 下面,从 100% 到 50% read,整体带宽

通常这些详细的测试,我们就能知道这个盘大概是什么样的情况,譬如,Facebook 就发现一次读取大的 block 并不划算,延迟会随着 size 的增大而增加。使用大的 write block size 在混合读写下能有效的防止整体带宽的衰减。

具体的测试指标,大家可以详细看论文。我个人觉得这个测试是很值得借鉴的,于是按照他们的测试用例,写了一个测试工具 fio-helper,这个会跑很多的测试,然后使用 Python 脚本解析好 Fio 输出的结果,生成 CSV 文件。然后就可以通过 pyplot 或者贴到 Excel 生成图表了。

实现

了解了盘的情况,有了性能测试工具,下面就是详细的设计了,其实对于 MyNVM 来说,整体的架构特简单:

也就是将 NVM 作为二级 block cache。虽然看起来比较简单,但实际还是要处理很多问题的。同时,为了更好的验证相关的实现能否 work,MyNVM 使用的是 Facebook 的 LinkBench 这个性能测试工具。至于这个工具的使用这里就不说了,重点来看看他们是如何克服之前提到的 NVM 的挑战的。

满足读带宽

从前面 Fio 的测试知道,NVM 的读带宽是 2.2 GB/s,但在正常情况下面,MyNVM 需要的带宽量会远远大于这个值。主要是因为 MyNVM 默认使用的是 16 KB 的 block size,读取一点数据,也需要读取 16 KB。

为了解决这个问题,一个直观的做法就是减少 block size,但 MyNVM team 发现,单纯的减少竟然增大了带宽的使用。

主要的原因就在于当 block size 减少之后,整个 index 的大小就会增加,导致降低了 DRAM 的 cache 命中率,从而让更多的数据从 NVM 上面读取。为了解决这个,MyNVM 将 index 进行切分,并用一个 top index 来索引这些 index。这个应该就是RocksDB 里面的 Partitioned Index Filter

当从 disk 上面读取一个 index block 的时候,只有 top level 的 index 会被载入到 DRAM,同时也只有相关的 index 分片会缓存到 DRAM。使用这种方式,即使 4 KB 的 block,整体的 cache 命中率在 LinkBench 测试下面也跟 16 KB 的差不了太多。

使用 4 KB 还有一个问题,就是 RocksDB 会开启压缩,所以通常一个 4 KB 的 block 实际比 4 KB 小,一个 page 用不满,page 剩下的空间就会存另一个 block 的数据,这样就会导致一些 block 跨了多个 page,一次读取会读取 8 KB 数据了。

为了解决这个问题,MyNVM 使用 6 KB 的 block,通常的压缩都会稍微小于 4 KB,当然也有一些超过 4 KB 的。如果一个 page 还有剩余,并且存不下下一个 block,MyNVM 会尝试用 0 来填充。这样就能保证所有 block 都大概率的按照 NVM 的 4 KB 来对齐。使用这个方式,能减少整个读带宽,并且减少读延迟,因为读取的 page 会更少,但相应的会稍微增大一点写带宽,毕竟会补 0 多写一点数据。

数据库大小

因为使用了 6 KB 的 block size,压缩就不会特别高效了,相应的整体的数据库大小就会膨胀。为了解决这个问题,MyNVM 会预先将从多个 block 采样好的压缩 dictionary 给载入进来,这样对于模式比较固定的数据,就能增加压缩率。这个应该是使用的 zstd 来完成的。

中断延迟

对于 NVM 这种盘来说,硬件的延迟已经非常低了,所以很有可能软件就会成为瓶颈,这个我在之前的文章中分析 NOVA 也有过相关说明。对于 block I/O 来说,会触发中断,产生 context switch,这些都是有开销的。

为了减少中断造成的开销,MyNVM 使用 polling 的方式,当发起一次 I/O 之后,操作系统会一直循环的检查 I/O 是否完成,这样就没有了 context switch。这个主要是通过操作系统提供的 pvsync2 engine 来完成的。但一直 polling 会造成 CPU 占用比较高,系统负载偏大,为了解决这个问题,MyNVM 使用了一种混合模式 - 系统会收集之前 I/O 操作的平均延迟,并以此来决定是否 polling。譬如,假设之前的平均延迟是 M ns,那么当 polling 超过 M / 2 ns 之后,就触发中断。

混合 polling 和中断的方式需要给操作系统上个补丁,另外 polling 的方式也有缺陷,所以 MyNVM 并没有在现阶段使用。

小结

上面只是简单了介绍了下 Facebook 在构建 MyNVM 时候遇到的问题,以及相关的技术选型。对我们来说,也是很有参考意义的,毕竟现阶段我们已经在开始进行存储引擎的研发工作,理念就是 design for the future disk 以及 design for the cloud。如果你对这块感兴趣,欢迎联系我 tl@pingcap.com

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,015评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,262评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,727评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,986评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,363评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,610评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,871评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,582评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,297评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,551评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,053评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,385评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,035评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,079评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,841评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,648评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,550评论 2 270