架构设计高性能篇之分表分库

概述

在传统数据库中，当我们面临数据库的计算（CPU）和存储（IO）瓶颈时，我们可以通过横向扩展即不断地增加新的数据库来分担负载，也可以纵向扩展即提高单机的硬件配置，
但因为纵向扩展不能无限的扩展，所以实践中，常用的方式还是横向扩展，这也是分布式数据库所采用的方式。
那么如何进行横向扩展呢？答案是：分表分库，这是一种分片技术，它使传统数据库的处理能力突破了单机的限制，其集群的处理能力在某些方面丝毫不逊于分布式数据库。
这也是传统数据库在面临分布式数据库崛起时，其霸主地位依然牢不可破的原因。下面我们就来详细看看如何进行数据分片以及有那些分片策略。

方式

分表分库，就是将原本属于一个大表或一个库中的数据拆分成多个分表或多个库中，拆分后的数据可以位于同一个数据库下，也可以分布于不同的数据库中。

avatar

拆分方式有垂直拆分和水平拆分，如果拆分的对象是表，那么垂直拆分就像上图一样纵向地将一个表分成多个分表，同样水平拆分就像下图一样横向地将一个表拆分成多个分表；

avatar

而如果拆分的对象是库的话，那么垂直拆分就是以表为最小拆分单位，将表拆分到不同的数据库中，而水平拆分却有所不同，它是以行为单位，和上面以表为对象的水平拆分方式一样，只不过是将表分到不同的数据库中。
一张表被拆分成多个分表后，这些分表在物理上都是独立的，但在程序上我们还需将它们合起来看作一个表，并对这个逻辑表中的数据进行分页、排序、条件查询等操作。
这时，数据的操作效率就直接和你选择的策略有关，尤其是表的分表策略。

分表策略

在实际项目中，水平分表策略有Hash策略和范围策略，其中Hash策略比较常用而范围策略不太常用；垂直分表策略最常见的只有一种冷热策略，下面我们分别看一下这几种策略适应的场景：

Hash策略

假设，我们有一张1000万条数据的订单表Order，它有三个字段分别是Id、UserId、CreateTime，我们想将其拆分成5个分表，并将它们的后缀从0到4编好序号，如：order_0、order_1、order_2、order_3、order_4，那么我们应该如何拆分呢？

如果分表后，我们需要按Id来查询订单信息，并且该字段是使用频次最高的，那么我们可以考虑使用Hash策略，
遍历原表中的每一行数据，通过每行数据的ID值和分表数量取模，即：id%5，其取模运算的结果就是改行数据所对应表的序号，之后便将改行数据存储到分表中便可。
这样，遍历结束后，我们的1000万条数据，就分布到5个分表中了。但是，数据可能在分表中分布不均匀，这就要求id值要具有足够的散列性。

范围策略

假设，我们有一张日志表，每天将会以100万的速度增长，它也有三个字段分别是Id、LogContent、CreateTime，每天的数据最长只能保存30天，那么日志表一个月的数据量就是3000万；同样，我们想将其拆分成5个分表，并将它们的后缀从0到4编好序号，如：log_0、log_1、log_2、log_3、log_4，那么我们应该如何拆分呢？

如果分表后，我们不需要通过ID和LogContent来查询数据，只需要根据CreateTime查询某一天的日志，那么我们可以采用范围策略。
比如说从每个月按30天算，有5张表，那么30除以5每个表存6天的数据，也就是log_1存每月1-6号的数据，log_2存6-12号的数据，以此类推。
这样，我们就能按时间平均的将数据分布到每一个分表中，而且根据日期查询时，只需要将日期映射到对应表的序号，就能查找到该日期对应的数据。

冷热策略

冷热策略，其中"冷"是指数据量比较大但是通常是独立被使用的字段，比如商品详情与商品价格、商品名称相比之下，它经常是在商品详细页面而非商品列表页面用到，所以将其称为冷字段；相反，商品价格和商品名称经常会连在一起被使用，所有将其称之为"热"字段。

假设，我们有一张1000万条数据的商品表，它有四个字段分别是：id、name、price、detail，其中detail字段中的数据大小是其它三个字段的1000倍，且使用最频繁的字段却是前三个，如果仅仅是查询商品价格存在性能问题，那么我们应该如何拆分呢？

显然，这里我们面对的情况和采用Hash策略、范围策略时面对的情况不太一样，这里的查询性能问题主要是由于detail字段数据量过大，导致IO时间过长导致的。因此，我们可以将热字段id、name、price和冷字段detail分离，这样前面的热字段查询时所需加载的数据量就差不多是之前的千分之一，这样便能大大提高热字段的查询性能。

分库策略

垂直分库的方式是以表为最小拆分单位，将原属于同一个库中的表按表之间的关联性（业务模块）将它们划分到不同的数据库中，彼此隔离保持各自数据的独立性；
我这里将这种按相关性或业务模块进行拆分的策略称为"领域策略"。水平分库就是将水平分表后的数据放入不同的库中，这个我们就不多说了，主要说一下领域策略。

领域策略

假设，我们有一套电商系统，该系统由商品模块、订单模块、支付模块、登录模块构成，其中商品模块包含商品分类表(goods_category)、商品表（goods）...，订单模块包含......；
现在，因为表太多内存吃紧，导致查询效率变低，最终我们决定分库，那应该如何分库呢，分多少合适呢？

现实中，分库的时机是渐进式的——随着业务的发展，将一个库拆成两个，两个拆四个，四个拆八个。
因此，我们只能根据实际情况来确定分库的数量，如果我们分三个库，那么我们可以将支付模块、登录模块拆分出来分表放入不同的库中，因为登录模块属于基础模块其它模块对其依赖性不高，而支付模块属于支撑模块本身又不依赖其它模块比较好拆分。
数据架构即如何分库，这其实和系统架构有密切相关，而系统架构一般都是分层分域的。分层是系统横向的结构一般可以分成三层：基础层、业务领域层、应用层；分域是系统纵向的结构通常是按业务模块进行划分，模块与模块之间只通过接口交互，模块本身具有一定的独立性。

缺陷

虽然分表分库帮助我们提高了系统的性能，也让系统具备了横向扩展的能力，但是有时也会让你有杀敌一千自损八百的感觉。
比如，按ID水平分表后，我们需要按创建时间排序然后取前10条的功能，分表前的SQL语句类似于：select * from table order by create_desc limit 0,10 ，而分表后者需要聚合所有分表的数据，然后排序。
不仅排序和分页会碰到这样的问题，还有统计、连表、非拆分健的查询等等。因此，分表前得充分考虑好这些问题，再决定是否分表。
如果，万不得已要分表，那么上面的部分问题还是有解决方案的，下面是一些特定情况下常用的方案。

映射法

如果你有个用户表是按照user_id进行水平分表的，但你也需要根据用户名查询，那么你可以新将一个存放user_name和user_id对应关系的映射表；
这样，想根据用户名查询的时候，先查找映射表，获取user_id,然后再去查找分表。

基因法

如果你有个订单表采用取模算法根据order_id进行水平分表的，同时你又希望根据user_id进行查询，那么你可以将user_id的基因融入到order_id中。
意思是在生成order_id时，假如order_id是Long类型，那么其大小为64位，而分表数量是4，那么在生成订单ID时预留最后两位只生成62位的订单号，预留的两位用user_id的最后两位来补全（二进制的最后两位）。
这样，user_id的后两位被拼接到了order_id中，这时用order_id%4，或者user_id%4都可以定位当对应的分表，这是为什么呢？因为，当⼀个⼆进制的值按2^n取模时，其结果是由最后n位决定的，其它位对取模结果毫无影响。

ES+HBase

如果在使用了映射法、基因法都无法满足我们的查询需求，如：分页、排序、统计，那么最后的方案是将数据全量地导入导ES中。
那什么时候使用HBase呢？如果你的表字段很多比如60个列，其中只有10个列用作条件查询，显然为了减少ES的负载以及查询效率，我们可以只将检索的字段导入到ES中，而将全部数据导入HBase；
这样，将索引字段和数据分离，查询时就先从ES获取所查询数据的所有rowKey（主键），然后再用rowKey去Hbase中获取包含60个字段的数据，这样充分发挥了ES多条件查询的能力，也发挥了HBase大数据的存储以及列查询的能力，将两者扬长避短地结合在一起发挥最大的功用。

总结

实践中，是先分库还是先分表呢？这其实不好回答，得具体情况具体分析，但也存在一般性的拆分原则。
一般情况随着业务的增长，数据库中的表会不断增多，此时单表的数据量也不大但是表多，整体的性能不高，那么原则是先垂直分库，而垂直分库一般遵循分层分库策略；
之后，单表的量上来了，影响到性能，那么拆分原则是先垂直分库，后水平分表。

扩展阅读

最后编辑于：2022.05.18 11:10:41

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 156,630评论 4赞 359
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 66,405评论 1赞 289
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 106,382评论 0赞 237
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,548评论 0赞 203
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 51,853评论 3赞 285
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,276评论 1赞 209
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,638评论 2赞 309
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,350评论 0赞 195
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,015评论 1赞 238
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,309评论 2赞 240
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,836评论 1赞 256
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,206评论 2赞 251
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,767评论 3赞 231
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 25,972评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,715评论 0赞 192
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,319评论 2赞 269
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,222评论 2赞 258

架构设计高性能篇之分表分库

概述

方式

分表策略

Hash策略

范围策略

冷热策略

分库策略

领域策略

缺陷

映射法

基因法

ES+HBase

总结

扩展阅读

推荐阅读更多精彩内容