mongodb分片初探

  分片(sharding)是指将数据库拆分,将其拆分到不同机器的过程,有时也用分区(partitioning)来表示,它是 MongoDB 为应对数据增长需求而采取的办法。
为什么要分片
  • 增加单台服务器可用的磁盘空间
  • 减轻单台服务器的负载
  • 处理单个mongod无法承受的吞吐量
分片原理
  在搭建mongodb分片集群之前,我们需要先了解一下其架构和原理,下图是mongodb分片集群的架构图:
mongodb shard.png
 mongodb分片集群由三大组件组成:mongos路由、配置服务器config Server和分片shard,下面一一介绍它们的作用。
mongos路由
 mongos是一个前置路由,我们的应用客户端并不是直接与分片连接,而是与mongos路由连接,mongos接收到客户端请求后根据查询信息将请求任务分发到对应的分片,在正式生产环境中,为确保高可用性,一般会配置两台以上的mongos路由,以确保当其中一台宕机后集群还能保持高可用。
配置服务器
  配置服务器相当于集群的大脑,它存储了集群元信息:集群中有哪些分片、分片的是哪些集合以及数据块的分布集群启动后,当接收到请求时,如果mongos路由没有缓存配置服务器的元信息,会先从配置服务器获取分片集群对于的映射信息。同样的,为了保持集群的高可用,一般会配置多台配置服务器。
shard分片
   分片是存储了一个集合部分数据的MongoDB实例,每个分片 可以是一台服务器运行单独一个Mongod实例,但是为了提高系统的可靠性实现自动故障恢复,一个分片应该是一个复制集。

  通过分片,我们将一个集合拆分为多个数据块,这些数据块分别部署在不同的机器上,这样可以做到增加单台机器的磁盘可用空间,同时将查询分配到不同的机器上,减轻单台机器的负载。
如何分片
   在搭建集群分片之前,我们需要先明确各个组件的数量和服务器的数量,我们需要搭建1个mongos路由进程,3个配置服务器进程和3个分片进程,为方便起见,我们把2个mongos路由和3个配置服务器都放在同一台服务器,通过不同的端口号来运行,但是3个分片我们用了3台不同的服务器(其实在同一台服务器也是可以的),组件和服务器配置总体如下:
  • 机器 10.20.11.225 :1个mongos路由进程,3个配置服务器进行
  • 机器 10.20.20.239 :第一个分片
  • 机器 10.20.21.27 :第二个分片
  • 机器 10.20.23.50 :第三个分片
配置config server
  配置服务器是一个普通的mongod进程,我们在10.20.11.225机器上配置了3个mongod进程,端口号分别是:20000、20001和20002,以20000端口的进程为例,其配置如下:
dbpath=/root/fmm/software/mongodb/data/config_20000/
#日志文件
logpath=/root/fmm/software/mongodb/log/config_20000.log
#日志追加
logappend=true
#端口
port = 20000
#最大连接数
maxConns = 50
pidfilepath = /root/fmm/software/mongodb/log/config_20000.pid
#日志,redo log
journal = true
#守护进程模式
fork = true
configsvr = true

20001和20002端口的mongod进程的配置只是端口号、日志和数据保存路径不同而已,然后就分别启动这三个实例:

./mongod -f ../config/config_20000.conf
./mongod -f ../config/config_20001.conf
./mongod -f ../config/config_20002.conf
配置mongos路由
   mongos路由是提供给客户端连接集群的,我们只配置一个就行了,但是在正式生产环境上,为了集群的高可用,我们需要配置两台以上的mongos路由,在10.20.11.225机器上我们用30000端口开启一个mongod进行来运行mongos路由,器配置如下:
#日志文件
logpath=/root/fmm/software/mongodb/log/mongos_30000.log
#日志追加
logappend=true
#端口
port = 30000
#最大连接数
maxConns = 50
pidfilepath = /root/fmm/software/mongodb/log/mongos_30000.pid
#日志,redo log
#journal = true
#守护进程模式
fork = true
configdb=10.20.11.225:20000,10.20.11.225:20001,10.20.11.225:20002

mongos路由不需要保存数据,所以不用配置数据保存地址,但是一定要配置logpath ,方便我们定位问题,配置中最重要的配置是configdb,需要配置的是3台配置服务器的地址,需要注意的是配置服务器的地址不能写成localhost或者127.0.0.1,否则会报错,配置完后我们需要启动mongos进程,命令如下:

./mongos -f ../config/mongos_30000.conf
配置分片服务器
  分片服务器上保存着集合的部分数据,我们分别在 10.20.20.239、10.20.21.27、10.20.23.50三台服务器上启动三个mongod进程,端口号都是40000,配置如下:
dbpath=/root/fmm/software/mongodb/data/
#日志文件
logpath=/root/fmm/software/mongodb/log/mongodb_shard.log
#日志追加
logappend=true
#端口
port = 40000
#最大连接数
maxConns = 50
pidfilepath = /root/fmm/software/mongodb/log/mongodb_shard.pid
#日志,redo log
journal = true
#守护进程模式
fork = true

配置完之后就可以直接启动了,命令如下:

./mongod -f ../config/./mongod

所有组件配置完之后,我们可以登陆mongos路由,查看整个集群信息:

./mongo --port=30000
mongos> sh.status()
--- Sharding Status --- 
  sharding version: {
    "_id" : 1,
    "minCompatibleVersion" : 5,
    "currentVersion" : 6,
    "clusterId" : ObjectId("5885a29be970437923e2aa86")
}
  shards:
  balancer:
    Currently enabled:  yes
    Currently running:  no
    Failed balancer rounds in last 5 attempts:  0
    Migration Results for the last 24 hours: 
        No recent migrations
  databases:
    {  "_id" : "admin",  "partitioned" : false,  "primary" : "config" }
添加分片

我们需要把三台分片服务器添加到集群中,操作如下:

mongos> sh.addShard("10.20.20.239:40000")
{ "shardAdded" : "shard0000", "ok" : 1 }
mongos> sh.addShard("10.20.21.27:40000")
{ "shardAdded" : "shard0001", "ok" : 1 }
mongos> sh.addShard("10.20.23.50:40000")
{ "shardAdded" : "shard0002", "ok" : 1 }

添加完之后再看看集群信息,可以看到三个分片已经被添加到集群了:

mongos> sh.status()
--- Sharding Status --- 
  sharding version: {
    "_id" : 1,
    "minCompatibleVersion" : 5,
    "currentVersion" : 6,
    "clusterId" : ObjectId("5885a29be970437923e2aa86")
}
  shards:
    {  "_id" : "shard0000",  "host" : "10.20.20.239:40000" }
    {  "_id" : "shard0001",  "host" : "10.20.21.27:40000" }
    {  "_id" : "shard0002",  "host" : "10.20.23.50:40000" }
  balancer:
    Currently enabled:  yes
    Currently running:  no
    Failed balancer rounds in last 5 attempts:  0
    Migration Results for the last 24 hours: 
        No recent migrations
  databases:
    {  "_id" : "admin",  "partitioned" : false,  "primary" : "config" }
开启分片
   开启分片首先需要对数据库启用分片,然后才能对数据库的集合开启分片功能,对集合开启分片功能时需要确定片键,片键与索引类似,是集合的某一个或者多个字段,mongodb会根据这个片键对数据进行拆分。在进行分片时,片键的选择是非常最要的一件事,可以说是整个分片过程中最为重要的一步,所以需要非常谨慎地选择片键,这个可以单独拿出来写一篇很长的文章了,这里不做过多的描述。

在这里我们创建了一个名为"shardtest"的数据库,数据库中有一张"user"表,user表有name,age,和sex三个字段,我们选择用age作为片键,对该集合进行分片( 这是一个木有数据的空集合),操作如下:

mongos> sh.enableSharding("shardtest")       ##对数据库开启分片
mongos> sh.shardCollection("shardtest.user",{"age":1})   ##对集合user以age作为片键进行分片
mongos> sh.status()
--- Sharding Status --- 
  sharding version: {
    "_id" : 1,
    "minCompatibleVersion" : 5,
    "currentVersion" : 6,
    "clusterId" : ObjectId("5885a29be970437923e2aa86")
}
  shards:
    {  "_id" : "shard0000",  "host" : "10.20.20.239:40000" }
    {  "_id" : "shard0001",  "host" : "10.20.21.27:40000" }
    {  "_id" : "shard0002",  "host" : "10.20.23.50:40000" }
  balancer:
    Currently enabled:  yes
    Currently running:  no
    Failed balancer rounds in last 5 attempts:  0
    Migration Results for the last 24 hours: 
        No recent migrations
  databases:
    {  "_id" : "admin",  "partitioned" : false,  "primary" : "config" }
    {  "_id" : "test",  "partitioned" : false,  "primary" : "shard0000" }
    {  "_id" : "shardtest",  "partitioned" : true,  "primary" : "shard0000" }
        shardtest.user
            shard key: { "age" : 1 }
            chunks:
                shard0000   1
            { "age" : { "$minKey" : 1 } } -->> { "age" : { "$maxKey" : 1 } } on : shard0000 Timestamp(1, 0)
  我们可以看到,由于目前集合中没有数据,所以新分片的集合起初只有一块,此块的范围是负无穷到正无穷,在shell中用$minKey和$maxKey表示,随着块的增长,mongodb会自动降其分成两块。
  我们用脚本插入10w条数据,年龄大小为1~100之间任一值,插入之后,我们再看看其状态:
mongos> sh.status()
--- Sharding Status --- 
  sharding version: {
    "_id" : 1,
    "minCompatibleVersion" : 5,
    "currentVersion" : 6,
    "clusterId" : ObjectId("5885b5067fefeb309298d15a")
}
  shards:
    {  "_id" : "shard0000",  "host" : "10.20.20.239:40000" }
    {  "_id" : "shard0001",  "host" : "10.20.21.27:40000" }
    {  "_id" : "shard0002",  "host" : "10.20.23.50:40000" }
  balancer:
    Currently enabled:  yes
    Currently running:  yes
    Failed balancer rounds in last 5 attempts:  0
    Migration Results for the last 24 hours: 
        2 : Success
  databases:
    {  "_id" : "admin",  "partitioned" : false,  "primary" : "config" }
    {  "_id" : "test",  "partitioned" : false,  "primary" : "shard0000" }
    {  "_id" : "shardtest",  "partitioned" : true,  "primary" : "shard0000" }
        shardtest.user
            shard key: { "age" : 1 }
            chunks:
                shard0000   1
                shard0001   1
                shard0002   1
            { "age" : { "$minKey" : 1 } } -->> { "age" : 17 } on : shard0001 Timestamp(2, 0) 
            { "age" : 17 } -->> { "age" : 81 } on : shard0002 Timestamp(3, 0) 
            { "age" : 81 } -->> { "age" : { "$maxKey" : 1 } } on : shard0000 Timestamp(3, 1) 
   可以看到数据被随意插入到三个分片中,如果各个片中的数据不均衡,那么这时候mongodb的均衡器就会发挥作用了,平衡器的作用是管理数据数据块的移动, 当一个集合的数据块在集群中分布达到移动阈值(Migration Thresholds)的时候,平衡器就将数目最多的分片上的数据块移动到数目比较少的分片上,平衡器内容比较多,这里不做细讲了。至此,我们已经初步完成了分片。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,560评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,104评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,297评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,869评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,275评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,563评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,833评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,543评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,245评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,512评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,011评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,359评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,006评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,062评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,825评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,590评论 2 273
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,501评论 2 268

推荐阅读更多精彩内容