分布式存储概述

近年来,随各大互联网公司大数据应用的兴起,分布式系统广泛地被投入实践当中。互联网公司的分布式系统相比传统分布式系统,具有两大特点:规模大和成本低。不同的互联网公司会根据自己业务的需求,设计出适合的方案。分布式系统底层起支撑作用的是分布式存储系统,本文总结分布式存储系统的定义与分类。

分布式存储概念

大量PC机通过网络互联,对外作为一个整体提供存储服务。

四大特性:

可扩展: 分布式存储系统可以通过增加PC机的方式,使系统整体性能表现为线性增长。
低成本:分布式存储系统的自动容错、自动负载均衡机制都构建在PC机上。
高性能:大数据时代对分布式存储系统的整体要求。
易用:分布式存储系统需要能提供易用的对外接口,还要具备完善的监控、运维工具,并且能方便与其它系统集成。

分布式存储系统主要涉及的技术:

数据分布:怎么将数据均匀地分布到多台PC机上?如何实现跨PC机读写操作?
一致性:如何将数据的多个副本分布在多台PC机上,在出现异常的时候,怎么保证多个副本的数据的一致性?
容错:如何检测到PC机故障,怎么自动地将故障PC机的数据与服务迁移到其他PC机上?
负载均衡:新增PC机和集群中正常运行过程中如何实现自动负载均衡?数据迁移过程中如何保证不影响已有服务?
事务与并发控制:如何实现分布式事务?如何实现多版本并发控制?
易用:如何设计对外接口使得系统便于使用?如何设计监控系统使系统内部状态以简单的形式暴露给运维人员?
压缩与解压缩:如何根据数据特点设计合理的压缩/解压缩算法,如何权衡压缩算法的存储消耗和CPU计算消耗?

存储的数据分类:

非结构化数据:如声频、图像、文档、视频。
半结构化数据:一般是自描述的,如HTML文档,模型结构和内容混在一起的数据,数据模式不需要预先定义。
结构化数据:模型结构和内容是分开的,数据模式需要预先定义,一般存储在关系数据库中,可用二维关系表结构表示。

分布式存储分类

一、分布式文件系统

互联网应用需要存储大量的图片、视频等非结构化数据对象,这类数据以对象的形式组织,对象之间没有关联,一般称作Blob(Binary Large Object)数据。分布式文件系统用来存储Blob对象,如Facebook Haystack、Taobao Flie System。
分布式文件系统主要存储三种类型数据:Blob对象、定长块、大文件。分布式系统内部按数据块(chunk)来组织数据,每个数据块大小相同,每个数据块可包含多个Blob对象或定长块,而大文件可分成多个数据块。分布式文件系统将这些数据块分布到存储集群中,处理数据复制、一致性、负载均衡、容错等难题,并将用户的数据操作映射为对底层数据块的操作。

二、分布式键值系统

分布式键值系统用于关系简单的半结构化数据的存储,只提供基于主键的CRUD功能。典型的系统如Amazon Dynamo、Taobao Tair。在数据结构角度上,分布式键值系统与传统的哈希表相似,特点是:分布式键值系统,能将数据分布到集群中多个存储节点。分布式键值系统是分布式表格系统的一种简化实现,一般用于缓存。

三、分布式表格系统

分布式表格系统用于关系较复杂的半结构化数据的存储。与分布式键值系统相比,功能更强大,比如单行事务、单个实体下的多行事务,典型系统如Google Bigtable、Microsoft Azure Table Storge、Amazon DynamoDB。而与分布式数据库相比,分布式表格系统主要针对单张表格的操作,不支持复杂的操作如多标关联、多表联接。分布式表格系统介于分布式键值系统与分布式数据库系统之间,是一种很好的折衷。

四、分布式数据库

分布式数据库由单机关系数据库发展而来,用于存储结构化数据。分布式数据库采用二维表格组织数据,提供SQL关系查询语言,多表关联,事务与并发控制,功能强大。典型系统如Mysql数据库分片集群,Amazon RDS、Microsoft SQL Azure.分布式数据库系统往往遇到扩展受限的问题,但并不是绝对的,如Google Spanner是一个支持多数据中心的分布式数据库,它不但具有丰富的数据库功能,还能扩展到多个数据中心。
SQL数据库是目前最为成熟的存储系统,它也面对着巨大的挑战:传统关系数据库事务及二维关系模型难以高效地扩展到多个存储节点上。为解决SQL数据库面临的可扩展、高并发、高性能问题,各种非关系数据库风起云涌,此类系统称为NoSQL系统。

参考书目:《大规模分布式存储系统》,杨传辉著。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,736评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,167评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,442评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,902评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,302评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,573评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,847评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,562评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,260评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,531评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,021评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,367评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,016评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,068评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,827评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,610评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,514评论 2 269

推荐阅读更多精彩内容