NoSQL数据库兴起

image

前言

近几年NoSQL数据库兴起,各种新的产品层出不穷,在此学习下NoSQL的基本理论,并认识下常见的NoSQL数据库。

一 NoSQL数据库兴起的原因

随着大数据技术兴起和Web2.0时代的到来。传统关系型数据库已经无法满足当前的数据库需求了。

无法满足的需求主要有3点:

  • 海量数据的存储与管理 (传统关系型数据库已经无法支撑
  • 大数据量下的并发性 (传统关系型数据库严格的事务机制导致了海量数据的操作会导致大范围的数据锁定,降低并发性
  • 高可用性,高扩展性(用户更关注是否功能可用。海量数据需要横向扩展数据库满足需求,纵向已经无法满足

与之相比原本关系型数据库的优点已经不被许多公司所需要,主要也有3点:

  • 严格的数据库事务(如微信,新浪微博等互联网公司,丢失一条消息等,ACID的实现与否并不是很重要
  • 严格的读写实时性(同理,一条消息服务器写入后,其他人是否立即看到并不太重要
  • 复杂的条件查询(为了节约硬件存储空间降低冗余,传统关系型数据库会将各种信息分表存储,但是现在硬件性能已经足够将信息全部存储。并不太需要复杂的多表查询操作

为了满足大数据量下的业务需求,传统关系型数据库也发展出多种技术手段,但是最终事实证明NoSQL数据库才是最适合的选择。传统关系型数据库的解决方案经历了如下几个阶段:

  1. 主从复制,实现读写分离。设置一个主服务器,若干从服务器。主服务器负责写操作,并实时复制修改内容到从服务器上。从服务器负责读操作。(但是对于写请求的负担仍然无法解决
  2. 分库,分流一部分请求。分库又分为横向分库和纵向分库,横向分库即将不同业务维度的数据库拆分开来,服务器根据业务场景,查询不同数据库。纵向分库即将数据行按照一定的规律分别存储到不同数据库内。如:根据hash,根据生产时间等。(但是导致了不同库之间不能直接查询,且仍然无法满足更大的数据要求
  3. 分表,类似于分库。通过横向或者纵向切分表。

二 NoSQL数据库的四大类型

分别是 :

  • 键值数据库
  • 列族数据库
  • 文档数据库
  • 图数据库

2.1 普遍的特性(优点)

  • 数据结构灵活。(传统关系型数据库有严格的字段要求,且后续修改复杂
  • 可扩展性强(容易横向扩展,支持分布式,且扩展的复杂度不高,对比传统关系型数据库的扩展非常复杂
  • 支持高并发操作。

2.2 各自的特性

  1. 键值数据库。是键值对的存储数据库。
  • 优点:适合大量写操作。
  • 缺点:但是存储的数据没有结构化,复杂查询效率低。
  • 应用:常用做内容缓存。
  • 代表产品:Redis,Memcached
  1. 列族数据库,底层基于列族进行存储的数据库。(查找时,基于行键列族查找,可以看做键值数据库的变种)
  • 优点:查询速度快,横向扩展性尤其好,适合分布式系统,屏蔽了分布式的复杂性。
  • 缺点:功能简单,大都不支持事务一致性。(Hadoop的HBase是支持的
  • 应用:分布式的数据存储。
  • 代表产品:Cassandra,HBase
  1. 文档数据库,基于键存储文档。(也可看做键值数据库的变种)
  • 优点:半结构化,数据格式可以自解释,如:JSON,XML。因此数据结构非常灵活,且并发性高。
  • 缺点:缺乏统一的查询语法
  • 应用:存储文档型数据,半结构化数据。
  • 代表产品:MongoDB,CouchDB
  1. 图数据库,基于图数据结构的数据库。
  • 优点:支持复杂的图算法与关系图谱
  • 缺点:只适合图和关系的应用领域,其他领域性能较差。
  • 应用:复杂图结构,如社交网络,关系图谱。
  • 代表产品:Neo4J,InfoGrid

三 NoSQL数据库的三大基石

3.1 CAP理论三个特性

  • C:一致性(任何一个读操作总是能读取到之前完成的写操作结果)
  • A:可用性(每一个操作总是能够在确定的时间内返回,也就是系统随时都是可用的)
  • P:分区容忍性(出现网络分区,整个系统仍然可用)

经过证明,一个分布式系统不能同时满足三个特性,最多满足两个。

传统关系型数据库满足了CA,放弃了P。因此扩展困难。而现在大部分互联网系统都是分布式系统,不可能放弃P特性。

通俗的解释下为何只能同时满足两个特性:

假设同时满足C和A和P。P保证了系统存在不同的网络节点,那么为了保证C,系统会尝试与其他的节点同步数据信息,但是出现网络问题导致系统分区时(即节点无法互相通信),会导致同步无法立刻完成,这样就无法满足A了。

此时只需要去除一个特性即可:

  1. 去除P,保留CA。则没有了网络通信问题,在实现C数据一致性时,可以很快的完成,也保证了A。
  2. 去除A,保留CP。则不要求立刻完成,在实现C数据一致性时,即使出现了网络分区P,也可以慢慢等待。
  3. 去除C,保留AP。则不需要保证数据一致性了,即使网络出现分区,各个节点都能单独运行,保证了用户可用(反正系统已经不在乎各个节点数据的一致了)。

3.2 BASE理论

BASE模型反ACID模型,完全不同ACID模型,牺牲高一致性,获得可用性。

  • BA:基本可用。一部分分区出现问题,系统仍然可用,主要保证核心功能可用。(电商大促时,为了应对访问量激增,部分用户可能会被引导到降级页面,服务层也可能只提供降级服务。这就是损失部分可用性的体现
  • S:软状态。数据的一致性要求降低,可以一段时间不满足一致性。相对应的是硬状态。(分布式存储中一般一份数据至少会有三个副本,允许不同节点间副本同步的延时就是软状态的体现。mysql replication的异步复制也是一种体现。
  • E:最终一致性。弱一致性,后续操作无法立刻获取更新的信息。相对应的是强一致性。最终一致性是特殊的弱一致性,只保证了。

3.3 最终一致性

(明明BASE就包含了最终一致性,不知道书中为何又将它单独列为三大理论基础之一)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,835评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,598评论 1 295
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,569评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,159评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,533评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,710评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,923评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,674评论 0 203
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,421评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,622评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,115评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,428评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,114评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,097评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,875评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,753评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,649评论 2 271

推荐阅读更多精彩内容

  • ORA-00001: 违反唯一约束条件 (.) 错误说明:当在唯一索引所对应的列上键入重复值时,会触发此异常。 O...
    我想起个好名字阅读 4,869评论 0 9
  • 当前数据库分为关系型数据库和非关系型数据库 关系型数据库 关系型数据库:指采用了关系模型来组织数据的数据库。关系模...
    意识流丶阅读 161,926评论 4 102
  • 为何要使用NoSQL数据库? 1.NoSQL具有灵活的数据模型,可以处理非结构化/半结构化的大数据 2.NoSQL...
    毛子阿卡西阅读 515评论 0 3
  • 今天是我的月经第一日,状态不好,整个人闷闷的,看什么都不大顺眼,得忍着,得在心里不断地提醒自己,不能要求别人和自己...
    曼谷123阅读 178评论 0 0
  • 高级 双保险 公钥,私钥 DH 密钥交换算法(是非对称加密的起源) RSA 基于因子分解(应用范围最广,既能用于数...
    _爱笑的eyes阅读 4,579评论 0 1