B树和B+树

本文转载自博客,因为题主写的已经很详细了。

写在前面的一点,面试专用(m阶指的是每个节点最多有m个子树)。

一个m阶的B树具有如下几个特征:
1.根结点至少有两个子女。
2.每个中间节点都包含k-1个元素和k个孩子,其中 m/2 <= k <= m
3.每一个叶子节点都包含k-1个元素,其中 m/2 <= k <= m
4.所有的叶子结点都位于同一层。
5.每个节点中的元素从小到大排列,节点当中k-1个元素正好是k个孩子包含的元素的值域分划。

一个m阶的B+树具有如下几个特征:
1.有k个子树的中间节点包含有k个元素(B树中是k-1个元素),每个元素不保存数据,只用来索引,所有数据都保存在叶子节点。
2.所有的叶子结点中包含了全部元素的信息,及指向含这些元素记录的指针,且叶子结点本身依关键字的大小自小而大顺序链接。
3.所有的中间节点元素都同时存在于子节点,在子节点元素中是最大(或最小)元素。

还有,必须要强调一点,树的深度过大而造成磁盘I/O读写过于频繁,进而导致查询效率低下,只有减少树的深度,让树从“高瘦”变成“矮胖”就可以减少I/O次数,从而提高查询效率(查找树的每一个结点都要进行一次I/O)

B树是为实现高效的磁盘存取而设计的多叉平衡搜索树。这个概念在文件系统,数据库系统中非常重要。当然,有关于B树的产生,发展,结构等等方面的介绍已经非常详细,所以本文只是介绍有关于B树和B+树最核心的知识点,也算是我本人的学习笔记。至于详细的资料,因为毕竟有着太多,所以不再赘述。可以向大家推荐一篇博客:从B树、B+树、B*树谈到R 树,这篇文章中,作者对于B树系列数据结构的讲解非常详细,我的这篇博客,也是大量参考了人家的很多例子和描述。

B树

一、基本原理

首先,简单说一下B树产生的原因。B树是一种查找树,我们知道,这一类树(比如二叉查找树,红黑树等等)最初生成的目的都是为了解决某种系统中,查找效率低的问题。B树也是如此,它最初启发于二叉查找树,二叉查找树的特点是每个非叶节点都只有两个孩子节点。然而这种做法会导致当数据量非常大时,二叉查找树的深度过深,搜索算法自根节点向下搜索时,需要访问的节点也就变的相当多。如果这些节点存储在外存储器中,每访问一个节点,相当于就是进行了一次I/O操作,随着树高度的增加,频繁的I/O操作一定会降低查询的效率。

这里有一个基本的概念,就是说我们从外存储器中读取信息的步骤,简单来分,大致有两步:

  1. 找到存储这个数据所对应的磁盘页面,这个过程是机械化的过程,需要依靠磁臂的转动,找到对应磁道,所以耗时长。
  2. 读取数据进内存,并实施运算,这是电子化的过程,相当快。

综上,对于外存储器的信息读取最大的时间消耗在于寻找磁盘页面。那么一个基本的想法就是能不能减少这种读取的次数,在一个磁盘页面上,多存储一些索引信息。B树的基本逻辑就是这个思路,它要改二叉为多叉,每个节点存储更多的指针信息,以降低I/O操作数。

二、基本结构

1. B树的定义

有关于B树概念的定义,不同的资料在表述上有所差别。我在这里采用《算导》中的定义,用最小度t来定义B树。一棵最小度为t的B树是满足如下四个条件的平衡多叉树:

  1. 每个节点最多包含2t-1个关键字;除根节点外的每个节点至少有t-1个关键字(t \leq 2),根节点至少有一个关键字;
  2. 一个节点u中的关键字按非降序排列:u.key_1 \leq u.key_2 \leq …u.key_n
  3. 每个节点的关键字对其子树的范围分割。设节点un+1个指针,指向其n+1棵子树,指针为u.p_1,…u.p_n,关键字k_iu.p_i所指的子树中的关键字,有k_1≤u.key_1≤k_2≤u.key_2…成立;
  4. 所有叶子节点具有相同的深度,即树的高度h。这表明B树是平衡的。平衡性其实正是B树名字的来源,B表示的正是单词Balanced;

一个标准的B树如下图:

2. B树的高度

我直接给出结论了:对于一个包含n个关键字(n≥1),最小度数t≥2的B树T,其高度h满足如下规律:

h≤log_t \frac {n+1}{2}

在搜索B树时,很明显,访问节点(即读取磁盘)的次数与树的高度呈正比,而B树与红黑树和普通的二叉查找树相比,虽然高度都是对数数量级,但是显然B树中log函数的底可以比2更大,因此,和二叉树相比,极大地减少了磁盘读取的次数。

三、搜索算法

这里,我直接用博客从B树、B+树、B*树谈到R 树中的例子(因为这个例子非常好,也有现成的图示,就直接拿来用,不再自己班门弄斧了),一棵已经建立好的B树如下图所示,我们的目的是查找关键字为29的文件:

先简单对上图说明一下:

  1. 图中的小红方块表示对应关键字所代表的文件的存储位置,实际上可以看做是一个地址,比如根节点中17旁边的小红块表示的就是关键字17所对应的文件在硬盘中的存储地址。
  2. P是指针,不用多说了,需要注意的是:指针,关键字,以及关键字所代表的文件地址这三样东西合起来构成了B树的一个节点,这个节点存储在一个磁盘块上

下面,看看搜索关键字的29的文件的过程:

  1. 从根节点开始,读取根节点信息,根节点有2个关键字:17和35。因为17 < 29 < 35,所以找到指针P2指向的子树,也就是磁盘块3(1次I/0操作)
  2. 读取当前节点信息,当前节点有2个关键字:26和30。26 < 29 < 30,找到指针P2指向的子树,也就是磁盘块8(2次I/0操作)
  3. 读取当前节点信息,当前节点有2个关键字:28和29。找到了!(3次I/0操作)

由上面的过程可见,同样的操作,如果使用平衡二叉树,那么需要至少4次I/O操作,B树比之二叉树的这种优势,还会随着节点数的增加而增加。另外,因为B树节点中的关键字都是排序好的,所以,在节点中的信息被读入内存之后,可以采用二分查找这种快速的查找方式,更进一步减少了读入内存之后的计算时间,由此更能说明对于外存数据结构来说,I/O次数是其查找信息中最大的时间消耗,而我们要做的所有努力就是尽量在搜索过程中减少I/O操作的次数。

四、向B树插入关键字

向B树种插入关键字的过程与向二叉查找树中插入关键字的过程类似,但是要稍微复杂一点,因为根据上面B树的定义,我们可以看出,B树每个节点中关键字的个数是有范围要求的,同时,B树是平衡的,所以,如果像二叉查找树那样,直接找到相关的叶子,插入关键字,有可能会导致B树的结构发生变化而这种变化会使得B树不再是B树。

所以,我们这样来设计B树种对新关键字的插入:首先找到要插入的关键字应该插入的叶子节点(为方便描述,设这个叶子节点为u),如果u是满的(恰好有2t−1个关键字),那么由于不能将一个关键字插入满的节点,我们需要对u按其当前排在中间关键字u.key进行分裂,分裂成两个节点u_1,u_2;同时,作为分裂标准的关键字u.key_t​会被上移到u的父节点中,在u.key_t​插入前,如果u的父节点未满,则直接插入即可;如果u的父节点已满,则按照上面的方法对u的父节点分裂,这个过程如果一直不停止的话,最终会导致B树的根节点分裂,B树的高度增加一层。

我用《算导》中的一个题目展示一下这种插入关键字的过程:

现在我们要将关键字序列:F, S, Q, K, C, L, H, T, V, W, M, R, N, P, A, B, X, Y依次插入一棵最小度为2的B树中。也就是说,这棵树的节点中,最多有3个关键字,最少有1个关键字。

第1步 ,F, S, Q可以被插入一个节点(也就是根节点)

第2步 ,插入关键字K,因为节点已满,所以在插入前,发生分裂,中间关键字Q上移,建立了一个新的根节点:

第3步 ,插入关键字C:

第4步 ,插入关键字L,L应该被插入到根节点的左侧的孩子中,因为此时该节点已满,所以在插入前,发生分裂:

第5步 ,插入关键字H, T, V,这个过程没有发生节点的分裂:

第6步 ,插入关键字W,W应该被插入到根节点的最右侧的孩子中,因为此时该节点已满,所以在插入前,关键字T上移,最右端的叶子节点发生分裂:

第7步 ,插入关键字M,M应该被插入到根节点的左起第2个孩子中,因为此时该节点已满,所以在插入前,发生分裂,分裂之后,中间关键字K上移,导致根节点发生分裂,树高增加1:

第8步,同样的道理,插入关键字R, N, P, A, B, X, Y:最终得到的B树如下:

五、从B树删除关键字

删除操作的基本思想和插入操作是一样的,都是不能因为关键字的改变而改变B树的结构。插入操作主要防止的是某个节点中关键字的个数太多,所以采用了分裂;删除则是要防止某个节点中,因删除了关键字而导致这个节点的关键字个数太少,所以采用了合并操作。

下面分三种情况来讨论下删除操作是如何工作的,这个过程的顺序是自根节点起向下遍历B树

**Case - 1:**如果要删除的关键字k在节点u中,而且u是叶子节点,那么直接删除k

**Case - 2:**如果要删除的关键字k在节点u中,而且u是内部节点,那么分以下3种情况讨论:

(1) 如果u中前于k的子节点u_1中至少含有t个关键字,则找出k在以u_1​为根的子树中的前驱k′(前驱的意思是u_1​中比k小的关键字中最大的),然后在以u_1​为根的子树中删除k′,并在u中以k′替代k

(2) 如果上面的条件(1)不成立,也就是说,前于k的子节点中关键字的个数小于t了,那么就去找后于k的子节点,记为u_2​。若u_2​中至少含有t个关键字,则找出k在以u_2​为根的子树中的后继k′(大于k的关键字中最小的),然后在以u_2​为根的子树中删除k′,并在u中以k′替代k。可以看出(2)是(1)的一个对称过程

(3) 如果u_1,u_2​中的关键字个数都是t−1,则将ku_2​合并后并入u_1,这样u就失去了k和指向u_2​的指针,最后递归地从u_1中删除k

**Case - 3:**如果要删除的关键字k不在当前节点u中,而且u是内部节点(如果自上而下扫描到叶子都没有这个关键字的话,那就说明要删除的关键字根本就不存在,所以此处只考虑u是内部节点的情况),则首先确定包含ku的子树,我们这里设为u.p_i​。如果u.p_i中至少含有t个关键字,那么继续扫描,寻找下一个要被扫描的子树;如果u.p_i​中只含有t−1个关键字,则需要分下面两种情况进行操作:

(1) 如果u.p_i至少有一个相邻的兄弟比较"丰满"(即这个兄弟至少有t个关键字)。则将u中的一个关键字降至u.p_i​,同时令u.p_i的最"丰满"的兄弟中升一个关键至u。然后继续扫描B树,寻找k

(2) 如果u.p_i​的两个相邻的兄弟都不"丰满"(都只有t−1个关键字)。则令u.p_i​和其一个兄弟合并,再将u的一个关键字降至新合并的节点。使之成为该节点的中间关键字。

举个例子,就可以清晰看到上面说的这几种删除的情况。拿下图所示的最小度为3的B树为例(即树中除根和叶子之外的节点只能有2,3,4,5四种情况的关键字个数):

Step 1: 删除上图中的关键字F,过程如下:先扫描根节点(含P),再扫描其左孩子(含CGM),发现丰满,继续扫描到左起第二个叶子,然后就是符合 Case - 1 的情况了。结果如下图所示:

Step 2: 再删除M,此时遇到**Case - 2(1)**的情况,结果如下图所示:

Step 3: 再删除G,G的前驱、后驱都是不丰满的。也就是**Case - 2(3)**的情况,结果如下图所示:

Step 4: 再删除D,扫描至含CL的节点后,发现它不丰满,且他的兄弟也不丰满。则将节点CL和TX合并,并降关键字P至新合并的节点。也就是**Case - 3(2)**的情况,结果如下图所示,此时,树高减1:

Step 5: 再删除B,也就是**Case - 3(1)**的情况,结果如下图所示:

下面总结一下B树的删除原理:

  1. 基本原则是不能破坏关键字个数的限制;
  2. 如果在当前节点中,找到了要删的关键字,且当前节点为内部节点。那么,如果有比较丰满的前驱或后继,借一个上来,再把要删的关键字降下去,在子树中递归删除;如果没有比较丰满的前驱或后继,则令前驱与后继合并,把要删的关键字降下去,递归删除;
  3. 如果在当前节点中,还未找到要删的关键字,且当前节点为内部节点。那么去找下一步应该扫描的孩子,并判断这个孩子是否丰满,如果丰满,继续扫描;如果不丰满,则看其有无丰满的兄弟,有的话,从父亲那里接一个,父亲再找其最丰满的兄弟借一个;如果没有丰满的兄弟,则合并,再令父亲下降,以保证B树的结构。

B+树

B+树的定义

B+树是B树的一种变形,它更适合实际应用中操作系统的文件索引和数据库索引。定义如下:(为和大多资料保持一致,这里使用阶数m来定义B+树,而不像之前的B树中,使用的是最小度t来定义)

  1. 除根节点外的内部节点,每个节点最多有m个关键字,最少有⌈ \frac {m}{2} ⌉个关键字。其中每个关键字对应一个子树(也就是最多有m棵子树,最少有⌈ \frac {m}{2} ⌉棵子树);
  2. 根节点要么没有子树,要么至少有2棵子树;
  3. 所有的叶子节点包含了全部的关键字以及这些关键字指向文件的指针,并且:
  • 所有叶子节点中的关键字按大小顺序排列
  • 相邻的叶子节点顺序链接(相当于是构成了一个顺序链表)
  • 所有叶子节点在同一层
  1. 所有分支节点的关键字都是对应子树中关键字的最大值

比如,下图就是一个非常典型的B+树的例子。

B+树和B树相比,主要的不同点在以下3项:

  1. 内部节点中,关键字的个数与其子树的个数相同,不像B树种,子树的个数总比关键字个数多1个
  2. 所有指向文件的关键字及其指针都在叶子节点中,不像B树,有的指向文件的关键字是在内部节点中。换句话说,B+树中,内部节点仅仅起到索引的作用,
  3. 在搜索过程中,如果查询和内部节点的关键字一致,那么搜索过程不停止,而是继续向下搜索这个分支。

根据B+树的结构,我们可以发现B+树相比于B树,在文件系统,数据库系统当中,更有优势,原因如下:

  1. B+树的磁盘读写代价更低

B+树的内部结点并没有指向关键字具体信息的指针。因此其内部结点相对B树更小。如果把所有同一内部结点的关键字存放在同一盘块中,那么盘块所能容纳的关键字数量也越多。一次性读入内存中的需要查找的关键字也就越多。相对来说I/O读写次数也就降低了。

  1. B+树的查询效率更加稳定

由于内部结点并不是最终指向文件内容的结点,而只是叶子结点中关键字的索引。所以任何关键字的查找必须走一条从根结点到叶子结点的路。所有关键字查询的路径长度相同,导致每一个数据的查询效率相当。

  1. B+树更有利于对数据库的扫描

B树在提高了磁盘IO性能的同时并没有解决元素遍历的效率低下的问题,而B+树只需要遍历叶子节点就可以解决对全部关键字信息的扫描,所以对于数据库中频繁使用的range query,B+树有着更高的性能。

聚集索引和非聚集索引

聚集索引

该索引中键值的逻辑顺序决定了表中相应行的物理顺序。

聚集索引确定表中数据的物理顺序。聚集索引类似于电话簿,后者按姓氏排列数据。由于聚集索引规定数据在表中的物理存储顺序,因此一个表只能包含一个聚集索引。但该索引可以包含多个列(组合索引),就像电话簿按姓氏和名字进行组织一样。

非聚集索引

该索引中索引的逻辑顺序与磁盘上行的物理存储顺序不同。

索引是通过二叉树的数据结构来描述的,我们可以这么理解聚簇索引:索引的叶节点就是数据节点。而非聚簇索引的叶节点仍然是索引节点,只不过有一个指针指向对应的数据块。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,847评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,208评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,587评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,942评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,332评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,587评论 1 218
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,853评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,568评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,273评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,542评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,033评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,373评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,031评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,073评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,830评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,628评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,537评论 2 269

推荐阅读更多精彩内容

  • 参考:B树和B+树的总结B树、B-树、B+树、B*树都是什么 总结 利用平衡树的优势加快查询的稳定性和速度;B+树...
    小小少年Boy阅读 57,936评论 8 78
  • B树的定义 一棵m阶的B树满足下列条件: 树中每个结点至多有m个孩子。 除根结点和叶子结点外,其它每个结点至少有m...
    文档随手记阅读 13,012评论 0 25
  • 我是日记星球239号星宝宝,来自深圳的叶子。我是日记星球第五期的学员,我相信日积月累的力量,最美的年纪遇到最美的自...
    水晶妈咪阅读 693评论 0 0
  • 钰姬参悟升仙已经有近万余年了,天宫的日子漫长而乏味,数千年如一日的无聊,对比人间在新元之后的巨变,天宫还是老模样,...
    易洵都阅读 667评论 0 0
  • 冬冬奎是什么?土家族的吹奏乐器。今天我们就来说说关于冬冬奎的故事。 很早以前,他砂(地名)的索多,坐着(住着)两兄...
    三漫的小七嘭嘭阅读 1,109评论 0 1