B+树总结

B+树特征

B+ 树是一种树数据结构,是一个n叉树,每个节点通常有多个孩子,一颗B+树包含根节点、内部节点和叶子节点。B+ 树通常用于数据库和操作系统的文件系统中。 B+ 树的特点是能够保持数据稳定有序,其插入与修改拥有较稳定的对数时间复杂度。 B+ 树元素自底向上插入。

一个m阶的B树具有如下几个特征:

1.根结点至少有两个子女。

2.每个中间节点都至少包含ceil(m / 2)个孩子,最多有m个孩子。

3.每一个叶子节点都包含k-1个元素,其中 m/2 <= k <= m。

4.所有的叶子结点都位于同一层。

5.每个节点中的元素从小到大排列,节点当中k-1个元素正好是k个孩子包含的元素的值域分划。

image.png

在本例中每一个父节点都出现在子节点中,是子节点最大或者最小的元素。而下面的例子中存在如果父结点存储的为子节点最小值,那么便不需要存储第一个子节点的内容。【例如子节点5、8--->10、15--->16、17、18意味着我父节点存10与16即可。而同样的例子如果父节点存最大值,那么便需要存8、15、18 】

在这里,根节点中最大的元素是15,也就是整个树中最大的元素。以后无论插入多少元素要始终保持最大元素在根节点当中。

每个叶子节点都有一个指针,指向下一个数据,形成一个有序链表。

image.png

而只有叶子节点才会有data,其他都是索引。

B+树与B树的区别

  • 有k个子结点的结点必然有k个关键码;
  • 非叶结点仅具有索引作用,跟记录有关的信息均存放在叶结点中。
  • 树的所有叶结点构成一个有序链表,可以按照关键码排序的次序遍历全部记录。

B+树的查询操作

在单元查询的时候,B+树会自定向下逐层查找,最终找到匹配的叶子节点。例如我们查找3 。

image.png

image.png
image.png

而B+树中间节点没有Data数据,所以同样大小的磁盘页可以容纳更多的节点元素。所以数据量相同的情况下,B+树比B树更加“矮胖“,因此使用的IO查询次数更少。

由于B树的查找并不稳定(最好的情况是查询根节点,最坏查询叶子节点)。而B树每一次查找都是稳定的。

比起B树,B+树 ①IO次数更少 ②查询性能很稳定 ③范围查询更简便

下面我放入一个讲解的很好的博客:https://blog.csdn.net/Fmuma/article/details/80287924

B+树的插入操作

①若为空树,那么创建一个节点并将记录插入其中,此时这个叶子结点也是根结点,插入操作结束。

此处的图片中例子的介数为5 。

a)空树中插入5。

image.png

②针对叶子类型结点:根据key值找到叶子结点,向这个叶子结点插入记录。插入后,若当前结点key的个数小于等于m-1(5-1 = 4),则插入结束。否则将这个叶子结点分裂成左右两个叶子结点,左叶子结点包含前m/2个(2个)记录,右结点包含剩下的记录,将第m/2+1个(3个)记录的key进位到父结点中(父结点一定是索引类型结点),进位到父结点的key左孩子指针向左结点,右孩子指针向右结点。将当前结点的指针指向父结点,然后执行第3步。

b)依次插入8,10,15。

image.png

c)插入16

image.png

插入16后超过了关键字的个数限制,所以要进行分裂。在叶子结点分裂时,分裂出来的左结点2个记录,右边3个记录,中间第三个数成为索引结点中的key(10),分裂后当前结点指向了父结点(根结点)。结果如下图所示。

image.png

③针对索引类型结点:若当前结点key的个数小于等于m-1(4),则插入结束。否则,将这个索引类型结点分裂成两个索引结点,左索引结点包含前(m-1)/2个key(2个),右结点包含m-(m-1)/2个key(3个),将第m/2个key进位到父结点中,进位到父结点的key左孩子指向左结点,,进位到父结点的key右孩子指向右结点。将当前结点的指针指向父结点,然后重复第3步。

d)插入17

image.png

e)插入18,插入后如下图所示

image.png

当前结点的关键字个数大于5,进行分裂。分裂成两个结点,左结点2个记录,右结点3个记录,关键字16进位到父结点(索引类型)中,将当前结点的指针指向父结点。

image.png

f)插入若干数据后


image.png

g)在上图中插入7,结果如下图所示

image.png

当前结点的关键字个数超过4,需要分裂。左结点2个记录,右结点3个记录。分裂后关键字7进入到父结点中,将当前结点的指针指向父结点,结果如下图所示。

image.png

当前结点的关键字个数超过4,需要继续分裂。左结点2个关键字,右结点2个关键字,关键字16进入到父结点中,将当前结点指向父结点,结果如下图所示。

image.png

当前结点的关键字个数满足条件,插入结束。

此处参考了:https://blog.csdn.net/Fmuma/article/details/80287924

B+树的删除操作

下面是一颗5阶B树的删除过程,5阶B数的结点最少2个key,最多4个key。

如果叶子结点中没有相应的key,则删除失败。否则执行下面的步骤。

①删除叶子结点中对应的key。删除后若结点的key的个数大于等于Math.ceil(m/2) – 1(>=2),删除操作结束,否则执行第2步。

a)初始状态

image.png

b)删除22,删除后结果如下图

image.png

删除后叶子结点中key的个数大于等于2,删除结束。

②若结点的key的个数小于Math.ceil(m/2) – 1(<2),且兄弟结点key有富余(大于Math.ceil(m/2)– 1)(>2),向兄弟结点借一个记录,同时用借到的key替换父结(指当前结点和兄弟结点共同的父结点)点中的key,删除结束。否则执行第3步。

c)删除15,删除后的结果如下图所示。


image.png

删除后当前结点只有一个key,不满足条件,而兄弟结点有三个key,可以从兄弟结点借一个关键字为9的记录,同时更新将父结点中的关键字由10也变为9,删除结束。

③若结点的key的个数小于Math.ceil(m/2) – 1(<2),且兄弟结点中没有富余的key(小于Math.ceil(m/2)– 1),则当前结点和兄弟结点合并成一个新的叶子结点,并删除父结点中的key,将当前结点指向父结点(必为索引结点),执行第4步(第4步以后的操作和B树就完全一样了,主要是为了更新索引结点)。

d)删除7,删除后的结果如下图所示

image.png

当前结点关键字个数小于2,(左)兄弟结点中的也没有富余的关键字(当前结点还有个右兄弟,不过选择任意一个进行分析就可以了,这里我们选择了左边的),所以当前结点和兄弟结点合并,并删除父结点中的key,当前结点指向父结点。

image.png

④若索引结点的key的个数大于等于Math.ceil(m/2) – 1(>=2),则删除操作结束。否则执行第5步。

⑤若兄弟结点有富余,父结点key下移,兄弟结点key上移,删除结束。否则执行第6步

⑥当前结点和兄弟结点及父结点下移key合并成一个新的结点。将当前结点指向父结点,重复第4步。

此时当前结点的关键字个数小于2,兄弟结点的关键字也没有富余,所以父结点中的关键字下移,和两个孩子结点合并,结果如下图所示。

image.png

注意,通过B+树的删除操作后,索引结点中存在的key,不一定在叶子结点中存在对应的记录。

借助文章推广一下个人的公众号,里面会定期分享一些系统底层的知识以及对相关知识的看法,欢迎大家关注!希望自己的学习总结能更好的推动计算机知识的发展!

image.png

推荐阅读更多精彩内容

  • B树的定义 一棵m阶的B树满足下列条件: 树中每个结点至多有m个孩子。 除根结点和叶子结点外,其它每个结点至少有m...
    笨尛孩你谁啊阅读 5,511评论 0 22
  • 栈 1. 栈(stack)又名堆栈,它是一种运算受限的线性表。其限制是仅允许在表的一端进行插入和删除运算。这一端被...
    程序员高级码农阅读 4,014评论 0 8
  • B树 1.前言: 动态查找树主要有:二叉查找树(Binary Search Tree),平衡二叉查找树(Balan...
    铁甲依然在_978f阅读 520评论 0 4
  • 原文链接 B树 1.前言: 动态查找树主要有:二叉查找树(Binary Search Tree),平衡二叉查找树(...
    非典型程序员阅读 462评论 0 2
  • 一些概念 数据结构就是研究数据的逻辑结构和物理结构以及它们之间相互关系,并对这种结构定义相应的运算,而且确保经过这...
    Winterfell_Z阅读 2,226评论 0 10