树是一种常见的数据结构,对几种常见的树形结构做一个总结。
从搜索问题开始,对于一个给定的数据表,查询某个特定元素所在的位置或者特定元素的各种数据是一个很常见的问题。例如从一个数组中查询指定元素所在的位置。
搜索最基础的方法是线性查找,从表中第一个元素遍历,和特定的元素做比较,如果相等,则查找成功,返回对应的位置,如果遍历到最后也没有找到该元素,说明元素不在数据表中。显然,这种查找方式效率较低,时间负载度为O(n).
二分查找是一种效率较高的方法,但是前提是要求数据已经有序。首先拿目标元素和表的中值做比较,如果小于中值,则说明目标元素可能在左半部分,则和左半部分的中值再做比较;如果大于中值,则和右半部分的中值再做比较,以此类推,直到找到目标元素或者可以判断目标不在表中。如下图所示:
在[1,2,3,4,5,6,7,8,9,10]中寻找数字9的位置,首先用9和表中的中值5比较,大于5,判断目标元素9可能在右半部分,然后和右半部分的中值8比较,大于8,判断目标元素9可能在右半部分,继续和右半部分的中值比较,发现相等,目标元素被命中。二分查找的时间复杂度O(logN)。
在二分查找过程中,每次都是按位置去获取元素,所以要求表结构只能是顺序表,而不能是链表。因为顺序表的插入和删除效率比较低,如果数据表中的数据需要频繁变化,则维护这样的有序表效率非常低,这种情况下可以使用搜索树。
二叉搜索树
二叉搜索树也是一种二叉树,只不过满足特定的条件:对于任何一个节点node,其左子树上所有的节点都不大于node,其右子树上所有的节点都不小于node,下图的二叉树就满足二叉搜索树的条件。在理想的情况下,搜索二叉树的搜索、添加节点和删除节点的时间复杂度是O(logN).
二叉搜索树的查找操作比较简单,类似于二分查找,首先和根节点比较,如果小于根节点,说明目标元素可能在左子树中,则和左节点比较,如果大于根节点,则说明目标元素可能在右子树中,则和右节点比较,以此类推。如果查找到树的叶节点,仍然没有和目标元素相匹配的节点,则说明目标节点不存在。例如在上图中查找数字7,具体比较过程如下:
首先将7和5比较,大于5,则搜索5的右节点6,大于6,继续搜索6的右节点8,小于8,则搜索8的左节点,相等,命中目标。
另外对于一棵二叉搜索树,寻找最小值和最大值也比较容易,一直遍历左子树就可以找到最小值,一直遍历右子树就可以找到最大值。
之前说过,相对于二分查找,二叉搜索树更容易插入和删除数据。插入和删除操作不能破坏搜索树的性质。首先看数据的插入,过程非常简单,就用待插入的数据和树中的节点按之前搜索的规则遍历,找到可以插入的位置。例如在上面的图中插入数据1,首先1和5比较,小于5,则和5的左节点4比较,小于4,则和4的左节点3比较,小于3,因为3已经没有左节点了,则将1插入到3的左节点中,结果如下:
二叉搜索树的删除比插入复杂一点,分三种情况:
- 待删除节点没有子节点,则直接删除。
- 待删除节点只有一个左子节点或者右子节点,则用子节点替换当前节点。
-
待删除节点左子节点和右子节点都存在,这种情况可能比较麻烦,需要处理一下右子树。
从以上操作可以看出,对一颗二叉树做搜索、插入、删除等操作,效率与树高有关,期望的时间为再度为O(logN)。但是有些特殊情况下,查找的效率也很低,甚至退化成线性查找,例如下图也满足二叉搜索树的性质,但是在查找的过程中始终是遍历右子树,和线性查找的比较次数一样,时间复杂度为O(N).
既然二叉树的操作效率和树高有关系,那么在建立二叉搜索树的过程中可以限制树的高度,平衡二叉树可以解决这个问题。
平衡二叉树
平衡二叉树也是一个二叉搜索树,只不过在此基础上满足另外一个条件,即:树中任意一个节点的左子树和右子树的高度差不会超过1.平衡二叉树的查找过程和二叉搜索的过程一样,时间复杂度O(logN)。插入和删除的过程比较复杂,在处理的过程中需要维护平衡二叉树的性质。
-----------------------------------留坑----------------------------
红黑树
由于平衡二叉树的插入和删除操作复杂,引入了近似于平衡的红黑树。红黑树应用的比较多,例如HashMap的实现。
B树
B树和B+树类似于红黑树,不同之处在于B树的节点可以有很多子节点,主要是为了数据存储在磁盘的应用场景。如果内存可以放下所有的数据,对于一颗平衡树,访问效率会很高。但是如果数据量比较大,数据保存在磁盘上,即使树是平衡的,树高还是会很大,查找的时候需要多次访问磁盘,效率会比较低。B树是针对磁盘的结构设计的一种结构,可以减少磁盘的读取次数,同时做顺序读写。