数据结构-二叉堆

思考?

◼ 设计一种数据结构,用来存放整数,要求提供 3 个接口

  • 添加元素
  • 获取最大值
  • 删除最大值

◼ 有没有更优的数据结构?

✓ 获取最大值:O(1)、删除最大值:O(logn)、添加元素:O(logn)

Top K问题

◼ 什么是 Top K 问题
从海量数据中找出前 K 个数据

◼ 比如
从 100 万个整数中找出最大的 100 个整数

◼ Top K 问题的解法之一:可以用数据结构“堆”来解决

堆(Heap)

◼ 堆(Heap)也是一种树状的数据结构(不要跟内存模型中的“堆空间”混淆),常见的堆实现有

  • 二叉堆(Binary Heap,完全二叉堆)
  • 多叉堆(D-heap、D-ary Heap)
  • 索引堆(Index Heap)
  • 二项堆(Binomial He p)
  • 斐波那契堆(Fibonacci Heap)
  • 左倾堆(Leftist Heap,左式堆)
  • 斜堆(Skew Heap)

◼ 堆的一个重要性质:任意节点的值总是 ≥( ≤ )子节点的值
如果任意节点的值总是 ≥ 子节点的值,称为:最大堆大根堆大顶堆
如果任意节点的值总是 ≤ 子节点的值,称为:最小堆小根堆小顶堆


◼ 由此可见,堆中的元素必须具备可比较性(跟二叉搜索树一样)

堆的基本接口设计

package com.njf;

public interface Heap <E>{
    int size(); // 元素的数量
    boolean isEmpty();  // 是否为空
    void clear();   // 清空
    void add(E element);     // 添加元素
    E get();    // 获得堆顶元素
    E remove(); // 删除堆顶元素
    E replace(E element); // 删除堆顶元素的同时插入一个新元素
}

二叉堆(Binar y Heap)

二叉堆的逻辑结构就是一棵完全二叉树,所以也叫完全二叉堆
◼ 鉴于完全二叉树的一些特性,二叉堆的底层(物理结构)一般用数组实现即可


◼ 索引 i 的规律( n 是元素数量)
如果 i = 0 ,它是根节点
如果 i > 0 ,它的父节点的索引为 floor( (i – 1) / 2 )
如果 2i + 1 ≤ n – 1,它的左子节点的索引为 2i + 1
如果 2i + 1 > n – 1 ,它无左子节点

如果 2i + 2 ≤ n – 1 ,它的右子节点的索引为 2i + 2
如果 2i + 2 > n – 1 ,它无右子节点

最大堆 – 添加

总结

◼ 循环执行以下操作(图中的 80 简称为 node)
如果 node > 父节点
✓ 与父节点交换位置

如果 node ≤ 父节点,或者 node 没有父节点
✓ 退出循环

◼ 这个过程,叫做上滤(Sift Up)
时间复杂度:O(logn)

@Override
    public void add(E element) {
        //二叉堆节点元素具备可比较性,所以添加元素不能为空
        elementNotNullCheck(element);
        //扩容
        ensureCapacity(size + 1);
        //在数组的尾部添加元素
        elements[size] = element;
        //上滤
        siftUp(size);
        size ++;
    }
    /**
     * 让index位置的元素上滤
     * @param index
     */
    private void siftUp(int index) {
        E element = elements[index];
        while (index > 0) {//只有index > 0 才会触发上滤
            //获取父节点的index
            int parentIndex = (index - 1) >> 1;
            E parentElement = elements[parentIndex];
            if (compare(element, parentElement) <= 0) return;
            // 交换index、parentIdex位置的内容
            E tmp = elements[index];
            elements[index] = elements[parentIndex];
            elements[parentIndex] = tmp;
            //重新赋值index,开启下一轮循环
            index = parentIndex;
        }
    }

最大堆 – 添加 – 交换位置的优化

◼ 一般交换位置需要3行代码,可以进一步优化
将新添加节点备份,确定最终位置才摆放上去


◼ 仅从交换位置的代码角度看
可以由大概的 3 * O(logn) 优化到 1 * O(logn) + 1


    /**
     * 让index位置的元素上滤
     * @param index
     */
    private void siftUp(int index) {
        E element = elements[index];
        while (index > 0) {//只有index > 0 才会触发上滤
            //获取父节点的index
            int parentIndex = (index - 1) >> 1;
            E parentElement = elements[parentIndex];
            if (compare(element, parentElement) <= 0) break;
            // 交换index、parentIdex位置的内容
            elements[index] = elements[parentIndex];
            //重新赋值index,开启下一轮循环
            index = parentIndex;
        }
        elements[index] = element;
    }

最大堆 – 删除

总结


1. 用最后一个节点覆盖根节点
2. 删除最后一个节点
3. 循环执行以下操作(图中的 43 简称为 node)
如果 node < 最大的子节点
✓ 与最大的子节点交换位置
如果 nod ≥ 最大的子节点, 或者 node 没有子节点
✓ 退出循环

◼ 这个过程,叫做下滤(Sift Down),时间复杂度:O(logn)
◼ 同样的,交换位置的操作可以像添加那样进行优化

    @Override
    public E remove() {
        emptyCheck();
        E root = elements[0];
        elements[0] = elements[size -1];
        elements[size - 1] = null;
        size --;
        siftDown(0);
        return root;
    }

下滤

/**
     * 让index位置的元素下滤
     * @param index
     */
    private void siftDown(int index) {
        E element = elements[index];
        int half = size >> 1;
        // 第一个叶子节点的索引 == 非叶子节点的数量
        // index < 第一个叶子节点的索引
        // 必须保证index位置是非叶子节点
        while (index < half) {
            // index的节点有2种情况
            // 1.只有左子节点
            // 2.同时有左右子节点
                        
            // 默认为左子节点跟它进行比较
            int childIndex = (index << 1) + 1;
            E child = elements[childIndex];
            // 右子节点
            int rightIndex = childIndex + 1;
            // 选出左右子节点最大的那个
            if (rightIndex < size && compare(elements[rightIndex], child) > 0) {
                child = elements[childIndex = rightIndex];
            }
            if (compare(element, child) >= 0) break;
            // 将子节点存放到index位置
            elements[index] = child;
            // 重新设置index
            index = childIndex;
        }
        elements[index] = element;
    }

完全二叉树的性质:非叶子结点个数 n1 + n2 = floor( n / 2 ) = ceiling( (n – 1) / 2 )

break 跳出总上一层循环,不再执行循环(结束当前的循环体)
continue 跳出本次循环,继续执行下次循环(结束正在执行的循环 进入下一个循环条件)
return 程序返回,不再执行下面的代码(结束当前的方法 直接返回)

最大堆 – 批量建堆(Heapify)

◼ 批量建堆,有 2 种做法

  • 自上而下的上滤
  • 自下而上的下滤

最大堆 – 批量建堆 – 自上而下的上滤

for (int i = 1; i < size; i++) {
    siftUp(i);
}

最大堆 – 批量建堆 – 自下而上的下滤

// 自下而上的下滤
for (int i = (size >> 1) - 1; i >= 0; i--) {
    siftDown(i);
}

最大堆 – 批量建堆 – 效率对比


◼ 所有节点的深度之和
仅仅是叶子节点,就有近 n/2 个,而且每一个叶子节点的深度都是 O(logn) 级别的
因此,在叶子节点这一块,就达到了 O(nlogn) 级别
O(nlogn) 的时间复杂度足以利用排序算法对所有节点进行全排序

◼ 所有节点的高度之和
假设是满树,节点总个数为 n,树高为 h,那么 n = 2^h − 1


公式推导
public BinaryHeap(E[] elements,Comparator<E> comparator) {
        this.comparator = comparator;
        if (elements == null || elements.length == 0) {
            this.elements = (E[]) new Object[DEFAULT_CAPACITY];
        }else {
            size = elements.length;
            int capacity = Math.max(elements.length, DEFAULT_CAPACITY);
            this.elements = (E[]) new Object[capacity];
            for (int i = 0; i < elements.length; i++) {
                this.elements[i] = elements[i];
            }
            //批量建堆
            heapify();
        }
    }
    /**
     * 批量建堆
     */
    private void heapify() {
        // 自上而下的上滤
//      for (int i = 1; i < size; i++) {
//          siftUp(i);
//      }

        // 自下而上的下滤
        for (int i = (size >> 1) - 1; i >= 0; i--) {
            siftDown(i);
        }
    }

如何构建一个小顶堆?

Integer[] data = {88, 44, 53, 41, 16, 6, 70, 18, 85, 98, 81, 23, 36, 43, 37};
BinaryHeap<Integer> heap = new BinaryHeap<>(data, new Comparator<Integer>() {
    public int compare(Integer o1, Integer o2) {
        return o2 - o1;
    }
});

Top K问题

◼ 从 n 个整数中,找出最大的前 k 个数( k 远远小于 n )
◼ 如果使用排序算法进行全排序,需要 O(nlogn) 的时间复杂度
◼ 如果使用二叉堆来解决,可以使用 O(nlogk) 的时间复杂度来解决
1. 新建一个小顶堆
2. 扫描 n 个整数
✓ 先将遍历到的前 k 个数放入堆中
✓ 从第 k + 1 个数开始,如果大于堆顶元素,就使用 replace 操作(删除堆顶元素,将第 k + 1 个数添加到堆中)
3. 扫描完毕后,堆中剩下的就是最大的前 k 个数

// 新建一个小顶堆
BinaryHeap<Integer> heap = new BinaryHeap<>(new Comparator<Integer>() {
    public int compare(Integer o1, Integer o2) {
        return o2 - o1;
    }
});
        
// 找出最大的前k个数
int k = 3;
Integer[] data = {51, 30, 39, 92, 74, 25, 16, 93, 
        91, 19, 54, 47, 73, 62, 76, 63, 35, 18, 
        90, 6, 65, 49, 3, 26, 61, 21, 48};
for (int i = 0; i < data.length; i++) {
    if (heap.size() < k) { // 前k个数添加到小顶堆
    heap.add(data[i]); // logk
    } else if (data[i] > heap.get()) { // 如果是第k + 1个数,并且大于堆顶元素
        heap.replace(data[i]); // logk
    }
}

◼ 如果是找出最小的前 k 个数呢?
用大顶堆
如果小于堆顶元素,就使用 replace 操作

二叉堆的完整代码

package com.njf;

import java.util.Comparator;

import njf.printer.BinaryTreeInfo;

@SuppressWarnings("unused")

public class BinaryHeap<E> implements Heap<E>,BinaryTreeInfo{

    private static final int DEFAULT_CAPACITY = 10;
    
    private int size;
    private E[] elements;
    private Comparator<E> comparator;
    
    public BinaryHeap(E[] elements,Comparator<E> comparator) {
        this.comparator = comparator;
        if (elements == null || elements.length == 0) {
            this.elements = (E[]) new Object[DEFAULT_CAPACITY];
        }else {
            size = elements.length;
            int capacity = Math.max(elements.length, DEFAULT_CAPACITY);
            this.elements = (E[]) new Object[capacity];
            for (int i = 0; i < elements.length; i++) {
                this.elements[i] = elements[i];
            }
            //批量建堆
            heapify();
        }
    }
    
    public BinaryHeap (E[] elements) {
        this(elements,null);
    }
    
    public BinaryHeap (Comparator<E> comparator) {
        this(null,comparator);
    }
    
    public BinaryHeap () {
        this(null,null);
    }
    
    @Override
    public int size() {
        return size;
    }

    @Override
    public boolean isEmpty() {
        return size == 0;
    }

    @Override
    public void clear() {
        for (int i = 0; i < size; i++) {
            elements[i] = null;
        }
        size = 0;
        
    }

    @Override
    public void add(E element) {
        //二叉堆节点元素具备可比较性,所以添加元素不能为空
        elementNotNullCheck(element);
        //扩容
        ensureCapacity(size + 1);
        //在数组的尾部添加元素
        elements[size] = element;
        //上滤
        siftUp(size);
        size ++;
    }

    @Override
    public E get() {
        //检测二叉对是否为空
        emptyCheck();
        return elements[0];
    }

    @Override
    public E remove() {
        emptyCheck();
        E root = elements[0];
        elements[0] = elements[size -1];
        elements[size - 1] = null;
        size --;
        siftDown(0);
        return root;
    }

    @Override
    public E replace(E element) {
        elementNotNullCheck(element);
        if (size == 0) {
            elements[0] = element;
            size ++;
        }else {
            E root = elements[0];
            elements[0] = element;
            siftDown(0);
            return root;
        }
        return null;
    }
    
    /**
     * 批量建堆
     */
    private void heapify() {
        // 自上而下的上滤
//      for (int i = 1; i < size; i++) {
//          siftUp(i);
//      }

        // 自下而上的下滤
        for (int i = (size >> 1) - 1; i >= 0; i--) {
            siftDown(i);
        }
    }
    
    /**
     * 让index位置的元素下滤
     * @param index
     */
    private void siftDown(int index) {
        E element = elements[index];
        //完全二叉树的性质:非叶子结点个数 n1 + n2 = floor( n / 2 ) = ceiling( (n – 1) / 2 )
        int half = size >> 1;
        // 第一个叶子节点的索引 == 非叶子节点的数量
        // index < 第一个叶子节点的索引
        // 必须保证index位置是非叶子节点
        while (index < half) {
            // index的节点有2种情况
            // 1.只有左子节点
            // 2.同时有左右子节点
                        
            // 默认为左子节点跟它进行比较
            int childIndex = (index << 1) + 1;
            E child = elements[childIndex];
            // 右子节点
            int rightIndex = childIndex + 1;
            // 选出左右子节点最大的那个
            if (rightIndex < size && compare(elements[rightIndex], child) > 0) {
                child = elements[childIndex = rightIndex];
            }
            if (compare(element, child) >= 0) break;
            // 将子节点存放到index位置
            elements[index] = child;
            // 重新设置index
            index = childIndex;
        }
        elements[index] = element;
    }
    
    /**
     * 让index位置的元素上滤
     * @param index
     */
    private void siftUp(int index) {
//      E element = elements[index];
//      while (index > 0) {//只有index > 0 才会触发上滤
//          //获取父节点的index
//          int parentIndex = (index - 1) >> 1;
//          E parentElement = elements[parentIndex];
//          if (compare(element, parentElement) <= 0) return;
//          // 交换index、parentIdex位置的内容
//          E tmp = elements[index];
//          elements[index] = elements[parentIndex];
//          elements[parentIndex] = tmp;
//          //重新赋值index,开启下一轮循环
//          index = parentIndex;
//      }
        E element = elements[index];
        while (index > 0) {//只有index > 0 才会触发上滤
            //获取父节点的index
            int parentIndex = (index - 1) >> 1;
            E parentElement = elements[parentIndex];
            if (compare(element, parentElement) <= 0) break;
            // 交换index、parentIdex位置的内容
            elements[index] = elements[parentIndex];
            //重新赋值index,开启下一轮循环
            index = parentIndex;
        }
        elements[index] = element;
    }
    
    /**
     * 保证要有capacity的容量
     * @param capacity
     */
    private void ensureCapacity(int capacity) {
        int oldCapacity = elements.length;
        if (oldCapacity >= capacity) return;
        // 新容量为旧容量的1.5倍
        int newCapacity = oldCapacity + (oldCapacity >> 1);//位运算
        E[] newElements = (E[]) new Object[newCapacity];
        for (int i = 0; i < size; i++) {
            newElements[i] = elements[i];
        }
        elements = newElements;
    }
    
    private int compare(E e1, E e2) {
        return comparator != null ? comparator.compare(e1, e2) : ((Comparable<E>)e1).compareTo(e2);
    }
    
    private void emptyCheck() {
        if (size == 0) {
            throw new IndexOutOfBoundsException("Heap is empty");
        }
    }

    private void elementNotNullCheck(E element) {
        if (element == null) {
            throw new IllegalArgumentException("element must not be null");
        }
    }
    
    /********************二叉树的打印****************/

    @Override
    public Object root() {
        return 0;
    }

    @Override
    public Object left(Object node) {
        int index = ((int)node << 1) + 1;
        return index >= size ? null : index;
    }

    @Override
    public Object right(Object node) {
        int index = ((int)node << 1) + 2;
        return index >= size ? null : index;
    }

    @Override
    public Object string(Object node) {
        return elements[(int)node];
    }
}

验证

package com.njf;

import java.util.Comparator;

import njf.printer.BinaryTrees;

public class Main {
    
    private static void test() {
        BinaryHeap <Integer> heap = new BinaryHeap<>();
        heap.add(68);
        heap.add(72);
        heap.add(43);
        heap.add(50);
        heap.add(38);
        heap.add(10);
        heap.add(90);
        heap.add(65);
        BinaryTrees.println(heap);
//      heap.remove();
//      BinaryTrees.println(heap);
        System.out.println(heap.replace(70));
        BinaryTrees.println(heap);
        
    }
    
    static void test1() {
        Integer[] data = {88, 44, 53, 41, 16, 6, 70, 18, 85, 98, 81, 23, 36, 43, 37};
        BinaryHeap<Integer> heap = new BinaryHeap<>(data);
        BinaryTrees.println(heap);
        
        data[0] = 10;
        data[1] = 20;
        BinaryTrees.println(heap);
    }
    
    static void test2() {
        Integer[] data = {88, 44, 53, 41, 16, 6, 70, 18, 85, 98, 81, 23, 36, 43, 37};
        BinaryHeap<Integer> heap = new BinaryHeap<>(data, new Comparator<Integer>() {
            public int compare(Integer o1, Integer o2) {
                return o2 - o1;
            }
        });
        BinaryTrees.println(heap);
    }
    
    static void test3() {
        // 新建一个小顶堆
        BinaryHeap<Integer> heap = new BinaryHeap<>(new Comparator<Integer>() {
            public int compare(Integer o1, Integer o2) {
                return o2 - o1;
            }
        });
        
        // 找出最大的前k个数
        int k = 3;
        Integer[] data = {51, 30, 39, 92, 74, 25, 16, 93, 
                91, 19, 54, 47, 73, 62, 76, 63, 35, 18, 
                90, 6, 65, 49, 3, 26, 61, 21, 48};
        for (int i = 0; i < data.length; i++) {
            if (heap.size() < k) { // 前k个数添加到小顶堆
                heap.add(data[i]); // logk
            } else if (data[i] > heap.get()) { // 如果是第k + 1个数,并且大于堆顶元素
                heap.replace(data[i]); // logk
            }
        }
        // O(nlogk)
        BinaryTrees.println(heap);
    }

    public static void main(String[] args) {
        test3();
    }
}
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,108评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,699评论 1 296
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,812评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,236评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,583评论 3 288
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,739评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,957评论 2 315
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,704评论 0 204
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,447评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,643评论 2 249
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,133评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,486评论 3 256
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,151评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,108评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,889评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,782评论 2 277
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,681评论 2 272