深夜学算法之Bloom Filter：概率游戏

1. 前言

Bloom Filter的名字早有耳闻，但一直没看实现原理。今天乘地铁时心血来潮看了算法，顿时被其简单与优雅震惊。摘录下wiki上的介绍：

A Bloom filter is a space-efficient probabilistic data structure, conceived by Burton Howard Bloom in 1970, that is used to test whether an element is a member of a set.
Bloom Filter是一种高效利用空间的概率数据结构，由Burton Howard Bloom于1970年发明，用于检测一个元素是否属于一个集合。

讲个小插曲，我刚开始以为bloom作「开花，繁盛」解，没想到是发明人的名字，真相总是没有想象的美好呢…

我的实现：https://github.com/liquidconv/DSAF

2. 学习Bloom Filter

2.1 爬虫与集合操作

Bloom Filter通常和爬虫联系在一起，所以用这个例子解释其特性再好不过。爬虫最常用的抓取方法是广度优先搜索BFS，概括地说就是：

维护一个待访问链接的队列
每次将队首元素，即里第一个链接出队
将该链接对应的页面上所有链接入队
重复1~3至队列空为止

上面的描述里存在一个很大的问题——第三步里要加入队列的链接可能没有访问过，可能已经访问过，如果不做判断一律加入的话，一个相同的页面就可能被访问几千几万次，造成资源浪费。

要解决也很简单，只要维护一个访问过链接的集合就可以了。链接入队之前，先判断是否属于该集合，即是否已经访问过了，属于就不入队，不属于才入队。

2.2 思考

我们需要一个「集合」数据结构，至少要能够支持插入元素到集合和判断元素是否属于集合——也就是插入和属于这两种操作，要怎么实现呢？

可行思路：数组/链表/树/哈希表

暂时不考虑插入和查找操作的时间复杂度，上面每种做法里数据单元（数组的元素，链表和树的节点，哈希表的表项）定义形式基本都是：

typedef struct data_item {
    key k;     // 原始数据，或者原始数据的hash值等
    extra e ;  // 附加信息，指向其它节点的指针等
};

每次向集合插入元素都要生成新的data_item，空间复杂度是O(N)，大数据情况下hold不住。

算法里经常有时空权衡的问题，可以用空间换时间保存子问题结果，比如动态规划；可以用时间换空间，比如用泰勒展开计算三角函数。当时间和空间都不能牺牲的时候，就只能牺牲正确率了。Bloom Filter之所以称为概率数据结构，就是因为它的操作结果有一定概率是错误的。

2.3 图解Bloom Filter

Bloom Filter的核心是一个m位的bitset和k个hash函数。

初始时bitset中所有位的值都设置为0，假设取m = 10，k = 3，用蓝色表示某位为0，红色表示为1：

初始化时的bitset

插入元素的过程是三步走：

计算k个hash值
将k个hash值对m取模得到k个下标
将bitset中k个下标对应的位设置为1

比如向刚才的Bloom Filter插入元素“Alice”。分别用3个hash函数计算“Alice”的hash值，将hash值对10取模，得到在[0, 10)范围内的r1、r2、r3，假设计算结果为：

r1 = h1("Alice") % m = 1
r2 = h2("Alice") % m = 3
r3 = h3("Alice") % m = 5

于是将bitset中第1位、第3位和第5位的值置为1：

第一次插入后的bitset

再插入元素“Bob”的过程还是一样的，假设：

r1 = h1("Bob") % m = 8
r2 = h2("Bob") % m = 2
r3 = h3("Bob") % m = 3

那就将bitset中第2位、第3位、第8位的值置为1（值已经为1的第3位不动）：

第二次插入后的bitset

图形化思考的话就是，Bloom Filter运行过程中不断插入新元素，bitset里的0逐渐被翻转成1。

怎么判断元素“Alice”是否在集合里呢？同样还是三步走：

计算k个hash值
将k个hash值对m取模得到k个下标
检查bitset中k个下标对应的位是否都为1

如果Bloom Filter里有“Alice”，那bitset中相应的k位值显然都为1。问题是即使Bloom Filter里没有“Alice”，还是可能由于之前插入的元素而导致“Alice”对应的k位值都为1，因此会错误地认为集合里已经有“Alice”了，这就是Bloom Filter会出错的地方。

由于bitset里每位都和多个元素有关，将某个为1的位置为0，涉及到这位的元素都会被认为不属于集合，所以Bloom Filter不支持删除操作。

2.4 复杂度分析

空间复杂度方面，Bloom Filter不会动态增长，运行过程中维护的始终只是m位的bitset，所以空间复杂度只有O(m)。

时间复杂度方面，Bloom Filter的插入与属于操作主要都是在计算k个hash，所以都是O(k)。

3. 实现Bloom Filter

3.1 定义Bloom Filter类

STL里的bitset定义时就要给定长度，而且之后不能改变，所以我用了vector<bool>。

#ifndef __BLOOM_FILTER_H__
#define __BLOOM_FILTER_H__

#include <vector>
#include <string>

class BloomFilter {
    public:
        BloomFilter(unsigned int m, unsigned int k);
        void insertElement(std::string s);
        bool existsElement(std::string s);
    private:
        unsigned int BKDR_Hash(std::string s, unsigned int i);
        unsigned int getSeed(unsigned int hash_index);
        std::vector<bool> table;
        unsigned int _m;
        unsigned int _k;
};

#endif // __BLOOM_FILTER_H__

定义非常简单：

_m是bitset的大小，table是bitset
_k是hash函数的数量
BKDR_Hash是使用了参数seed的hash函数
用getSeed生成_k种seed，相当于有了_k种hash函数
insertElement对于插入操作
existsElement对应查找操作

构造函数

BloomFilter::BloomFilter(unsigned int m, unsigned int k):
    _m(m), _k(k) {
        table.resize(_m);
        for(int i = 0; i < _m; ++i)
            table[i] = false;
}

3.2 插入与属于

插入操作 = 计算_k个hash值，将table中对应位置改为true：

void BloomFilter::insertElement(string s) {
    for(int i = 0; i < _k; ++i) {
        unsigned int index = BKDR_Hash(s, i);
        table[index] = true;
    }
}

属于操作 = 计算_k个hash值，检查table中对应位置是否都为true：

bool BloomFilter::existsElement(string s) {
    for(int i = 0; i < _k; ++i) {
        unsigned int index = BKDR_Hash(s, i);
        if(!table[index])
            return false;
    }
    return true;
}

3.3 BKDR Hash

选择BKDR Hash最主要的原因就是有参数seed，很容易就能构造一族Hash函数。seed是个「魔数」（magic number），所以不用多纠结，推荐取的值为：
131,1313,13131,...

生成第hash_index个Hash函数的seed：

unsigned int BloomFilter::getSeed(unsigned int hash_index) {
    string seed = "13";
    for(int i = 0; i < hash_index; ++i)
        seed += (i % 2 == 0)? "1" : "3";

    return atoi(seed.c_str());
}

用第hash_index个Hash函数计算字符串s的hash值：

unsigned int BloomFilter::BKDR_Hash(string s, unsigned int hash_index) {
    const char *ps = s.c_str();
    unsigned int seed = getSeed(hash_index);
    unsigned int hash = 0;

    for(int i = 0; i < s.size(); ++i)
        hash += hash * seed + ps[i];

    return hash % _m;
}

4. 数学部分

Bloom Filter的原理已经讲完，但还是有必要提一下错误率的问题。错误率有两种：

FP = false positive
FN = false negative

对应Bloom Filter的情况下，FP就是「集合里没有某元素，查找结果是有该元素」，FN就是「集合里有某元素，查找结果是没有该元素」。FN显然总是0，FP会随着Bloom Filter中插入元素的数量而增加——极限情况就是所有bit都为1，这时任何元素都会被认为在集合里。

FP的推导并不复杂，wiki上有非常详细的过程，这里就简单地抄个结果，其中n是当前集合里元素的数量：

FP表达式，截自wiki

从这个公式里可以读出一些直观的信息：

n = 0时，FP = 0；n趋于无穷大时，FP趋于1
k/m和n保持不变时，k越大，FP越小

m和k决定了Bloom Filter的「容量」，当然hash函数的选择也很重要。

5. 参考资料

Bloom Filter
https://en.wikipedia.org/wiki/Bloom_filter
Precision and recall
https://en.wikipedia.org/wiki/Precision_and_recall
BloomFilter——大规模数据处理利器
http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.html
各种Hash函数和代码
http://www.cppblog.com/bellgrade/archive/2009/09/29/97565.html

最后编辑于：2018.05.28 12:25:41

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,716评论 4赞 364
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,558评论 1赞 294
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,431评论 0赞 244
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,127评论 0赞 209
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,511评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,692评论 1赞 222
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,915评论 2赞 313
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,664评论 0赞 202
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,412评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,616评论 2赞 245
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,105评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,424评论 2赞 254
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,098评论 3赞 238
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,096评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,869评论 0赞 197
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,748评论 2赞 276
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,641评论 2赞 271