Bloom filter & Cuckoo filter

  过滤器在数据科学中的应用十分广泛,包括数据库查询、数据快速检索,数据去重等等。过滤器的出现是为了解决在大量数据的环境下,能够更好更快的(节省计算资源或者存储资源)筛查数据的需求。

实际的应用场景有:

  • 爬虫程序的URL识别:即爬虫在访问 URL 时对 URL 进行判断,如果访问过(在集合中)就不访问,如果没有访问过那么就访问然后放入已访问集合,提高爬虫效率。

  • 垃圾邮件地址的储存,如何判断一封邮件是否是垃圾邮件,这样要对邮件地址进行判断,看看是否是在垃圾邮件地址集合中。但实际上邮件地址太多,如果全部储存的话占用大量存储资源并且在比较的时候也会占用大量的计算资源,所以用过滤器来存储判断可以解决问题。

  • 在 LevelDB 数据库引擎中使用了 LSM tree,由于设计时为了优化写性能抑制了读性能,在磁盘中(sstable)查找 key 时(虽然已经使用文件索引并且定期合并文件来减少文件的数量,但是面对海量数据增量时还是捉襟见肘)使用 Bloom filter 这种在内存中的高效方法来判断文件中是否包含key。

  以下介绍最基本的两个过滤器,帮助大家理解过滤器技术的实现。

Bloom filter


  Bloom filter 使用 hash 函数的散列技术存储信息的存在状态而不是存储信息本身,常常用于判断一个信息是否在一个集合中,这样只需要几个bit的空间就能解决问题。

基本原理

  bloom filter作为一种海量数据处理算法,其要点在于用于存储的位数组和用于处理的hash函数(一般有多个,并且为了精确度和数据量增加)。

初始化存储空间:bloom filter首先在内存中开辟一块储存空间,并将里面的bit位全部置为0,表示尚未有数据进行处理或者储存。

初始化储存空间

映射集合中的数据:bloom filter通过设置k个hash函数,将一个集合中的所有数据或者说信息映射到储存空间中,被映射到的区域bit位设置为1。

集合中的数据映射

判断数据是否属于集合:假设任何一个信息或者数据key,要判断其是否在集合中,bloom filter将key带入k个hash函数进行映射(fi=fi(key)),然后判断其映射到的区域是否全部为1,如果全部为1,那么信息或者数据key表示在集合中,只要有一个映射位置为0,那么表示信息或者数据key不在集合中。

优缺点

优点:存储数据量小,节省存储及计算空间
缺点:只能对集合添加元素,无法删除(也并非完全不能,可以使用 bloom filter 的变种 CounterBloom Filte,该过滤器给每一位存储空间分配一个计数空间,每次删除时候计数减1。这个计数空间通常需要4位计数16则溢出,具体见这篇博客。另外根据数据量,在满足一定错误率的情况下 hash 函数个数 k 需要变动。

不同数据映射指向同一个bit位

Cuckoo filter理解


原理

  Cuckoo filter 同样使用哈希表来实现数据到实际存储区域的映射,不同于 Bloom filer 的是Cuckoo filter中只采用两个哈希映射函数 H1 和 H2,H3用于计算数据的 fingerprint,减小存储量。他们的关系如下:

H1(key) = hash1(key)
H2(key) = H1(key) xor H1(key’s fingerprint)
H3(key) = key’s fingerprint = hash(key)

  当一个数据需要存储的时候,Cuckoo filter 使用两个哈希函数进行映射,只要有一个映射到的区域为空,那么就将数据的指纹信息存储到相应的区域。如果两个区域都被占用,那么将原来占有那个存储区域的数据指纹踢出存储区用来存储新到的数据,原来的数据重新使用另外一个哈希函数映射存储,依次反复。
  当然这个过程可能无限反复下去,那么一般会对踢出操作设一个阈值,超过阈值则认为过滤器容量不足,需要对其进行扩容。
  这个踢出的过程类似于布谷鸟下蛋的过程,所以称其为布谷鸟过滤器。

附:散列技术


  散列技术(也就是 hash 映射)因为在 bloom 过滤器 与 cuckoo 过滤器中就使用到了 hash 技术去映射
主要是散列表查找(哈希表):

  • 引入
      在顺序表查找(逐个比较)乃至有序表查找(折半查找)的时候难免需要使用比较,但这太消耗资源,考虑一种方法通过关键字Key直接得到想要查找的记录内存存储的位置: 存储位置 = f(关键字Key)
      这样不需要比较就能获得需要记录的储存位置,通过一个f(key)映射关系就能查找到储存位置,这种用于存储的技术称之为散列技术,其中f为hash函数。

  • 散列技术既是存储方法,又是查找方法
      最适合精确查找,也就是查找与给定值相等的记录。
      不适合一个关键字对应多个记录(set is a class,key = 男)以及范围查找(set is a class,Q:18<age<20)。
      设计一个简单、均匀、存储利用率高的散列函数是关键。

  • 散列函数的构造方法

  • 设计原则:计算简单(提高效率)、散列地址分布均匀(存储空间的利用率)
1.直接定址法:f(key) = key
            f(key) = a * key + b( a、b为常数 )
2.数字分析法:数字反转(1234 -> 4321)、环形位移(1234 -> 4123)
3.折叠法:分解数字相加(或者别的运算)(9876543210 -> 987+654+321+0)
4.除留余数法:f(key) = key mod p (p<=m)
5.随机数法:f(key) = random(key) 

如果是字符串或者中文可以转化为ASCII或者Unicode码来使用上面介绍的方法。

  • 处理散列冲突的方法
    如果两个以上的关键字通过hash函数映射后都指向一个储存地址的话,那就会产生冲突,所以解决冲突也是一个关键问题。
1.·开放定址法:fi(key) = (f(key) + di) mod m (di = 1,2,3,...,m-1)
  ·二次探测(不会让关键字都聚集在一个区域):fi(key) = (f(key) + di) mod m (di = 1^2,-1^2,2^2,-2^2,...,q^2,-q^2,q<=m/2)
  ·随机产生di:fi(key) = (f(key) + di) mod m (di是一个随机数列)
2.再散列函数法:fi(key) = RHi(key) (i =1,2,...k)
3.链地址法:在原地址制造链表存储,冲突时就是为链表添加节点
4.公共溢出法,就是为冲突的区域(信息)制造一个统一存储的区域

参考资料


[1]BURTON H. BLOOM,Space/Time Trade-offs in Hash Coding with Allowable Errors[J] Communications of the ACM,1970.7,Volume 13 / Number 7,page:422-426
[2]真实的归宿 ,海量数据处理算法—Bloom Filter,2012-08-14 18:40
[3]刘爱贵 ,深入理解Bloom Filter,2011-07-13 12:40:43
[4] 苍梧BloomFilter——大规模数据处理利器,2011-01-02 19:08

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 157,298评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,701评论 1 290
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 107,078评论 0 237
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,687评论 0 202
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,018评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,410评论 1 211
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,729评论 2 310
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,412评论 0 194
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,124评论 1 239
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,379评论 2 242
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,903评论 1 257
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,268评论 2 251
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,894评论 3 233
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,014评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,770评论 0 192
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,435评论 2 269
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,312评论 2 260

推荐阅读更多精彩内容