浅析哈希算法

用此文记录学习哈希算法的收获。

哈希算法

1、实际上哈希表的组成更多情况下是一个一级表+多个二级表 或者是一个数组+多个链表 这样子理解
因为一级表容易发生碰撞

2、哈希其实也是一个用空间换时间的案例

3、哈希算法是为了让搜索更加快速,避免数组遍历带来的长时间等待

打个比方
你要去学校送伞给你的儿子
你首先是找到班级(一次哈希)
再根据座位找到他(二次哈希)
这样子的速度比要在每个班级上逐一寻找快(特殊情况除外)(遍历)

碰撞

就是通过哈希算法两个不同的key却有同样的值

当一个值要插入映射表时,却被映射到一个已经有记录的槽时,碰撞就发生了

解决碰撞方法之一

对每个槽都创建一个链表,把所有映射到这个槽的元素都存在这个槽的链表里


image.png

最坏情况

所有的哈希值都相同,都存在一个链表里,此时时间复杂度为time=θ(n)

平均情况

1、简单均匀哈希,每个key映射到每一个槽的概率相同,比如是m个槽,那就是1/m,并且key与key直接互不影响,即key与key之间没有联系

2、2个不同的key映射到特定的某个槽的概率为1/m,证明如下:第一个key映射到第一个槽的概率是1/m,第二个key映射到第一个槽的概率是1/m,则两个key都映射到第一个槽的概率为1/m²,一共有m个槽,所以总概率为m*(1/m²)=1/m.

3、比如一个哈希表里有n个key、有m个槽,它的装载因子α=n/m,其实是每个槽中的平均数量(理想状态)

4、失败搜索的预计用时为Θ(1+α),“1“表示把键值哈希映射到槽的用时,”α“表示搜索槽对应的链表所花费的时间。当α=O(1),即n=O(m)(哈希表里键的数量不会超过槽的数量m的常数倍)时,搜索时间为Θ(1)。
成功搜索的预计用时也是Θ(1+α)。

快速哈希之除法哈希

h(k) = k % m (m不能太小)

这时候会出现一种情况 若m为偶数,所有的值也是偶数,那么就会浪费一半的槽

偶数%偶数 = 偶数

比较好的解决方法是:m为质数 ,并且 m 不太接近2的幂或10的幂

偶数%偶数 = 偶数 简单证明过程.png

但是由于计算机做除法要进行很多次循环,所以乘法哈希更加优秀

快速哈希之乘法法哈希

假设 :
有m个槽,且m是以2为底的幂数
计算机一个字节的长度为w位 (常见的是32、64)

则有m = 2^r

h(k) = (A * k % 2^w) rsh (w-r)

A%2 = 1 (奇数) 且 2^(w-r) < A < 2^w

rsh:偏移 二进制运算是右偏移

A 不能太接近以2为低的幂数
因为键值的低位可能具有某种分布规律 如果选择2或者10的幂次容易出现冲突

乘法哈希例子.png

解决碰撞之二

开发寻址法

此方法无链表

用一个哈希算法,算到一个槽,若此槽已有数据,则用第二个哈希算法计算,若还是有值,则用第三个来算,以此类推,形成一个探查的序列

特点:
1.哈希函数有两个参数,值和探查次数 比如h(k,1)、h(k,2)···h(k,n)
2.n<=m key的数量比槽的数量少
3.删除操作要经过很复杂的处理
因为删除某个值后,可能要查询的是删除的下一步的值,比如我要查的是h(k,5),但h(k,4)这个槽已经是空的,所以可能会查询不到。
不过人类的智慧是无穷的,可以在删了的值对应的槽里做记录下一个值等,但都很乱很复杂。

线性探查

h(k,i) = (h(k,0)+i) mod m

缺点:某块连续的槽给填满之后,这样子槽会越来越长,也就是集群问题

二次哈希

h(k,i)=(h_1(k)+i*h_2(k)) mod m

m为 2为底的幂
h_2(k) 选择奇数的值 (怕所有都是偶数)

均匀哈希

=对于开放寻址,我们要求α<1 (因为键数大于槽数,则无法实现开放寻址)

image.png

证明如下:


image.png

全域哈希

假设我们为某公司做一个程序,要用到哈希算法,而该公司不止找你一个人做,你还有了竞争对手。
到后面验收阶段,要求共享代码,并且提供一堆测试数据去检测对手的程序
对于任意一个哈希都会重现这种情况
存在一个不好的键集 使得所有键值都会哈希映射到同一个槽中

那么我们要如何规避呢?
答案是:随机

这时候就有了全域哈希

全域哈希定义:

设U为键值的全域,H为哈希函数的一个有限集,H里的键两两互异,并且满足:对任意的x、y 有 h(x)=h(y)= 1/m。

可得
在哈希函数集H中,随机的选择函数h,假设我们要将n个键放入T表的m个槽里,对于给定的键x,它发生碰撞的期望次数小于n/m

证明如下:


全域哈希定义相关证明1.png

创建全域哈希函数的过程

1.取一质数m
2.把K,分解为r+1位 k是所有键里的任意一个
k = <k0, k1, k2, … ,kr> 0 <= ki <= m-1
3.选择一个数a = <a0 , a1 , … , ar >,每一个ai都从{0, 1, … , m-1}中随机选择

所以整个哈希函数集里有m^r+1个哈希函数

如图:


image.png

证明函数集H是全域的

image.png

还有未完成的
完全哈希
其他常见的哈希算法
MD5为什么不可逆
红黑二叉树的理解

等周末继续完善

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,458评论 4 363
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,454评论 1 294
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,171评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,062评论 0 207
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,440评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,661评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,906评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,609评论 0 200
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,379评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,600评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,085评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,409评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,072评论 3 237
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,088评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,860评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,704评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,608评论 2 270

推荐阅读更多精彩内容

  • 麻省理工学院公开课:算法导论。B站地址,网易公开课也有对应的资源。https://www.bilibili.com...
    LuLuX阅读 1,664评论 0 3
  • 说明:该系列博客整理自《算法导论(原书第二版)》,但更偏重于实用,所以晦涩偏理论的内容未整理,请见谅。另外本人能力...
    黑夜0411阅读 1,435评论 0 2
  • 哈希表定义 散列表(Hash table,也叫哈希表),是根据关键码值(Key value)而直接进行访问的数据结...
    n油炸小朋友阅读 4,786评论 0 22
  • 一.概念 哈希表就是一种以 键-值(key-indexed) 存储数据的结构,我们只要输入待查找的值即key,即可...
    lfp901020阅读 2,885评论 0 2
  • 哈希表:即散列存储结构。散列法存储的基本思想:建立记录关键码字与其存储位置的对应关系,或者说,由关键码的值决定数据...
    linbj阅读 6,091评论 1 5