HashMap

<h1>HashMap</h1>

<blockquote>
在许多应用中都需要一种动态集合结构,支持INSERT,SEARCH,DELETE字典操作。而hashtable是实现字典操作的一种有效数据结构。散列表是普通数据结构的推广,由于普通数组能够直接寻址,使得能在O(1)中的时间找到数组的任何位置,利用这种思想,我们可以提供一个数组,为每个可能的关键字保留一个位置,以利用直接寻址的优势。
</blockquote>

<h2>工作原理</h2>

HashMap基于hashing原理,我们通过put()和get()方法储存和获取对象。当我们将键值对传递给put()方法时,它调用键对象的hashCode()方法来计算hashcode,让后找到bucket位置来储存值对象。当获取对象时,通过键对象的equals()方法找到正确的键值对,然后返回值对象。HashMap使用链表来解决碰撞问题,当发生碰撞了,对象将会储存在链表的下一个节点中。 HashMap在每个链表节点中储存键值对对象。

<h2>Capacity和LoadFactor</h2>

容量和负载因子

这两个是hashmap构造函数的两个参数,容量Capacity是bucket的大小,LoadFactor 是bucket填满程度的最大比例,如果对迭代性能要求很高就不要把capacity设置过大,也不要把loadFactor设置过小。当bucket中的entries的数目大于capacity*load facotr时就需要调整bucket的大小为当前的两倍。loadfacotor默认值为0.75f,而Capacity的默认值为16。

<h2>put函数</h2>

<ol>
<li>对key的hashCode()做hash,然后计算index</li>
<li>如果没有碰撞存入bucket</li>
<li>碰撞后以链表的形势存在buckets后</li>
<li>如果碰撞导致链表过长(大于等于TREEIFY_THRESHOLD),就把链表转换为红黑树,TREEIFY_THRESHOLD的默认值为8</li>
<li>如果节点已经存在就替换old value(保证key的唯一性)。</li>
<li>如果bucket满了(超过load factor * current capacity),就要resize</li>
</ol>

<h2>get函数</h2>

<ol>
<li>bucket里的第一个节点,直接命中</li>
<li>如果有冲突,则通过key.equals(k)查找O(logn);若为链表,则在链表中通过key.equals(k)查找,O(n)。</li>
</ol>

<h2>hash函数</h2>

高16位不变,低16位和高16位做了一个异或。

在Java 8之前的实现中是用链表解决冲突的,在产生碰撞的情况下,进行get时,两步的时间复杂度是O(1)+O(n)。因此,当碰撞很厉害的时候n很大,O(n)的速度显然是影响速度的。

因此在Java 8中,利用红黑树替换链表,这样复杂度就变成了O(1)+O(logn)了,这样在n很大的时候,能够比较理想的解决这个问题,在Java 8:HashMap的性能提升一文中有性能测试的结果。

<h2>resize的实现</h2>

将容量扩充为以前的两倍

使用一个entry存放在hash桶中,如果有多个,不停的next构成链表。在java 1.8后超出8个,就变为红黑树。

HashTable

说完HashMap,我们来说一说HashTable
hashtable和hashmap的几乎一样,只是有几点不同:

<ol>
<li>HashMap几乎可以等价于Hashtable除了HashMap是非synchronized的,并且可以接受null,HashMap可以接收null的key和value,而Hashtable则不行。</li>
<li>hashtable是synchronized的,线程安全,可以多线程共享一个Hashtable,而hashmap在没有同步的时候是不能线程共享的。在Java5中提供了ConcurrentHashMap,是HashTable的替代,比HashTable扩展性更好</li>
<li>HashMap的迭代器是fail-fast迭代器,而Hashtable的enumerator迭代器不是fail-fast的。所以当有其他线程改变了HashMap的结构,将会抛出ConcurrentModificationException,但迭代器本身的remove()方法移除元素则不会抛出ConcurrentModificationException异常。</li>
<li>Hashtable是线程安全的。所以在单线程比HashMap要慢,如果不需要同步,只需要单一线程,HashMap的性能要好过Hashtable。</li>
<li>HashMap不能保证随着时间的推移Map中的元素次序是不变的。</li>
</ol>

<h1>ConcurrentHashMap</h1>

上面有提到ConcurrentHashMap,ConcurrentHashMap相比于HashTable,优秀的地方在于提供了分段锁。它会将整张表分为一个个的segment,然后每一个segment都相当于一个单独的hashtable,在线程访问其中一个segment的时候,其他的segment也可以访问,实现了真正的并发访问。

<h2>Segment</h2>

ConcurrentHashMap里面有一个内部类Segment<code>final Segment<K,V>[] segments</code>,而setgment里面又包含了一个HashEntry的数组<code>transient volatile HashEntry<K,V>[] table</code>

两次hash,第一次确定segment,第二次确定bucket。然后用链表链接。

concurrencyLevel

在ConcurrentHashMap的构造函数中,相对于hashmap增加了一个concurrencyLevel参数,故名思意,这个参数就是并发度,就是代表可以有多少个线程并发访问,也代表拥有多少个segment,默认值为16(2的sshift次方)。

<h2>put</h2>

<ol>
<li>ConcurrentHashMap不支持key或者value为null</li>
<li>根据key的hash值,向右移动32-sshift位数,然后与segmentMask做与运算,得出索引值。</li>
<li>在得到索引后,使用unsafe的方式得到segment,然后再进行一次&运算得到HashEntry链表的位置,然后set</li>
</ol>

<h2>get</h2>

与put不同的是,get操作是不需要加锁的(如果value为null,会调用readValueUnderLock,只有这个步骤会加锁)

<h2>size</h2>

先给3次机会,不lock所有的Segment,遍历所有Segment,累加各个Segment的大小得到整个Map的大小,如果某相邻的两次计算获取的所有Segment的更新的次数(每个Segment都有一个modCount变量,这个变量在Segment中的Entry被修改时会加一,通过这个值可以得到每个Segment的更新操作的次数)是一样的,说明计算过程中没有更新操作,则直接返回这个值。如果这三次不加锁的计算过程中Map的更新次数有变化,则之后的计算先对所有的Segment加锁,再遍历所有Segment计算Map大小,最后再解锁所有Segment。

<h1>HashSet</h1>

hashset内部使用了hashmap作为底层实现
HashSet实现了Set接口,它不允许集合中有重复的值,当我们提到HashSet时,第一件事情就是在将对象存储在HashSet之前,要先确保对象重写equals()和hashCode()方法,这样才能比较对象的值是否相等,以确保set中没有储存相等的对象。如果我们没有重写这两个方法,将会使用这个方法的默认实现。
HashSet不允许null,HashMap允许有null 。HashSet在add前,先调用hashcode和equals函数,判断是否有重复的值,没有再添加。

<h1>LinkedHashMap</h1>

LinkedHashMap同样是非线程安全的,只在单线程环境下使用。
这个建议结合源码来看。
将所有插入到该LinkedHashMap中的Entry按照插入的先后顺序依次加入到以head为头结点的双向循环链表的尾部。
LinkedHashMap是如何实现LRU的。首先,当accessOrder为true时,才会开启按访问顺序排序的模式,才能用来实现LRU算法。我们可以看到,无论是put方法还是get方法,都会导致目标Entry成为最近访问的Entry,因此便把该Entry加入到了双向链表的末尾(get方法通过调用recordAccess方法来实现,put方法在覆盖已有key的情况下,也是通过调用recordAccess方法来实现,在插入新的Entry时,则是通过createEntry中的addBefore方法来实现),这样便把最近使用了的Entry放入到了双向链表的后面,多次操作后,双向链表前面的Entry便是最近没有使用的,这样当节点个数满的时候,删除的最前面的Entry(head后面的那个Entry)便是最近最少使用的Entry。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 157,198评论 4 359
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,663评论 1 290
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 106,985评论 0 237
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,673评论 0 202
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 51,994评论 3 285
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,399评论 1 211
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,717评论 2 310
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,407评论 0 194
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,112评论 1 239
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,371评论 2 241
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,891评论 1 256
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,255评论 2 250
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,881评论 3 233
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,010评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,764评论 0 192
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,412评论 2 269
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,299评论 2 260

推荐阅读更多精彩内容