博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
HashMap的实现原理笔记
阅读量:6165 次
发布时间:2019-06-21

本文共 3073 字,大约阅读时间需要 10 分钟。

hot3.png

HashMap的实现原理

4af000054e38f1f62ab1

在JAVA中,每个对象都有一个散列码,它是由Object类的hashCode()方法计算得到的(当然也可以覆盖Object的hashCode())。而我们可以在散列码的基础上,定义一个哈希函数,再对哈希函数计算出的结果求余,最终得到该对象在哈希表的位置。

HashMap 采用一种所谓的“Hash 算法”来决定每个元素的存储位置。当程序执行 map.put(String,Obect)方法 时,系统将调用String的 hashCode() 方法得到其 hashCode 值——每个 Java 对象都有 hashCode() 方法,都可通过该方法获得它的 hashCode 值。得到这个对象的 hashCode 值之后,系统会根据该 hashCode 值来决定该元素的存储位置。

哈希冲突的产生以及解决方法

4af20004ed1a6633df47

上图就是一个散列表(Hash table,也叫哈希表),是根据关键码值(Key value)而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。这个映射函数叫做散列函数,存放记录的数组叫做散列表。

当向HashMap中put数据的时候,首先要判断当前确定的索引位置是否存在相同hashcode和相同key的元素,如果存在相同的hashcode和相同的key的元素,那么新值覆盖原来的旧值,并返回旧值。

如果存在相同的hashcode,那么他们确定的索引位置就相同,这时判断他们的key是否相同,如果不相同,这时就是产生了Hash冲突。

HashMap里面没有出现hash冲突时,没有形成单链表时,hashmap查找元素很快,get()方法能够直接定位到元素,但是出现单链表后,单个bucket 里存储的不是一个 Entry,而是一个 Entry 链,系统只能必须按顺序遍历每个 Entry,直到找到想搜索的 Entry 为止——如果恰好要搜索的 Entry 位于该 Entry 链的最末端(该 Entry 是最早放入该 bucket 中),那系统必须循环到最后才能找到该元素。

当系统决定存储 HashMap 中的 key-value 对时,完全没有考虑 Entry 中的 value,仅仅只是根据 key 来计算并决定每个 Entry 的存储位置。我们完全可以把 Map 集合中的 value 当成 key 的附属,当系统决定了 key 的存储位置之后,value 随之保存在那里即可。

4af2000525126da166ee

Hashmap里面的bucket出现了单链表的形式,散列表要解决的一个问题就是散列值的冲突问题,通常的解决方法如下:

链地址法

它有一个桶的概念:对于Entry数组而言,将相同hash值的对象组织成一个链表放在hash值对应的槽位。在链表中的每个元素才是真正的<Key, Value>。而一个链表,就是一个桶!因此HashMap最多可以有Entry.length个桶。

开放地址法

开放定址法有两种处理方式:一种是线性探测,另一种是平方探测。

线性探测:依次探测冲突位置的下一个位置。如,在哈希表的位置2处发生了冲突,则探测位置3处是否被使用了,若被使用了,则探测位置4……直至下一个被探测的位置为空(意味着还有位置可以插入元素---插入成功)或者探测了N-1(N为哈希表的长度)个元素又回到了原始的冲突位置处(意味着已经没有位置可供新元素插入了---插入失败)

因此,插入一个元素时,最坏情况下的时间复杂度为O(N),因为它有可能探测了N-1个元素!

平方探测:以平方大小来递增下一次待探测的位置。如,在哈希表位置2处发生了冲突,则探测 (1^2=1)位置3(2+1),若位置3被使用了,则探测(2^2=4) 位置6(2+4),若位置6被使用了,则探测(3^2=9)位置11(2+9=11)……平方探测法有一个特点:对于任何一个给定的素数N(假设哈希表的长度设置为素数),当计算( h(k) + i ^2 ) MOD N 时,随着 i 的增长,得到的结果是循环的。

因此,当平方探测重复探测了某一个位置时,说明探测失败即已经没有位置可供新元素插入了,尽管此时哈希表并没有满。

平方探测是跳着探测的,它忽略了一些位置,而这些位置可能是空的。即在哈希表仍未满的情况下,已经不能再插入新元素了

最坏情况下,平方探测需要检测 N/2个位置,因此插入一个元素的最坏时间复杂度为O(N)。

再散列法

建立多个hash函数,若是当发生hash冲突的时候,使用下一个hash函数,直到找到可以存放元素的位置。

建立公共溢出区

将哈希表分为基本表和溢出表,将与基本表发生冲突的元素放入溢出表中。

底层的hashMap是由数组和链表来实现的,就是上面说的链地址法。首先当插入的时候,会根据key的hash值然后计算出相应的数组下标,计算方法是index = hashcode%table.length,(这个下标就是上面提到的bucket),当这个下标上面已经存在元素的时候那么就会形成链表,将后插入的元素放到尾端,若是下标上面没有存在元素的话,那么将直接将元素放到这个位置上。

当进行查询的时候,同样会根据key的hash值先计算相应的下标,然后到相应的位置上进行查找,若是这个下标上面有很多元素的话,那么将在这个链表上一直查找直到找到对应的元素。

关于Hash的更多问题

哈希过程为什么需要先根据hashCode得到一个值(又称散列码),然后再对该值求余呢?

在JAVA中,Object类的hashCode()方法返回的是由调用对象的内存地址导出的一个值,也即,当没有覆盖Object类中的equals() 和 hashCode()时,只有当两个对象的内存地址一样时,才认为两个对象是相等的。这显然不符合实际情况,比如Person类有 String id、String name.....显然在现实中是根据id(身份证)不同来判断两个人不同。因此,需要进一步根据hashCode()值来封装(如上面的 hash(Object k)方法),返回一个合理的散列码。

那为什么又需要对得到的散列码求余呢?

底层是用数组来存储<key, value>的,而我们得到的散列码可能很大(事实上散列码的范围非常广)而内存是有限的,不能分配为数组分配一块很大很大的空间,因此,存储<key, value>的数组空间相对较小。从而需要把所有的散列码都 “约束” 到这个有效的数组空间中。----这也是导致冲突的根源

为什么使用HashMap查找是O(1)呢?

T value = hashmap.get(key)

①get(key)时,一步计算出该key所对应的底层数组array的 index (相当于上面 hash(Object k ) 和 indexFor(int h, int length) 这两个函数完成的功能)

②value = array[index]

因此,就认为查找的复杂度为O(1)。

HashMap中的两个变量及作用

int threshold:当HashMap中的元素个数超过threshold时,就会重新调整哈希的大小。

float loadFactor:loadFactor 默认是0.75,指定threshold,一般情况下,哈希表的大小乘以0.75等于threshold。

转载于:https://my.oschina.net/u/1054538/blog/1591354

你可能感兴趣的文章
在C#调用C++的DLL简析(二)—— 生成托管dll
查看>>
Linux macos 常用终端操作
查看>>
企业网络的管理思路
查看>>
Linux磁盘分区与挂载
查看>>
J2se学习笔记一
查看>>
DNS视图及日志系统
查看>>
老李分享:Android性能优化之内存泄漏 3
查看>>
mysql命令
查看>>
来自极客标签10款最新设计素材-系列七
查看>>
极客技术专题【009期】:web技术开发小技巧
查看>>
PHP 简单计算器代码实现
查看>>
正则表达式的知识普及
查看>>
docker使用笔记
查看>>
华为eNSP模拟器上实现FTP服务
查看>>
【全球AI人才排行榜】美国第一,中国仅排名第7
查看>>
微信小程序输入框input
查看>>
MySql字符串函数使用技巧
查看>>
Doc2Vec,Word2Vec文本相似度 初体验。
查看>>
系统ghost后变成一个盘了别的分区的文件怎么找回
查看>>
Win7+Ubuntu11
查看>>