package com.util;
import java.io.IOException;
import java.io.Serializable;
import java.util.AbstractCollection;
import java.util.AbstractMap;
import java.util.AbstractSet;
import java.util.Collection;
import java.util.ConcurrentModificationException;
import java.util.Iterator;
import java.util.Map;
import java.util.NoSuchElementException;
import java.util.Set;
/**
* 本人水平有限,小文的目的是为了说明一些HashMap的实现方法同时分享一些规避错误的使用方法。
* 更重要的目的是想抛砖引玉,吸引大家对HashMap这个数据结构的讨论,在Java的开发中,通过我使用
* Jprofiler这个工具的分析,HashMap的实例数是仅次于String的。
* 所以,在我们关注、纠结String这个对象的使用方法时,也不能忽视了这个重要的数据结构HashMap。
*
* 要了解HashMap你需要了解java的位运算、散列码算法、链表、多线程等知识。
* 为了更好的说明情况,我展示了一些有删节的代码,并对一些重要的方法写了详细的注释。
*/
/**
* HashMap就是哈希表(这个表指的是key-value pairs),属于数据结构的一种,各种语言都有HashMap的实现
* 例如c/c++,c#,java etc...,下面列出c这个过程性语言的HasHap结构体的定义:
* <pre>
* typedef struct _hash_map_t
* {
* size_t× size;
* listnode_t* key;
* listnode_t* value;
* }hash_map_t;
* </pre>
* 总的说来,Map,总是离不开key-value pairs(键值对)。
*
* 一实现方法:
* HashMap提供一个散列算法和一个链表数组(也叫哈希表),存储的时候,根据传入的键值的hashCode方法返回值
* 调用HashMap重新定义的新的散列函数获取键的散列码,根据散列码
* 调用indexFor方法,计算这个散列码在链表数组中的序列,然后根据该存入数组中对应的序列的位置。这样每次在获取
* 元素的时候不需要迭代整个链表数组了,而可以直接通过键值的散列码从指定的序列获取一个链表。然后在迭代
* 该链表,通过键值的比对获取到正确的元素返回。
* 可能有的同学会有疑问了,如果散列码的序列相同怎么处理呢?不要忘记了链表数组了,该数组中的元素都是链表,
* 如果键值的散列码相同,则会顺序存入该链表中。
* 这就是JDK中HashMap的大致实现方法。
*
* 二、性能参数:
* 有两个参数将会影响HashMap的性能,初始容量和扩容因子(姑且让我这么称呼)。容量是指HashMap中链表数组的长度,
* 扩容因子指定容器中实际能存储的最大元素数量的百分比,例如,容器长度为16,扩容因子为.75,那么HashMap的
* 容器(链表数组)中实际能存储的最多元素个数为16×.75=12。超过该长度,容器将自动扩大成原来容器的2倍长度,当然
* 老容器中的元素都会通过rehash方法逐个拷贝至新的容器中。
*
* 默认的扩容因子的值为.75,一般作为通用的规则,没有特别的需要我们不需要传入这个扩容因子的参数。因为通
* 过大量的实际应用,一般认为.75是时间和空间消耗的一个最优选择。
* 数组的扩容是一个很消耗性能的操作,这两个参数直接决定了调用一个扩容操作的频度。
* 如果存入HashMap中的键值对数目是可预估的,那么选择一个合适的容量和扩容因子就很重要了,这样能最大限度的减少
* 扩容方法的调用,而且能在空间和时间上做出一个最优选择。
*
* 三、线程安全以及fail-fast机制:
* 请注意,HashMap不是线程安全的类,在多线程的环境下使用该类是不安全的。如果一定要在多线程的环境下使用,HashMap
* 也提供<i>fail-fast</i>机制保证读取线程在读取的同时不会读到被其他线程修改过的键值对。
* 其实现方式大致如下:
* HashMap中提供了一个实例变量modCount,这是一个线程共享的变量,即任何线程都可以看到该变量被其它线程修改的结果。
* 任何对hashmap中元素的CUD(增加,修改,删除)操作都会影响该值。
* 同时HashMap中提供了一个迭代器HashIterator,HashMap的实例在迭代entrySet时,会使用这个迭代器,创建这个迭代器
* 的时候会把modCount赋值给HashIterator的实例变量expectedModCount,每次调用HashIterator实例的nextEntry方法时
* 都会检测modCount有没有被其他线程修改过。如果修改过则抛出错误。这只是一种悲观机制,这种机制不对CUD方法进行同步
* 保留了HashMap的快速存储优势,但是发生了错误之后的通知调用方,由调用方进行决策。
*
*/
public class HashMap<K, V> extends AbstractMap<K, V> implements Map<K, V>,
Cloneable, Serializable {
private static final long serialVersionUID = 362498820763181265L;
/**
* 上文中提到的链表数组。数组长度必须是2的n次幂。
*/
transient Entry[] table;
/**
* 默认的链表数组长度。
*/
static final int DEFAULT_INITIAL_CAPACITY = 16;
/**
* 最大的链表数组长度,在32位的机器中最大的正整数为1<<31即2的31幂,注:第32位是符号位。
*/
static final int MAXIMUM_CAPACITY = 1 << 30;
/**
* 默认的扩容因子,用来计算扩容阀值。
**/
static final float DEFAULT_LOAD_FACTOR = 0.75f;
/**
* 这个链表数组中包含的实际链表数量。
*/
transient int size;
/**
* 链表数组扩容阀值,如果链表数组存入的键值对越来越多,达到该值,则链表数组的长度会扩大成原来的2倍。
* 扩容之后会重新计算该值。
* @serial
*/
int threshold;
/**
* 扩容因子,链表长度×扩容因子=链表数组中允许存放的最多元素数目。
* 例如:链表长度为12,扩容因子为3/4(0.75),那么这个HashMap中允许存放的最大元素数目为12×.75=12
* 达到12个元素时,会新创建一个新的链表数组,长度为原来链表数组的2倍,将老链表数组中的元素逐个拷贝至
* 新数组中。
*
* @serial
*/
final float loadFactor;
/**
* 修改数,对HashMap的任何CUD修改都会影响该值,同时该变量对所有线程共享。
*/
transient volatile int modCount;
/**
* 使用指定链表数组长度(默认16)和指定扩容因子(默认.75)的构造函数,创建一个空HashMap。
* 同时会计算HashMap的扩容阀值。
* 其他的构造函数都在预处理了这两个参数之后调用本构造函数。
*
* @param initialCapacity 初始化容量.
* @param loadFactor 扩容因子
*/
public HashMap(int initialCapacity, float loadFactor) {
/*
*不小于初始容量的最小2次幂
*例如:初始容量是21,那么不小于21的最小2次幂为32,即2的5次幂
*这样能保证,log2(容量) 始终是个整数。
*
*为什么要做这样的操作有待考证。
*/
int capacity = 1;
while (capacity < initialCapacity)
capacity <<= 1;
this.loadFactor = loadFactor;
threshold = (int) (capacity * loadFactor);
table = new Entry[capacity];
}
/**
* null键,如果put或者get方法的key参数为null,则默认使用这个键。
*/
static final Object NULL_KEY = new Object();
/**
* Returns internal representation for key. Use NULL_KEY if key is null.
*/
static <T> T maskNull(T key) {
return key == null ? (T) NULL_KEY : key;
}
/**
* Returns key represented by specified internal representation.
*/
static <T> T unmaskNull(T key) {
return (key == NULL_KEY ? null : key);
}
/**
* Whether to prefer the old supplemental hash function, for
* compatibility with broken applications that rely on the
* internal hashing order.
*
* Set to true only by hotspot when invoked via
* -XX:+UseNewHashFunction or -XX:+AggressiveOpts
*/
private static final boolean useNewHash;
static {
useNewHash = false;
}
/**
* 会根据key值的hashcode,从新计算一次hashcode,返回优化有的hashcode
* 这个方法所涉及的原理本人也不是很清楚,期待高手作答。
*/
static int hash(int h) {
if (useNewHash) {
h ^= (h >>> 20) ^ (h >>> 12);
return h ^ (h >>> 7) ^ (h >>> 4);
} else {
h += ~(h << 9);
h ^= (h >>> 14);
h += (h << 4);
h ^= (h >>> 10);
return h;
}
}
/**
* Returns index for hash code h.
* 这是一个重要的函数,根绝hashcode计算其在链表数组中的序列
*/
static int indexFor(int h, int length) {
return h & (length - 1);
}
/**
* 根据指定的键,返回其对应的值。
* 执行过程如下:
* 1.判断键是否为null,
* 如果是,则从指定的null序列中取值,并返回。
* 2.根据键的hashcode方法的返回值,调用新的散列方法获取新的hashcode。
* 3.根据这个新的hashcode调用indexFor方法,计算这个hashcode在数组中的序列。
* 4.如果该序列没有链表,为null,直接返回null。如果有链表,继续执行
* 5.迭代该序列上的链表,
* 5.1.判断实体的哈希值是否和键的hash值相等
* 5.2.判断键的引用是否相同或者键的equals方法是否返回true
* 6.如果5.1,5.2的条件同时满足,则返回这个链表实体的值。
* 如果遍历完链表条件均不满足则返回null。
*
* 看这个方法之间请先看put方法。
* effective java中有一条原则,那就是如果要让自定义类型实例作为HashMap的键,
* 那么要重写equals方法和hashCode方法。
* 这个原则就在这里得到体现。
* 例如有自定义类型定义如下:
* <pre>
* class Key{
* int a=0,b=0;
* Key(int a, int b){
* this.a = a;
* this.b = b;
* }
* }
*
* Key k1 = new Key(1,2);
* //调用HashMap的put方法
* HashMap.put(k1,"我是k1(1,2)")
* 让后在k1对象的作用域之外,我们想取出这个键值对,调用HashMap的get方法。
* HashMap.get(new Key(1,2));
* </pre>
* 我们期待得到字符串"我是k1(1,2)",但是很不幸,我们得到的是null,因为自定义类型中没有重写hashCode方法和equals方法
* 尽管对象中的所有变量都相等,我们也期待这两个对象是相同的。两个对象的hashCode肯定是不相同的,equals方法也不可能返
* 回true。HashMap中的条件也就不成立了。
*/
public V get(Object key) {
if (key == null)
return getForNullKey();
int hash = hash(key.hashCode());
int index = indexFor(hash, table.length);
for (Entry<K, V> e = table[index]; e != null; e = e.next) {
Object k;
if (e.hash == hash && ((k = e.key) == key || key.equals(k)))
return e.value;
}
return null;
}
/**
* 传入的参数是键(key)和值(value),把传入的键和值组成键值对,然后存入HashMap中,如果已经存在这个键,那么
* 这个键对应的值将会被替换。执行过程如下:
* 1.判断key是否为null,如果是null则存入指定的NULL链表。
* 2.重新计算键值的hashcode。
* 3.根据这个新的hashcode,与链表数组的长度进行“与”运算,计算这个hashcode在数组中的序列。
* 4.判断这个序列上是否已经存在链表,如果存在执行5,如果不存在执行6~9。
* 5.迭代这个链表,判断键是否已经存在该链表中,
* 如果已经重复则替换原来的键值对,调用recordAccess方法,并返回原来的键值(value)。表示已经替换掉老的键值对。
* 如果不存在重复键值对则执行6~9。
* 6.改变修改modCount变量,通知其他线程,这个HashMap已经被修改了。这时候如果其他线程正在迭代这个Hashap
* 将会抛出ConcurrentModificationException异常。
* 7.给该链表新增一个实体对象,作为该链表的第一个元素,将这个元素的next引用指向为原来的第一个元素。
* 8.HashMap中的实体数加1。
* 9.返回null引用,表示已经新增成功。
*
* 整个hashmap的put方法就是这8个过程,其中很复杂的是新的哈希算法的使用。这个hash算法优化了对象的hashcode()方法
* 的不足。
* 而且可以通过返回值判断键值对是添加成功了还是替换了原来已经存在的键值对。替换老的元素将会调用的recordAccess方法
* HashMap中并没有提供实现。
*/
public V put(K key, V value) {
if (key == null)
return putForNullKey(value);
int hash = hash(key.hashCode());
int i = indexFor(hash, table.length);
for (Entry<K, V> e = table[i]; e != null; e = e.next) {
Object k;
if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
V oldValue = e.value;
e.value = value;
e.recordAccess(this);
return oldValue;
}
}
modCount++;
addEntry(hash, key, value, i);
return null;
}
/**
* 因为HashMap是允许null键。调用put(K key, V value)方法的key如果是null则调用该方法。
* 这个方法和put方法基本过程一样,只是他是根据创建HashMap实例时的一个成员变量NULL_KEY的
* hashcode()方法返回值来计算新的hashcode,而不是key的hashcode()的返回值。
*/
private V putForNullKey(V value) {
int hash = hash(NULL_KEY.hashCode());
int i = indexFor(hash, table.length);
for (Entry<K, V> e = table[i]; e != null; e = e.next) {
if (e.key == NULL_KEY) {
V oldValue = e.value;
e.value = value;
e.recordAccess(this);
return oldValue;
}
}
modCount++;
addEntry(hash, (K) NULL_KEY, value, i);
return null;
}
/**
* 传入newCapacity参数,将链表数组扩容至指定大小。如果当前的容量已经达到HashMap定义的最大容量
* 那么不再进行扩容,而是把扩容阀值赋值为最大的正整数,保证不再会有后续调用,即size永远不能大于
* 最大的正整数。
* 执行过程如下:
* 1.将当前的链表数组赋值给临时变量。
* 2.检查老的链表数组的长度,如果长度已经达到最大容量则不再进行扩容,直接返回。
* 3.根据传入的新参数,创建新的链表数组。
* 4.将当前的链表数组中的链表逐个拷贝至新的链表数组中进行扩容操作。
* 5.计算扩容阀值,计算下一次的扩容点。
* 6.返回。
*
* 这个方法除了参数检查之外,还调用了另外一个迁移方法transfer。
*/
void resize(int newCapacity) {
Entry[] oldTable = table;
int oldCapacity = oldTable.length;
if (oldCapacity == MAXIMUM_CAPACITY) {
threshold = Integer.MAX_VALUE;
return;
}
Entry[] newTable = new Entry[newCapacity];
transfer(newTable);
table = newTable;
threshold = (int) (newCapacity * loadFactor);
}
/**
* 将当前链表数组中的所有链表,逐个拷贝至新的链表数组中。
* 如果是一个足够大的链表数组,可以看到这个方法的性能是很低的。
* 所以在创建HashMap实例的时候就要充分估计到HashMap的容量。
* 防止该方法的调用频度过高。
*/
void transfer(Entry[] newTable) {
Entry[] src = table;
int newCapacity = newTable.length;
for (int j = 0; j < src.length; j++) {
Entry<K, V> e = src[j];
if (e != null) {
src[j] = null;
do {
Entry<K, V> next = e.next;
int i = indexFor(e.hash, newCapacity);
e.next = newTable[i];
newTable[i] = e;
e = next;
} while (e != null);
}
}
}
/**
* 一个该类型的对象表示一个键值对,这是一个单向链表。
* 在调用put方法的过程中,如果碰到相同的序列值,则会在该序列的链表中新增一个键值对。
* 注意这个链表重写了从Object对象哪里继承来的equals方法和hashcode方法
*/
static class Entry<K, V> implements Map.Entry<K, V> {
final K key;
V value;
final int hash;
Entry<K, V> next;
/**
* 创建一个新的实体,所需要的参数为
* h:通过新的散列算法计算的的key的hashcode方法返回值,本质也是一个散列码
* k:键
* v:值
* n:因为这是一个单向链表,所以创建一个链表元素的时候需要指定下一个元素的引用。
* 这样才会成为一个实体串。
*/
Entry(int h, K k, V v, Entry<K, V> n) {
hash = h;
key = k;
value = v;
next = n;
}
public K getKey() {
return HashMap.<K> unmaskNull(key);
}
public V getValue() {
return value;
}
public V setValue(V newValue) {
V oldValue = value;
value = newValue;
return oldValue;
}
public boolean equals(Object o) {
if (!(o instanceof Map.Entry))
return false;
Map.Entry e = (Map.Entry) o;
Object k1 = getKey();
Object k2 = e.getKey();
if (k1 == k2 || (k1 != null && k1.equals(k2))) {
Object v1 = getValue();
Object v2 = e.getValue();
if (v1 == v2 || (v1 != null && v1.equals(v2)))
return true;
}
return false;
}
public int hashCode() {
return (key == NULL_KEY ? 0 : key.hashCode())
^ (value == null ? 0 : value.hashCode());
}
public String toString() {
return getKey() + "=" + getValue();
}
/**
* This method is invoked whenever the value in an entry is
* overwritten by an invocation of put(k,v) for a key k that's already
* in the HashMap.
*/
void recordAccess(HashMap<K, V> m) {
}
/**
* This method is invoked whenever the entry is
* removed from the table.
*/
void recordRemoval(HashMap<K, V> m) {
}
}
/**
*
* 为这个指定的键,创建一个新的实体(链表元素),作为这个链表的第一个实体,这个实体
* 的next引用指向原来位于这个序列的实体。HashMap中实际存在的实体数目自加1。
* 如果实际存在的实体数目超过扩容阀值,则HashMap扩容成原来的2倍,并重新计算扩容阀值。
*
*/
void addEntry(int hash, K key, V value, int bucketIndex) {
Entry<K, V> e = table[bucketIndex];
table[bucketIndex] = new Entry<K, V>(hash, key, value, e);
if (size++ >= threshold)
resize(2 * table.length);
}
/**
* HashMap内部迭代器,实现了Faid-Fast机制,请看nextEntry方法。
*/
private abstract class HashIterator<E> implements Iterator<E> {
Entry<K, V> next; // next entry to return
int expectedModCount; // For fast-fail
int index; // current slot
Entry<K, V> current; // current entry
HashIterator() {
expectedModCount = modCount;
Entry[] t = table;
int i = t.length;
Entry<K, V> n = null;
if (size != 0) { // advance to first entry
while (i > 0 && (n = t[--i]) == null)
;
}
next = n;
index = i;
}
public boolean hasNext() {
return next != null;
}
Entry<K, V> nextEntry() {
if (modCount != expectedModCount)
throw new ConcurrentModificationException();
Entry<K, V> e = next;
if (e == null)
throw new NoSuchElementException();
Entry<K, V> n = e.next;
Entry[] t = table;
int i = index;
while (n == null && i > 0)
n = t[--i];
index = i;
next = n;
return current = e;
}
public void remove() {
//...
}
}
}
分享到:
相关推荐
理解面向对象后的代码抽取,HashMap的二次封装,总之目的减少点代码工作量,见代码示例
结合Java的HashMap中的一些优点,改进了C++ 的hash_map。 详细说明见我的博客:http://blog.csdn.net/mdj67887500/article/details/6907702
申请,并认证(未认证不能发布,认证需要300元,目前只支持企业认证)详细见官网说明。 https://mp.weixin.qq.com/cgi-bin/registermidpage?action=index&lang=zh_CN 申请后登陆 https://mp.weixin.qq.com/ 二....
java编程中使用hashmap时常见错误及改正
源码分析见我博文:http://blog.csdn.net/wabiaozia/article/details/50684556
【标题】"看得见的数据结构Android版"是一个专注于Android平台的数据结构学习应用,它通过可视化的方式帮助用户理解和掌握各种基础及高级数据结构。在Android开发中,深入理解数据结构是提升程序性能、优化算法和...
1 用过滤器实现数据初始化 2 ...而采用LinkedHashMap即链表式的HashMap,是一种先进先出的存储数据方式,这里采用LinkedHashMap. 6 预编译SQL语句 7 带输入输出参数存储过程的使用 8 有关存储过程详细用法见...
《Android-看得见的数据结构Android版》是...因此,无论你是初学者还是经验丰富的开发者,《Android-看得见的数据结构Android版》都是一个极好的学习资源,它将理论知识与实际应用紧密结合,让你在编程之路上更进一步。
《Java2全方位学习》这本书是Java编程领域的一本经典之作,尤其以其小巧的光盘形式在众多编程书籍中独树一帜。光盘中的内容涵盖了Java2(即Java 2平台标准版,J2SE)的各个方面,为初学者和进阶者提供了全面的学习...
不过还见过这样来实现的:即用一个HashMap来存放很小一部分的数据, * 当HashMap中的大小达到一定的值时,清空HashMap,并且将数据放入软应用中。 * 注意操作sdcard权限已经网络访问权限的加入
功能描述:传入到达页码(具有容错性)、每页记录数、Select查询语句,返回该页所有的记录(整页是List集合,每条记录是一个 HashMap)、总行数、总页数、开始行数、结束行数。 注:此为3.0版,有清晰的注释,你可以...
直接见代码: /** * Created by Jlanglang on 2017/9/4 0004. */ public class SimpleParams extends HashMap<String> { //这里放key,与校验失败后的提示内容 private HashMap<Object, String> ...
视频教程名为"Java学习之我见",我们可以期待从中获取到深入且实用的学习建议。 首先,学习Java语言的基础至关重要。这包括了解基本语法结构,如变量声明、数据类型、控制流语句(如if-else,for,while循环)以及...
JavaScript中的浅复制与深复制是处理复杂数据结构(如对象和数组)时常见的概念,主要涉及到内存管理和数据拷贝的方式。这两种复制方式的区别在于它们如何处理引用数据类型的副本。 首先,JavaScript中有两种数据...
-我从没见过为自己感到难过的荒诞事物。 一只小鸟会从树枝上掉下来冻死,而不会为自己感到难过 谨记:无论到了哪里,都不能忘了学习和进步 作为一个程序猿,实际上一直并没有发现github有什么特别的作用,但这个观点...
我见过的所有实现的主要缺点是它们都使用反射来调用侦听器方法,即Method.invoke() 。 不幸的是,这种方法在低延迟世界中是不可接受的,因此我决定使用优秀的 OpenHFT/Java-Runtime-Compiler 库来代替在运行时为...
这是扫雷游戏的整个实现思路(具体算法实现见源代码): 1、网格类Field 这个类定义了网格的一些基本属性,如:横坐标、纵坐标、大小、样式和附近地雷值等,还有用以绘图的paintField方法和设置变量的方法。 2、...
【狂神说Java全部笔记】是一份非常宝贵的资源,它涵盖了Java编程的多个核心知识点,旨在帮助学习者系统地理解和掌握这门强大的编程语言。...让我们一起跟随狂神的脚步,见天地之广袤,见众生之繁复,见自己之成长。
这是扫雷游戏的整个实现思路(具体算法实现见源代码): 1、网格类Field 这个类定义了网格的一些基本属性,如:横坐标、纵坐标、大小、样式和附近地雷值等,还有用以绘图的paintField方法和 一系列获取和设置变量的...