HashSet和散列码的研究

imaginecup

浏览: 88112 次
性别:
来自: 西安

最近访客更多访客>>

林祥纤

1456132848

363874279

sail904776563

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Java基础

数据结构 F#J#

散列表（Hash table，也叫哈希表），是根据关键码值(Key value)而直接进行访问的数据结构。也就是说，它通过把关键码值映射到表中一个位置来访问记录，以加快查找的速度。这个映射函数叫做散列函数，存放记录的数组叫做散列表。
。

hashCode 散列码
  散列码是由对象导出的一个整数值。在Object中有一个hashCode方法来得到散列码。
  基本上，每一个对象都有一个默认的散列码，其值就是对象的内存地址。但也有一些对象的散列码不同，
  比如String对象，它的散列码是对内容的计算结果：

//String对象的散列码计算   
  String str="hello";   
  int hash=0;   
  for(int i=0;i<length();i++)   
     hash=31*hash+charAt(i);

     那么下面散列码的结果不同也就好解释了。s和t都还是String对象，散列码由内容获得，结果一样。
    sb和tb是StringBuffer对象，自身没有hashCode方法，只能继承Object的默认方法，散列码是对象地址，当然不一样了。

 String s=new String("OK");//散列码: 3030   
String t="Ok";  /散列码: 3030  
StringBuffer sb=new StringBuffer(s);  //散列码：20526976   
StringBuffer tb=new StringBuffer(t);  //散列码：20527144

HashSet 散列表的内部结构

HashSet是个链表数组。每一个数组元素就是一个列表，我们称为散列表元 .

数组并不保存键本身。而是通过键对象生成一个数字，将其作为数组的下标。这个数字就是散列码。然后根据数组下标等于散列码找到对应的散列表元，然后在线性遍历该链表找到对应的键值。如果散列函数好的话，数组的每个位置就只有较少的值。因此，不是查询整个list而是快速的跳到数组的某个位置，只是对很少的元素进行比较。

HashSet 如何add机制

假如我们有一个数据(散列码76268)，而此时的HashSet有128个散列单元，那么这个数据将有可能插入到数组的第108个链表中(76268%128=108)。但这只是有可能，如果在第108号链表中发现有一个老数据与新数据equals()=true的话，这个新数据将被视为已经加入，而不再重复丢入链表。

那么数据的散列码我知道，但HashSet的散列单元大小如何指定那?

Java默认的散列单元大小全部都是2的幂，初始值为16（2的4次幂）。假如16条链表中的75%链接有数据的时候，则认为加载因子达到默认的0.75。HahSet开始重新散列，也就是将原来的散列结构全部抛弃，重新开辟一个散列单元大小为32（2的5次幂）的散列结果，并重新计算各个数据的存储位置。以此类推下去.....

知道了HashSet的add机制后，查找的道理一样。直接根据数据的散列码和散列表的数组大小计算除余后，就得到了所在数组的位置，然后再查找链表中是否有这个数据即可。

查找的代价也就是在链表中，但是真正一条链表中的数据很少，有的甚至没有。几乎没有什么迭代的代价可言了。所以散列表的查找效率建立在散列单元所指向的链表中的数据要少。

总结：
1、HashSet不能重复存储equals相同的数据。原因就是equals相同，数据的散列码也就相同（hashCode必须和equals兼容）。大量相同的数据将存放在同一个散列单元所指向的链表中，造成严重的散列冲突，对查找效率是灾难性的。

2、HashSet的存储是无序的，没有前后关系，他并不是线性结构的集合。

3、hashCode必须和equals必须兼容，这也是为了第1点。

package containers;
import java.util.*;
//一个简单的散列Map
public class SimpleHashMap <K,V> extends AbstractMap<K,V>{
	static final int size=997;
	LinkedList<MapEntry<K, V>>[] buckets=new LinkedList[size];
	public V put(K key,V value){
		V oldValue=null;
		int index=Math.abs(key.hashCode())%size;
		if(buckets[index]==null){
			buckets[index]=new LinkedList<MapEntry<K, V>>();
		}
		LinkedList<MapEntry<K, V>> bucket=buckets[index];
		MapEntry<K, V> pair=new MapEntry<K, V>(key,value);
		boolean found=false;
		ListIterator<MapEntry<K,V>> it=buckets[index].listIterator();
		while(it.hasNext()){
			MapEntry<K,V> iPair=it.next();
			if(iPair.getKey().equals(key)){
				oldValue=iPair.getValue();
				it.set(pair);
				found=true;
				break;
			}
		}
		if(!found){
			buckets[index].add(pair);
		}
		return oldValue;
	}
	public V get(Object key){
		int index=Math.abs(key.hashCode())%size;
		if(buckets[index]==null)
			return null;
		for(MapEntry<K,V> iPair:buckets[index]){
			if(iPair.getKey().equals(key)){
				return iPair.getValue();
			}
		}
		return null;
	}
	@Override
	public Set<java.util.Map.Entry<K, V>> entrySet() {
		Set<java.util.Map.Entry<K, V>> set=new HashSet<Entry<K,V>>() ;
		for(LinkedList<MapEntry<K,V>> bucket:buckets){
			if(bucket==null)
				continue;
			else
				for(MapEntry<K,V> mPair:bucket){
					set.add(mPair);
				}
		}
		return set;
	}
	public static void main(String[] args) {
		SimpleHashMap<String, String> m=new SimpleHashMap<String,String>();
		String[] str="A B C D E F G H J K L M N O P Q R S T U V W X Y Z 0 1 2 3 4 5 6 7 8 9 ! @ # $ %　^ & * ( ) - + _ = | \\ / . > < ,".split(" ");
		Map<String,String> map=new HashMap<String,String>();
		for(int i=1;i<=str.length;i++){
			map.put(Integer.toString(i), str[i-1]);
		}
		m.putAll(map);
		System.out.println(m);
		long startTime=System.nanoTime();
		System.out.println(m.get("9"));
		System.out.println(m.get("20"));
		System.out.println(m.get("30"));
		long estimatedTime=System.nanoTime()-startTime;
		System.out.println(estimatedTime);//165386

	}
	
}

一个未经过散列的Map

package containers;

import java.util.*;

public class SlowMap<K,V> extends AbstractMap<K,V> {
	private List<K> keys=new ArrayList<K>();
	private List<V> values=new ArrayList<V>();
	public V put(K key,V value){
		V oldValue=get(key);
		if(!keys.contains(key)){
			keys.add(key);
			values.add(value);
		}else{
			values.set(keys.indexOf(key),value);
		}
		return oldValue;
	}
	public V get(Object key){
		if(keys.contains(key)){
			return values.get(keys.indexOf(key));
		}else{
			return null;
		}
	}
	
	public Set<java.util.Map.Entry<K, V>> entrySet() {
		Set<Map.Entry<K, V>> set=new HashSet<Map.Entry<K, V>>();
		Iterator<K> ki=keys.iterator();
		Iterator<V> vi=values.iterator();
		while(ki.hasNext()){
			set.add(new MapEntry(ki.next(),vi.next()));
		}
		return set;
	}
	public static void main(String[] args) {
		SlowMap<String,String> m=new SlowMap<String,String>();
		String[] str="A B C D E F G H J K L M N O P Q R S T U V W X Y Z 0 1 2 3 4 5 6 7 8 9 ! @ # $ %　^ & * ( ) - + _ = | \\ / . > < ,".split(" ");
		Map<String,String> map=new HashMap<String,String>();
		for(int i=1;i<=str.length;i++){
			map.put(Integer.toString(i), str[i-1]);
		}
		m.putAll(map);
		System.out.println(m);
		long startTime=System.nanoTime();
		System.out.println(m.get("9"));
		System.out.println(m.get("20"));
		System.out.println(m.get("30"));
		long estimatedTime=System.nanoTime()-startTime;
		System.out.println(estimatedTime);//187057
	}
	

}

MapEntry.java文件

package containers;

import java.util.Map.Entry;

public class MapEntry<K,V> implements Entry<K,V> {
	private K key;
	private V value;
	@Override
	public K getKey() {
		return key;
	}
	@Override
	public V getValue() {
		return value;
	}
	@Override
	public V setValue(V v) {
		V result=value;
		value=v;
		return result;
	}
	public int hashCode(){
		return (key==null?0:key.hashCode())^(value==null?0:value.hashCode());
	}
	public boolean equals(Object o){
		if(!(o instanceof MapEntry))
			return false;
		MapEntry me=(MapEntry)o;
		return (key==null?me.getKey()==null:key.equals(me.getKey()))&&
			(value==null?me.getValue()==null:value.equals(me.getValue()));
	}
	public String toString(){
		return key+"="+value;
	}
	public MapEntry(K k,V v){
		this.key=k;
		this.value=v;
	}
	

}

分享到：

如何判断两个类之间的差异 | 持有对象Arrays.asList异常解决办法

2010-08-10 19:13
浏览 1623
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

J2SE程序Demo: 8. **HashMap和HashSet**: 学习如何存储和检索键值对，以及理解散列码（hash code）在数据结构中的作用。 9. **接口与泛型**: 掌握如何使用接口来实现多态，以及泛型在类型安全方面的优势。 **IO流与NIO** 10. **...

哈希码2021: 哈希码，也被称为散列值或哈希值，是计算机科学中用于数据验证和存储的一种重要工具。在2021年的背景下，哈希码的应用依然广泛，尤其是在编程语言如Kotlin中。Kotlin是一种现代、静态类型的编程语言，它被设计成既...

hashcode: `hashCode()` 方法是Object类的一个成员，它返回一个整数值，这个值代表了对象的哈希码，也称为散列码或指纹。这个哈希码通常用于快速查找和区分对象，因为不同的对象通常会有不同的哈希码。哈希码的主要用途在于...

data-structures:这是Java中某些数据结构的示例实现: - 散列是一种快速查找技术，通过计算键的散列码定位元素。Java的`Object.hashCode()`方法和`HashMap`都涉及散列概念。 11. **排序和搜索**： - 在数据结构中，排序和搜索算法如快速排序、归并排序、二分查找等也...

电力系统中基于MATLAB的价格型需求响应与电价弹性矩阵优化: 内容概要：本文详细介绍了如何利用MATLAB进行价格型需求响应的研究，特别是电价弹性矩阵的构建与优化。文章首先解释了电价弹性矩阵的概念及其重要性，接着展示了如何通过MATLAB代码实现弹性矩阵的初始化、负荷变化量的计算以及优化方法。文中还讨论了如何通过非线性约束和目标函数最小化峰谷差，确保用户用电舒适度的同时实现负荷的有效调节。此外，文章提供了具体的代码实例，包括原始负荷曲线与优化后负荷曲线的对比图，以及基于历史数据的参数优化方法。适合人群：从事电力系统优化、能源管理及相关领域的研究人员和技术人员。使用场景及目标：适用于希望深入了解并掌握价格型需求响应机制的专业人士，旨在帮助他们更好地理解和应用电价弹性矩阵，优化电力系统的负荷分布，提高能源利用效率。其他说明：文章强调了实际应用中的注意事项，如弹性矩阵的动态校准和用户价格敏感度的滞后效应，提供了实用的技术细节和实践经验。

一级医院医疗信息管理系统安装调试技术服务合同20240801.pdf: 一级医院医疗信息管理系统安装调试技术服务合同20240801.pdf

表5 文献综述.doc: 表5 文献综述.doc

36W低压输入正激电源，正激变压器设计方法步骤及谐振电感的设计方法，主要讲诉了正激电源变压器测的输入输出参数，按输入的条件设计相关的变压器的参数，同时将输出电感的设计方法一并例出，详细的设计步骤: 36W低压输入正激电源变压器电感设计

基于YOLOv8的深度学习课堂行为检测系统源码(含检测图片和视频): 基于YOLOv8的深度学习课堂行为检测系统源码，软件开发环境python3.9，系统界面开发pyqt5。在使用前安装python3.9，并安装软件所需的依赖库，直接运行MainProgram.py文件即可打开程序。模型训练时，将train,val数据集的绝对路径改为自己项目数据集的绝对路径，运行train.py文件即可开始进行模型训练，内含项目文件说明，以及检测图片和视频。

odbc-oracle zabbix模版原版: odbc_oracle zabbix模版原版

基于纳什谈判理论的风光氢多主体能源系统合作运行方法——综合能源交易与优化模型: 内容概要：本文探讨了利用纳什谈判理论来优化风光氢多主体能源系统的合作运行方法。通过MATLAB代码实现了一个复杂的优化模型，解决了风电、光伏和氢能之间的合作问题。文中详细介绍了ADMM（交替方向乘子法）框架的应用，包括联盟效益最大化和收益分配谈判两个子任务。此外，还涉及了加权残差计算、目标函数构造、可视化工具以及多种博弈模式的对比等功能模块。实验结果显示，合作模式下系统总成本显著降低，氢能利用率大幅提升。适合人群：从事能源系统研究的专业人士、对博弈论及其应用感兴趣的学者和技术人员。使用场景及目标：适用于需要优化多主体能源系统合作运行的场合，如工业园区、电网公司等。主要目标是提高能源利用效率，降低成本，增强系统的灵活性和稳定性。其他说明：代码中包含了丰富的可视化工具，能够帮助研究人员更好地理解和展示谈判过程及结果。同时，提供了多种博弈模式的对比功能，便于进行性能评估和方案选择。

C#与Halcon联合编程实现高效视觉几何定位与测量框架: 内容概要：本文详细介绍了如何利用C#与Halcon联合编程构建高效的视觉几何定位与测量框架。主要内容涵盖模板创建与匹配、圆测量、数据持久化以及图像采集等方面的技术细节。首先，通过创建形状模板并进行匹配，实现了工件的精确定位。接着，针对圆形物体的测量，提出了动态ROI绘制、亚像素边缘提取和稳健圆拟合的方法。此外，还讨论了模板管理和图像采集的最佳实践，确保系统的稳定性和高效性。最后，强调了Halcon对象的内存管理和错误处理机制，提供了实用的优化建议。适合人群：具备一定编程基础，尤其是对C#和Halcon有一定了解的研发人员和技术爱好者。使用场景及目标：适用于工业生产线上的自动化检测设备开发，旨在提高工件定位和尺寸测量的精度与效率。主要目标是帮助开发者掌握C#与Halcon联合编程的具体实现方法，从而构建稳定可靠的视觉检测系统。其他说明：文中提供了大量实战代码片段和调试技巧，有助于读者快速理解和应用相关技术。同时，作者分享了许多实际项目中的经验和教训，使读者能够避开常见陷阱，提升开发效率。

QT6 C++视频播放器实现（基于QGraphicsVideo）: QT视频播放器实现（基于QGraphicsView）

评估管线钢环焊缝质量及其对氢脆的敏感性.pptx: 评估管线钢环焊缝质量及其对氢脆的敏感性.pptx

机器学习（预测模型）：专注于 2024 年出现的漏洞（CVE）信息数据集: 该是一个在 Kaggle 上发布的数据集，专注于 2024 年出现的漏洞（CVE）信息。以下是关于该数据集的详细介绍：该数据集收集了 2024 年记录在案的各类漏洞信息，涵盖了漏洞的利用方式（Exploits）、通用漏洞评分系统（CVSS）评分以及受影响的操作系统（OS）。通过整合这些信息，研究人员和安全专家可以全面了解每个漏洞的潜在威胁、影响范围以及可能的攻击途径。数据主要来源于权威的漏洞信息平台，如美国国家漏洞数据库（NVD）等。这些数据经过整理和筛选后被纳入数据集，确保了信息的准确性和可靠性。数据集特点：全面性：涵盖了多种操作系统（如 Windows、Linux、Android 等）的漏洞信息，反映了不同平台的安全状况。实用性：CVSS 评分提供了漏洞严重程度的量化指标，帮助用户快速评估漏洞的优先级。同时，漏洞利用信息（Exploits）为安全研究人员提供了攻击者可能的攻击手段，有助于提前制定防御策略。时效性：专注于 2024 年的漏洞数据，反映了当前网络安全领域面临的新挑战和新趋势。该数据集可用于多种研究和实践场景：安全研究：研究人员可以利用该数据集分析漏洞的分布规律、攻击趋势以及不同操作系统之间的安全差异，为网络安全防护提供理论支持。机器学习与数据分析：数据集中的结构化信息适合用于机器学习模型的训练，例如预测漏洞的 CVSS 评分、识别潜在的高危漏洞等。企业安全评估：企业安全团队可以参考该数据集中的漏洞信息，结合自身系统的实际情况，进行安全评估和漏洞修复计划的制定。

QML Combobox 自动过滤，输入字符串后自动匹配: 博客主页：https://blog.csdn.net/luoyayun361 QML ComboBox控件，输入关键字后自动过滤包含关键字的列表，方便快速查找列表项

【人工智能领域】人工智能技术发展历程、核心原理及应用指南：涵盖机器学习、深度学习、NLP和计算机视觉的全面介绍: 内容概要：本文全面介绍了人工智能技术的发展历程、核心技术原理、应用方法及其未来趋势。首先阐述了人工智能的定义和核心目标，随后按时间顺序回顾了其从萌芽到爆发的五个发展阶段。接着详细讲解了机器学习、深度学习、自然语言处理和计算机视觉等核心技术原理，并介绍了使用现成AI服务和开发自定义AI模型的应用方法。此外，还展示了智能客服系统、图像分类应用和智能推荐系统的具体实现案例。针对普通用户，提供了使用大模型的指南和提问技巧，强调了隐私保护、信息验证等注意事项。最后展望了多模态AI、可解释AI等未来发展方向，并推荐了相关学习资源。; 适合人群：对人工智能感兴趣的初学者、技术人员以及希望了解AI技术应用的普通大众。; 使用场景及目标：①帮助初学者快速了解AI的基本概念和发展脉络；②为技术人员提供核心技术原理和应用方法的参考；③指导普通用户如何有效地使用大模型进行日常查询和任务处理。; 其他说明：本文不仅涵盖了AI技术的基础知识，还提供了丰富的实际应用案例和实用技巧，旨在帮助读者全面理解人工智能技术，并能在实际工作中加以应用。同时提醒读者关注AI伦理和版权问题，确保安全合法地使用AI工具。

本学习由 Matrix 工作室制作并开发，包括算法与数据结构的学习路线和各种题解: 本学习由 Matrix 工作室制作并开发，包括算法与数据结构的学习路线和各种题解。

基于智慧图书馆基础业务流程Axure11高保真原型设计: 本项目致力于构建基于微服务架构的智慧图书馆管理平台，重点突破多校区图书馆异构系统间的数据壁垒。通过建立统一数据治理规范、部署智能分析模块、重构业务流程引擎，系统性实现以下建设目标：构建跨馆业务数据的标准化整合通道，实施容器化部署的弹性资源管理体系，开发具备机器学习能力的业务辅助决策系统，打造可量化评估的管理效能提升模型，最终形成支持PB级数据处理的分布式存储体系与全维度数据资产图谱。

mysql中慢sql分析: 根据processlist查询出慢sql 1.修改配置文件中的mysql链接 2.目前是15秒执行一次获取执行时间在5秒上的sql，可以在配置中修改 3.执行后查出的慢sql会记录到log文件夹中以日期命名的txt文件中，可自行查验

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论