`

Java 理论与实践: 哈希

 
阅读更多

Java 理论与实践: 哈希---有效和正确定义hashCode()和equals()

转:http://www.ibm.com/developerworks/cn/java/j-jtp05273/

 

 

虽然Java语言不直接支持关联数组 -- 可以使用任何对象作为一个索引的数组 -- 但在根 Object 类中使用 hashCode() 方法明确表示期望广泛使用 HashMap (及其前辈 Hashtable )。理想情况下基于散列的容器提供有效插入和有效检索;直接在对象模式中支持散列可以促进基于散列的容器的开发和使用。

 

Object 类有两种方法来推断对象的标识: equals()hashCode() 。一般来说,如果您 Override 了其中一种,您必须同时 Override 这两种,因为两者之间有必须维持的至关重要的关系。特殊情况是根据 equals() 方法,如果两个对象是相等的,它们必须有相同的 hashCode() 值(尽管这通常不是真的)。

特定类的 equals() 的语义在Implementer的左侧定义;定义对特定类来说 equals() 意味着什么是其设计工作的一部分。 Object 提供的缺省实施简单引用下面等式:

 

  public boolean equals(Object obj) { return (this == obj); }

在这种缺省实施情况下,只有它们引用真正同一个对象时这两个引用才是相等的。同样, Object 提供的 hashCode() 的缺省实施通过将对象的内存地址对映于一个整数值来生成。由于在某些架构上,地址空间大于 int 值的范围,两个不同的对象有相同的 hashCode() 是可能的。如果您 Override 了 hashCode() ,您仍旧可以使用 System.identityHashCode() 方法来接入这类缺省值。

 

缺省情况下, equals()hashCode() 基于标识的实施是合理的,但对于某些类来说,它们希望放宽等式的定义。例如, Integer 类定义 equals() 与下面类似:

 

  public boolean equals(Object obj) {
    return (obj instanceof Integer 
            && intValue() == ((Integer) obj).intValue());
  }

在这个定义中,只有在包含相同的整数值的情况下这两个 Integer 对象是相等的。结合将不可修改的 Integer ,这使得使用 Integer 作为 HashMap 中的关键字是切实可行的。这种基于值的Equal方法可以由Java类库中的所有原始封装类使用,如 IntegerFloatCharacterBoolean 以及 String (如果两个 String 对象包含相同顺序的字符,那它们是相等的)。由于这些类都是不可修改的并且可以实施 hashCode()equals() ,它们都可以做为很好的散列关键字。

 

如果 Integer 不 Override equals()hashCode() 情况又将如何?如果我们从未在 HashMap 或其它基于散列的集合中使用 Integer 作为关键字的话,什么也不会发生。但是,如果我们在 HashMap中 使用这类 Integer 对象作为关键字,我们将不能够可靠地检索相关的值,除非我们在 get() 调用中使用与 put() 调用中极其类似的 Integer 实例。这要求确保在我们的整个程序中,只能使用对应于特定整数值的 Integer 对象的一个实例。不用说,这种方法极不方便而且错误频频。

Object 的interface contract要求如果根据 equals() 两个对象是相等的,那么它们必须有相同的 hashCode() 值。当其识别能力整个包含在 equals() 中时,为什么我们的根对象类需要 hashCode()hashCode() 方法纯粹用于提高效率。Java平台设计人员预计到了典型Java应用程序中基于散列的集合类(Collection Class)的重要性--如 HashtableHashMapHashSet ,并且使用 equals() 与许多对象进行比较在计算方面非常昂贵。使所有Java对象都能够支持 hashCode() 并结合使用基于散列的集合,可以实现有效的存储和检索。

 

实施 equals()hashCode() 有一些限制, Object 文件中列举出了这些限制。特别是 equals() 方法必须显示以下属性:

  • Symmetry:两个引用, ab , a.equals(b) if and only if b.equals(a)
  • Reflexivity:所有非空引用, a.equals(a)
  • Transitivity:If a.equals(b) and b.equals(c) , then a.equals(c)
  • Consistency with hashCode() :两个相等的对象必须有相同的 hashCode()

Object 的规范中并没有明确要求 equals()hashCode() 必须 一致-- 它们的结果在随后的调用中将是相同的,假设“不改变对象相等性比较中使用的任何信息。”这听起来象“计算的结果将不改变,除非实际情况如此。”这一模糊声明通常解释为相等性和散列值计算应是对象的可确定性功能,而不是其它。

 

人们很容易满足Object类规范对 equals()hashCode() 的要求。决定是否和如何 Override equals() 除了判断以外,还要求其它。在简单的不可修值类中,如 Integer (事实上是几乎所有不可修改的类),选择相当明显 -- 相等性应基于基本对象状态的相等性。在 Integer 情况下,对象的唯一状态是基本的整数值。

对于可修改对象来说,答案并不总是如此清楚。 equals()hashCode() 是否应基于对象的标识(象缺省实施)或对象的状态(象Integer和String)?没有简单的答案 -- 它取决于类的计划使用。对于象 ListMap 这样的容器来说,人们对此争论不已。Java类库中的大多数类,包括容器类,错误出现在根据对象状态来提供 equals()hashCode() 实施。

如果对象的 hashCode() 值可以基于其状态进行更改,那么当使用这类对象作为基于散列的集合中的关键字时我们必须注意,确保当它们用于作为散列关键字时,我们并不允许更改它们的状态。所有基于散列的集合假设,当对象的散列值用于作为集合中的关键字时它不会改变。如果当关键字在集合中时它的散列代码被更改,那么将产生一些不可预测和容易混淆的结果。实践过程中这通常不是问题 -- 我们并不经常使用象 List 这样的可修改对象做为 HashMap 中的关键字。

一个简单的可修改类的例子是Point,它根据状态来定义 equals()hashCode() 。如果两个 Point 对象引用相同的 (x, y) 座标, Point 的散列值来源于 xy 座标值的IEEE 754-bit表示,那么它们是相等的。

对于比较复杂的类来说, equals()hashCode() 的行为可能甚至受到superclass或interface的影响。例如, List 接口要求如果并且只有另一个对象是 List, 而且它们有相同顺序的相同的Elements(由Element上的 Object.equals() 定义), List 对象等于另一个对象。 hashCode() 的需求更特殊--list的 hashCode() 值必须符合以下计算:

 

  hashCode = 1;
  Iterator i = list.iterator();
  while (i.hasNext()) {
      Object obj = i.next();
      hashCode = 31*hashCode + (obj==null ? 0 : obj.hashCode());
  }

不仅仅散列值取决于list的内容,而且还规定了结合各个Element的散列值的特殊算法。( String 类规定类似的算法用于计算 String 的散列值。)

 

Override 缺省的 equals() 方法比较简单,但如果不违反对称(Symmetry)或传递性(Transitivity)需求,Override 已经 Override 的 equals() 方法极其棘手。当 Override equals() 时,您应该总是在 equals() 中包括一些Javadoc注释,以帮助那些希望能够正确扩展您的类的用户。

作为一个简单的例子,考虑以下类:

 

  class A {
    final B someNonNullField;
    C someOtherField;
    int someNonStateField;
  }

我们应如何编写该类的 equals() 的方法?这种方法适用于许多情况:

 

  public boolean equals(Object other) {
    // Not strictly necessary, but often a good optimization
    if (this == other)
      return true;
    if (!(other instanceof A))
      return false;
    A otherA = (A) other;
    return 
      (someNonNullField.equals(otherA.someNonNullField))
        && ((someOtherField == null) 
            ? otherA.someOtherField == null 
            : someOtherField.equals(otherA.someOtherField)));
  }

现在我们定义了 equals() ,我们必须以统一的方法来定义 hashCode() 。一种统一但并不总是有效的定义 hashCode() 的方法如下:

 

  public int hashCode() { return 0; }

这种方法将生成大量的条目并显著降低 HashMap s的性能,但它符合规范。一个更合理的 hashCode() 实施应该是这样:

 

  public int hashCode() { 
    int hash = 1;
    hash = hash * 31 + someNonNullField.hashCode();
    hash = hash * 31 
                + (someOtherField == null ? 0 : someOtherField.hashCode());
    return hash;
  }

注意:这两种实施都降低了类状态字段的 equals()hashCode() 方法一定比例的计算能力。根据您使用的类,您可能希望降低superclass的 equals()hashCode() 功能一部分计算能力。对于原始字段来说,在相关的封装类中有helper功能,可以帮助创建散列值,如 Float.floatToIntBits

编写一个完美的 equals() 方法是不现实的。通常,当扩展一个自身 Override 了 equals() 的instantiable类时,Override equals() 是不切实际的,而且编写将被 Override 的 equals() 方法(如在抽象类中)不同于为具体类编写 equals() 方法。关于实例以及说明的更详细信息请参阅 Effective Java Programming Language Guide, Item 7 ( 参考资料) 。

 

将散列法构建到Java类库的根对象类中是一种非常明智的设计折衷方法 -- 它使使用基于散列的容器变得如此简单和高效。但是,人们对Java类库中的散列算法和对象相等性的方法和实施提出了许多批评。 java.util 中基于散列的容器非常方便和简便易用,但可能不适用于需要非常高性能的应用程序。虽然其中大部分将不会改变,但当您设计严重依赖于基于散列的容器效率的应用程序时必须考虑这些因素,它们包括:

  • 太小的散列范围。使用 int 而不是 long 作为 hashCode() 的返回类型增加了散列冲突的几率。
  • 糟糕的散列值分配。短strings和小型integers的散列值是它们自己的小整数,接近于其它“邻近”对象的散列值。一个循规导矩(Well-behaved)的散列函数将在该散列范围内更均匀地分配散列值。
  • 无定义的散列操作。虽然某些类,如 StringList ,定义了将其Element的散列值结合到一个散列值中使用的散列算法,但语言规范不定义将多个对象的散列值结合到新散列值中的任何批准的方法。我们在前面 编写自己的equals()和hashCode()方法中讨论的 ListString 或实例类 A 使用的诀窍都很简单,但算术上还远远不够完美。类库不提供任何散列算法的方便实施,它可以简化更先进的 hashCode() 实施的创建。
  • 当扩展已经 Override 了 equals() 的 instantiable类时很难编写 equals() 。当扩展已经 Override 了 equals() 的 instantiable类时,定义 equals() 的“显而易见的”方式都不能满足 equals() 方法的对称或传递性需求。这意味着当 Override equals() 时,您必须了解您正在扩展的类的结构和实施详细信息,甚至需要暴露基本类中的机密字段,它违反了面向对象的设计的原则。

通过统一定义 equals()hashCode(), 您可以提升类作为基于散列的集合中的关键字的使用性。有两种方法来定义对象的相等性和散列值:基于标识,它是 Object 提供的缺省方法;基于状态,它要求 Override equals()hashCode() 。当对象的状态更改时如果对象的散列值发生变化,确信当状态作为散列关键字使用时您不允许更更改其状态。

 

分享到:
评论

相关推荐

    Java理论与实践:构建一个更好的HashMap

    《Java理论与实践:构建一个更好的HashMap》这篇文章深入剖析了Doug Lea的`util.concurrent`包中的`ConcurrentHashMap`实现,旨在展示如何在保证线程安全的同时提高并发性能。`ConcurrentHashMap`相较于传统的`...

    java文档

    集合类,collections类,Comparator接口,Eclipse – 整合开发工具(基础篇),ejb环境,Java 理论与实践: 哈希,Java接口和Java抽象类,weblogic 服务器管理,JSP中基于Session的在线用户统计分析,Java语言编码规范-1.01,JDK...

    哈希表的设计与实现.rar

    6. **文档解读**:课程设计可能包括详细的理论介绍和步骤指南,涵盖了哈希表的基本概念、算法流程、性能分析等内容。通过阅读文档,我们可以理解哈希表的设计思路,学习如何构建和优化自己的哈希表实现。 7. **应用...

    java并发编程实践

    在Java并发编程实践中,首先需要理解“并发”与“并行”的区别。“并发”指的是多个任务同时进行,但实际上可能是在多线程环境下通过交替执行的方式实现的;而“并行”则是指多个任务在同一时刻真正同时执行,通常...

    Java编程新手自学手册:Java编程新手自学手册

    这份手册包含PPT(演示文稿)和源代码,为学习者提供了理论与实践相结合的全面学习资源。以下是Java编程的一些核心知识点,结合手册中的内容进行深入阐述: 1. **Java基础知识**: - **Java简介**:Java是一种面向...

    Java数据结构上机实践指导教程

    在上机实践中,除了理论知识外,还需要通过编写代码来加深理解。例如,编写一个简单的图形用户界面(GUI)程序,模拟数据结构的操作,或者实现一个简单的搜索引擎,这将有助于将所学应用于实际项目。此外,理解和...

    Java编程语言中的数据结构与算法:深入理解与实践指南.zip

    通过深入理解和实践Java中的数据结构与算法,开发者可以编写出更高效、更优雅的代码,解决复杂的编程挑战。在Algorithm-master这个项目中,很可能是包含了一系列练习和示例代码,帮助学习者通过实际操作来巩固这些...

    数据结构课程设计—java通讯录管理系统

    《数据结构课程设计—Java通讯录管理...通过这个课程设计,学生不仅可以巩固数据结构理论知识,还能实践软件开发的全过程,包括需求分析、设计、编码、测试和文档编写,这对于提升实际编程能力和问题解决能力大有裨益。

    深入Java集合学习系列

    Java集合框架是Java编程语言中的核心组件之一,它为存储、管理和操作对象提供了一套高效且灵活的工具。...这些文件不仅提供了理论知识,还可能包含实战案例和最佳实践,对于提升Java编程能力大有裨益。

    JAVA并发编程实践

    《JAVA并发编程实践》是一本深入探讨Java并发编程技术的权威指南,涵盖了从基础理论到实战技巧的全方位内容。本书由多位资深Java并发编程专家共同编写,旨在帮助开发者理解和掌握Java并发编程的核心概念与最佳实践。...

    java 并发编程实践 英文版 English

    《Java并发编程实践》一书不仅阐述了理论知识,还提供了大量的实战案例和最佳实践。通过分析常见的并发问题和解决方案,读者可以学习到如何在实际项目中应用并发编程技巧,避免常见的陷阱和错误。 总之,《Java并发...

    Java安全知识点详解:加密、认证、防护和漏洞扫描

    Java安全涉及多个方面,包括加密和解密、安全认证和授权、安全通信和防护,以及安全漏洞扫描。本文将深入探讨这些关键知识...无论是开发安全的Java应用,还是准备相关面试,这些知识都将提供坚实的理论基础和实践指导。

    Data Structure in Java

    《数据结构在Java中的应用:实验室课程》是一本旨在通过实践操作帮助学生掌握Java编程语言中数据结构概念和技术的专业教材。本书由Sandra Andersen撰写,并由Jones and Bartlett Publishers出版。该书面向学习计算机...

    Java软件结构与数据结构源码

    Java软件结构与数据结构源码是学习和理解Java编程中核心概念的重要资源。...总之,Java软件结构与数据结构源码是提高编程技能和解决复杂问题的宝贵资源,通过深入学习和实践,可以显著提升作为Java开发者的专业能力。

    C、C++、JAVA数据结构与算法电子书

    - 书中可能会涵盖这些主题的深入理论和实践,包括数据结构的设计、实现、复杂度分析以及如何在实际问题中应用算法。 通过阅读这些书籍,开发者能够深入了解不同编程语言在处理数据结构和算法时的方法,提高编程...

    数据结构与算法分析 java语言描述第三版 源代码

    书中的源代码是理解理论知识与实际应用之间的桥梁,为学习者提供了实践操作的机会。 首先,我们来看一下压缩包中包含的源代码文件: 1. **WordLadder.java**:这是一个关于单词阶梯问题的实现。单词阶梯问题是一个...

    数据结构(java)第四版_叶核亚【全套】

    8. 哈希表与映射:哈希表提供了快速查找和存储数据的能力,Java中的HashMap和TreeMap是其具体实现。 9. 文件和外部存储:当数据无法全部存放在内存中时,如何利用磁盘等外部存储设备进行高效操作。 10. 实践项目:...

Global site tag (gtag.js) - Google Analytics