`
wlh269
  • 浏览: 455714 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Set是如何实现"没有重复元素"

    博客分类:
  • J2SE
阅读更多
Set和数学中的集合是同一个概念,就是没有重复元素的集合。

这篇文章主要论述了Set是如何实现"没有重复元素"(no duplicate elements)的,以及阐述了什么是“重复”(duplicate),是相同的地址空间?是equals的返回值为true?是compareTo的返回值为0 ?还是有相同的hashCode?本文还给出了在什么情况下使用什么样的Set的建议。

注:本文不涉及范型。

1、树形结构:
public interface Set<E> extends Collection<E>{}
public abstract class AbstractSet<E> extends AbstractCollection<E> implements Set<E>{}
public class CopyOnWriteArraySet<E>extends AbstractSet<E>implements Serializable{}
public abstract class EnumSet<E extends Enum<E>>extends AbstractSet<E>implements Cloneable, Serializable{}
public class HashSet<E>extends AbstractSet<E>implements Set<E>, Cloneable, Serializable{}
public final class JobStateReasonsextends HashSet<JobStateReason>implements PrintJobAttribute{}
public class LinkedHashSet<E>extends HashSet<E>implements Set<E>, Cloneable, Serializable{}
public class TreeSet<E>extends AbstractSet<E>implements SortedSet<E>, Cloneable, Serializable{}
   可以看出,可以实例化的类为:CopyOnWriteArraySet,HashSet,LinkedHashSet,TreeSet。
2、Set是如何实现元素唯一性的
   javadoc中对Set的描述第一段如下:“A collection that contains no duplicate elements. More formally, sets contain no pair of elements e1
   and e2 such that e1.equals(e2), and at most one null element. As implied by its name, this interface models the mathematical set abstraction.”
   这段话是对是错,请看下面分析。
   要进行下面的论述,我们先了解一下Map。Map中的元素是“键-值”对,其中“键”必须是唯一的。TreeSet和HashSet就是利用这个特性实现“no duplicate    elements”。它把set中的元素作为Map中的“键”,从而保持元素的唯一性。这些键在Map中又是如何区分的呢?不同的Map有不同的做法,而且区别很大。
   下面我们分别就TreeSet、HashSet和CopyOnWriteArraySet进行论述:
2.1、TreeSet部分:

   以下以TreeSet为例进行分析。
   请看TreeSet的部分实体:
public class TreeSet<E> extends AbstractSet<E>
      implements SortedSet<E>, Cloneable, java.io.Serializable
{
  // The backing Map
      private transient SortedMap<E,Object> m;
      // The keySet view of the backing Map
      private transient Set<E> keySet;
      // Dummy value to associate with an Object in the backing Map
      //这是每个键所指的对像
      private static final Object PRESENT = new Object();
      //constructor
      private TreeSet(SortedMap<E,Object> m) {
          this.m = m;
           keySet = m.keySet();
      }
      public TreeSet() {
   this(new TreeMap<E,Object>());
      }
      //以下省略..........
}
    可以看到TreeSet使用了SortedMap作为其Map保存“键-值”对,而这个SortedMap的真正实体是TreeMap。
   
    请看示例程序1:
import java.util.*;
public class SetTest1 {
  public static void main(String[] args){
   Set set = new TreeSet();
   set.add(new SetElement1("aa"));
   set.add(new SetElement1("bb"));
  }
  static class SetElement1{
   String s;
   public SetElement1(String s){
    this.s =  s;
   }
   public String toString(){
    return s;
   }
   public boolean equals(Object obj) {
    return s.equals(((SetElement1)obj).s);
   }
  }
}
    该程序能够正常编译,但是运行时会抛出异常java.lang.ClassCastException。为什么?
   
    请看示例程序2:
import java.util.*;
public class SetTest2 {
  public static void main(String[] args){
   Set set = new TreeSet();
   set.add(new SetElement2("aa"));
   set.add(new SetElement2("aa"));
   set.add(new SetElement2("bb"));
   System.out.println(set);
  }
  static class SetElement2 implements Comparable{
   String s;
   public SetElement2(String s){
    this.s =  s;
   }
   public String toString(){
    return s;
   }
   public int compareTo(Object o){
    return s.compareTo(((SetElement2)o).s);
   }
   public boolean equals(Object obj) {
    return s.equals(((SetElement2)obj).s);
   }
  }
}
   运行结果:
   [aa, bb]
   这正是我们所期望的结果。那“示例程序1”和“示例程序2”有什么区别?
   是因为SetElement2实现了Comparable接口,而SetElement1没有。SetElement2实现Comparable接口有什么用呢?因为在TreeSet的add方法中需要比较两个    元素的“值”。请看TreeMap中的compare方法:
   private int compare(K k1, K k2) {
        return (comparator==null ? ((Comparable</*-*/K>)k1).compareTo(k2)
                                 : comparator.compare((K)k1, (K)k2));
   }
   可见这个方法先把要比较的元素down cast成Comparable类型。这里就可以解释“示例程序1”中为什么会抛出异常java.lang.ClassCastException,因SetElement1没有实现Comparable接口,当然就不能down cast成Comparable。可见,要用TreeSet来做为你的Set,那么Set中所装的元素都必须实现了Comparable接口。
   说到这里,你是不是想到了TreeSet中是采用Comparable接口中的compareTo方法来判断元素是否相同(duplicate),而不是采用其他类似equals之类的东东来判断。
  
   请看示例程序3:
    import java.util.Set;
import java.util.*;
public class SetTest3 {
  public static void main(String[] args){
   Set set = new HashSet();
   set.add(new SetElement3("aa"));
   set.add(new SetElement3("aa"));
   set.add(new SetElement3("bb"));
   System.out.println(set);
  }
  static class SetElement3 implements Comparable{
   String s;
   public SetElement3(String s){
    this.s =  s;
   }
   public String toString(){
    return s;
   }
   public int compareTo(Object o){
    //return s.compareTo(((SetElement3)o).s);
    return -1;
   }
   public boolean equals(Object obj) {
    return s.equals(((SetElement3)obj).s);
   }
  }
}
   运行结果:
   [bb, aa, aa]
   看到没有,有两个“aa”!!这是因为compareTo返回值始终是"-1",也就是说“把任何元素都看成不同”。
  
   综上所述,你是否对javadoc中对Set功能的描述有了怀疑?!

2.2、HashSet部分:

   以下以HashSet为例进行分析。
   从Hashset类的主体部分:
public class HashSet<E> extends AbstractSet<E>
     implements Set<E>, Cloneable, java.io.Serializable
{
  static final long serialVersionUID = -5024744406713321676L;
  private transient HashMap<E,Object> map;
  // Dummy value to associate with an Object in the backing Map
  //这是每个键所指的对像
  private static final Object PRESENT = new Object();


     public HashSet() {
   map = new HashMap<E,Object>();
      }
     public boolean add(E o) {
   return map.put(o, PRESENT)==null;
      }
    //以下省略..........
    }

        public HashSet() {

  map = new HashMap<E,Object>();
   
}
   可以看到HashSet使用了HashMap作为其Map保存“键-值”对。
  
   请看示例程序4:
import java.util.*;

public class SetTest4 {
public static void main(String[] args){
  Set set = new HashSet();
  set.add(new SetElement4("aa"));
  set.add(new SetElement4("aa"));
  set.add(new SetElement4("bb"));
  System.out.println(set);
}
static class SetElement4{
  String s;
  public SetElement4(String s){
   this.s =  s;
  }
  public String toString(){
   return s;
  }
  public boolean equals(Object obj) {
   return s.equals(((SetElement4)obj).s);
  }
}
}

   运行结果:
   [bb, aa, aa]
   没有“示例程序1”中的java.lang.ClassCastException,但是运行结果似乎不对,因为有两个“aa”。
  
   请看示例程序5:
import java.util.*;
public class SetTest5 {
  public static void main(String[] args){
   Set set = new HashSet();
   set.add(new SetElement5("aa"));
   set.add(new SetElement5("aa"));
   set.add(new SetElement5("bb"));
   System.out.println(set);
  }
  static class SetElement5{
   String s;
   public SetElement5(String s){
    this.s =  s;
   }
   public String toString(){
    return s;
   }
   public boolean equals(Object obj) {
    return s.equals(((SetElement5)obj).s);
   }
   public int hashCode() {
    //return super.hashCode();
    return s.hashCode();
   }
  }
}
    运行结果:
    [bb, aa]
    这就对了。“示例程序4”和“示例程序5”有什么区别?是SetElement5重写了hashCode方法。
   
    可见HashSet中是采用了比较元素hashCode的方法来判断元素是否相同(duplicate),而不是采用其他类似equals之类的东东来判断。
   
    说了这么多,那java类库中到底有没有根据equals来判断元素是否相同(duplicate)的Set呢?请看下文。
2.2、CopyOnWriteArraySet部分:
   类CopyOnWriteArraySet是java.util.concurrent包中的一个类,所以它是线程安全的。
   CopyOnWriteArraySet是使用CopyOnWriteArrayList作为其盛放元素的容器。当往CopyOnWriteArrayList添加新元素,它都要遍历整个List,并且用equals来    比较两个元素是否相同。

   请看示例程序6:
import java.util.*;
import java.util.concurrent.*;
public class SetTest6 {
  public static void main(String[] args){
   Set set = new CopyOnWriteArraySet();
   set.add(new SetElement6("aa"));
   set.add(new SetElement6("aa"));
   set.add(new SetElement6("bb"));
   System.out.println(set);
  }
  static class SetElement6{
   String s;
   public SetElement6(String s){
    this.s =  s;
   }
   public String toString(){
    return s;
   }
   public boolean equals(Object obj) {
    return s.equals(((SetElement6)obj).s);
   }
  }
}
   运行结果:
   [aa, bb]
   好了,一切搞定!!

3、总结:
   Javadoc中的一些描述可能是不准确的,大家要当心了!
  
   Set中实现元素互异的各种方法差异很大,大致可以分为三种:使用equals,使用hashCode,使用compareTo。但是我还没有发现采用“判断地址空间是否相同”来判断元素是否相同的类,当然我们可以用现有的三种方法来实现“判断地址空间是否相同”。
  
   综上所述,我们可以总结出使用Set的三种不同的情形:(以下假设元素类为Element)
   A、如果想使用Element的equals方法来判断元素是否相同,那么可以使用CopyOnWriteArraySet来构造类的实体。
   B、如果Element实现了Comparable接口,而且想使用compareTo方法来判断元素是否相同,那么可以使用TreeSet来构造类的实体。
   C、如果想使用判断hashCode是否相同的方法来判断元素是否相同,那么可以使用HashSet来构造类的实体
分享到:
评论

相关推荐

    java 去除重复元素

    在Java编程中,处理数据集合时,我们常常会遇到去除重复元素的需求。这可能是为了保持数据的唯一性,或者为了优化存储和计算效率。本文将详细介绍如何在Java中去除重复元素,主要关注数组和列表这两种常见数据结构。...

    删除定制整型数组中重复元素输出剩余元素

    在Java编程中,处理整型数组并删除其中的重复元素是一项常见的任务。这通常涉及到集合类的使用,比如HashSet或ArrayList,以及基本的数组操作。本文将深入探讨如何实现这个功能,同时提供一种可能的解决方案。 首先...

    219. 存在重复元素 II(set+滑窗)1

    6. 遍历结束后,如果没有找到符合条件的重复元素,则返回 `False`。 这种方法的时间复杂度为 O(n),空间复杂度也为 O(n),其中 n 是数组 `nums` 的长度。由于只使用了一个哈希集合来存储元素,所以空间效率较高。...

    java 求两个数组中重复元素源代码

    在Java编程中,找出两个数组中的重复元素是一个常见的问题,特别是在数据处理和算法设计中。本示例提供了源代码来解决这个问题,确保了代码的正确性,并在优化方面达到了适中的水平。以下是对该主题的详细说明: 1....

    C++set函数学习

    举个例子,如果要统计一段文本中每个单词的出现频率,可以使用multiset来存储单词及其出现次数,利用其有序性和重复元素的存储特性快速实现需求。 关于提供的部分内容,存在一些OCR识别错误,但整体可以理解为一个...

    map和set的异同

    - **内存管理**:由于`map`和`set`的元素是以节点形式存储的,因此插入和删除操作不会导致内存的移动,这与`vector`等顺序容器形成鲜明对比。 - **迭代器稳定性**:`map`和`set`的迭代器在插入和删除操作后依然有效...

    javascript过滤数组重复元素的实现方法.docx

    ### JavaScript 过滤数组重复元素的实现方法 #### 背景介绍 在日常的Web开发工作中,我们经常需要处理各种数据结构,其中数组是最常用的数据类型之一。随着项目的复杂度增加,对于数组中可能出现的重复元素进行有效...

    CustomSet.zip

    在Java编程语言中,HashSet是一种常用的集合类,它实现了Set接口,不包含重复元素,并且不保证元素的顺序。在给定的“CustomSet.zip”压缩包中,我们看到一个名为“CustomSet.java”的文件,这很可能是用户自定义的...

    map和set的模拟实现

    Set则是一个不包含重复元素的集合,同样支持快速查找。 为了模拟实现Map和Set,我们需要首先封装红黑树。这通常包括以下几个步骤: 1. 定义节点结构:创建一个结构体或类,表示红黑树的节点,包括键、值、颜色、左...

    java 运用集的相关类(Set)

    在Java中,Set接口是集合框架的一部分,它代表了不包含重复元素的无序集合。本篇将深入探讨Java中Set接口及其相关的实现类,以及如何在实际编程中运用。 Set接口继承自Collection接口,其主要特性是元素的唯一性,...

    Python代码实现删除一个list里面重复元素的方法

    在Python编程中,删除列表中的重复元素是一个常见的需求。这里我们探讨三种不同的方法来实现这一功能。 **方法一:利用`dict.fromkeys()`** 这种方法基于Python的字典数据结构,字典不允许键重复。首先创建一个空...

    List和Set使用retainAll方法的比较

    常见的Set实现类有HashSet和TreeSet。 2. **retainAll方法的实现原理** - 对于`List`,`retainAll`方法的实现通常是遍历整个列表,对于每个元素,检查它是否存在于指定集合中。如果不存在,则从列表中移除。由于...

    集合类型IntSet以及运算

    这包括边界条件测试,比如空集合、最大整数、最小整数以及重复元素的情况。还需要进行性能测试,如插入、删除和查询操作的时间复杂度验证,以及内存使用情况的分析。 在实际应用中,`IntSet`常用于各种场景,如...

    Set用法及与List的区别

    Set是一个不允许有重复元素的集合,它遵循唯一性原则。在Set接口下有许多实现类,如HashSet、TreeSet和LinkedHashSet等。我们以`HashSetDemo.java`为例,探讨HashSet的使用方法。 `HashSet`是Java中最常用的Set实现...

    Java中Set的深入研究

    Set接口是Java集合框架的一部分,它代表了一个数学抽象集合,即不允许包含重复元素的集合。更正式地讲,根据其Javadoc文档,Set是一个不包含任何重复元素的集合。具体来说,Set不允许包含满足`e1.equals(e2)`条件的...

    Set实现类1

    Set是Java集合框架的一部分,主要用于存储不重复的元素。它有多种实现类,如HashSet和TreeSet,每个类都有其特定的特性和用途。 1. **HashSet** - **构造函数**:HashSet提供了多种构造方法,包括无参构造、接受...

    利用Set集合去除List集合中重复元素、字符串中的重复子串

    由于Set的特性,重复元素会被自动过滤,最后再将Set的元素返回到List中,从而得到一个没有重复元素的新List。 接下来,我们讨论如何使用Set集合去除字符串中的重复子串: ```java public static void main(String...

    JAVA IntSet 数列集合

    如果该值已经存在,此操作通常不执行任何操作,因为集合不允许重复元素。 3. **移除数字**: 使用`remove(int value)`方法可以移除集合中的特定整数值。如果该值不存在于集合中,此操作也不会抛出异常。 4. **...

    java过滤数组中重复元素,完整demo

    总结来说,过滤Java ArrayList中的重复元素是一项常见的任务,可以通过HashSet、流API或自定义循环等方法实现。理解这些方法的原理和使用场景对于提升Java编程技能至关重要。在实践中,你应该结合具体的需求和性能...

    Python实现判断给定列表是否有重复元素的方法

    本文实例讲述了Python实现判断给定列表是否有重复元素的方法。分享给大家供大家参考,具体如下: 题目很简单,只是简单温习一个方法,most_common,这是collection模块中Counter类的方法,具体方法用法可以去查 下面...

Global site tag (gtag.js) - Google Analytics