【转】Java的Hashtable实现

wangyanlong0107

浏览: 502212 次
性别:
来自: 沈阳

最近访客更多访客>>

wangyy

thf913134326

devcang

long64783977

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

算法
算法与数据结构

最近做信息检索的VSM实验，字典生成这块用的是java自带的Hashtable数据结构，觉得效率还不错。后来有同学提到用词典树来保存字符串，可以用公共前缀来节约存储空间，最大限度的减少无谓的比较，查询效率要高于哈希表。(补充@2011.5.5 在数据较少的情况下，hash的查询效率应该是最高的，基本接近O（1），字典树的优势应该是在空间效率上)回头有时间研究下词典树的实现和分析，这里先分析一下Java的hashtable实现。

为了使用Eclipse去查看java本身的一些基础实现，我们需要先将java的源码加到Eclipse的jre路径中:

1.点 “window”-> "Preferences" -> "Java" -> "Installed JRES"

2.此时"Installed JRES"右边是列表窗格，列出了系统中的 JRE 环境，选择你的JRE，然后点边上的 "Edit..."

3.选中rt.jar文件,点右边的按钮“Source Attachment...”, 选择你的JDK目录下的“src.zip”文件即可

这样，在Eclipse中随便写一个Hashtable对象，然后ctrl单击就可以看到java的Hashtable类的实现了。下面这张是其总体的结构：

Java的Hashtable结构

总得来说就是每个哈希表都保存了一个Entry数组，然后每个Entry其实是存放碰撞的一个链，其中Entry类部分代码实现是：

view plainprint?
/** 
     * Hashtable collision list. 
     */  
    private static class Entry<K,V> implements Map.Entry<K,V> {  
    int hash;  
    K key;  
    V value;  
    Entry<K,V> next;  
    protected Entry(int hash, K key, V value, Entry<K,V> next) {  
        this.hash = hash;  
        this.key = key;  
        this.value = value;  
        this.next = next;  
    }  

除了hash值和键值对，就是指向下一个Entry的“指针”了。哈希表还有两个主要的属性，一个是initialCapacity表示初始的大小，如果使用默认的构造函数，系统就设为11，注意这里容量不是可以存放字符串的个数，而是哈希的范围，设为11的话，所有的hash值都会映射到这11个位置上。另一个是loadFactor，表示存放元素的个数栈总的hash范围的比例，默认的是设为0.75，这是在空间和时间之间的一个权衡，如果过大，则会有很多的碰撞出现，搜索效率不高，而如果过低，则会占用很大的空间。还有一些其他的属性，比如总的元素个数，阈值等等，这里不再详述。

下面看下几个关键的函数实现，首先自然是put函数：

view plainprint?
public synchronized V put(K key, V value) {  
    // Make sure the value is not null  
    if (value == null) {  
        throw new NullPointerException();  
    }  
    // Makes sure the key is not already in the hashtable.  
    Entry tab[] = table;  
    int hash = key.hashCode();  
    int index = (hash & 0x7FFFFFFF) % tab.length;  
    for (Entry<K,V> e = tab[index] ; e != null ; e = e.next) {  
        if ((e.hash == hash) && e.key.equals(key)) {  
        V old = e.value;  
        e.value = value;  
        return old;  
        }  
    }  
    modCount++;  
    if (count >= threshold) {  
        // Rehash the table if the threshold is exceeded  
        rehash();  
            tab = table;  
            index = (hash & 0x7FFFFFFF) % tab.length;  
    }  
    // Creates the new entry.  
    Entry<K,V> e = tab[index];  
    tab[index] = new Entry<K,V>(hash, key, value, e);  
    count++;  
    return null;  
    }  

这里我们可以看到，对key的hash做了一个与操作，保证其是一个正整数，然后对数组的长度求余，得到索引，然后遍历这个索引位置的链表中的每一个元素，如果存在一个元素的key和插入的key相同，就修改其值。否则，就新建一个Entry放在index位置链表的最前面，其中用到了rehash函数，可以在当哈希表中的总个数超过当前容量乘以loadFactor（就是threshold）的时候，进行扩建和重排序：

view plainprint?
protected void rehash() {  
    int oldCapacity = table.length;  
    Entry[] oldMap = table;  
    int newCapacity = oldCapacity * 2 + 1;  
    Entry[] newMap = new Entry[newCapacity];  
    modCount++;  
    threshold = (int)(newCapacity * loadFactor);  
    table = newMap;  
    for (int i = oldCapacity ; i-- > 0 ;) {  
        for (Entry<K,V> old = oldMap[i] ; old != null ; ) {  
        Entry<K,V> e = old;  
        old = old.next;  
        int index = (e.hash & 0x7FFFFFFF) % newCapacity;  
        e.next = newMap[index];  
        newMap[index] = e;  
        }  
    }  
    }  

容量扩大2倍加1，采用这个策略应该是有一定考虑的，我没有细究。在拷贝完之后，进行了一个重新的hash，因为容量已经变了，所以这个步骤是必须的。还有一些其他的函数，类似这里就不介绍了，最后我们来看下java的字符串hash是采用的什么算法：

view plainprint?
public int hashCode() {  
    int h = hash;  
    if (h == 0) {  
        int off = offset;  
        char val[] = value;  
        int len = count;  
            for (int i = 0; i < len; i++) {  
                h = 31*h + val[off++];  
            }  
            hash = h;  
        }  
        return h;  
    }  

这个函数在String中，看上面非常简洁，就是对字符串中的每一个字符的ASCII码值进行的一个加和乘运算，乘数是31。这个算法是BKDR哈希算法，来自于Brian Kernighan 和 Dennis Ritchie的The C Programming Language一书，可以说是常用的hash算法中较为简洁的一个了，但是效率确实最好的之一，其中乘数的形式是31 131 1313 13131 131313...。关于常见的字符串hash算法，我会在以后的博客给予介绍，并用这次VSM的实验进行一个简单的测试。

分享到：

【转】Java Hashtable分析 | 【转】从无到有构建红黑树

2013-10-23 06:20
浏览 587
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

036GraphTheory(图论) matlab代码.rar: 1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

026SVM用于分类时的参数优化，粒子群优化算法，用于优化核函数的c,g两个参数(SVM PSO)Matlab代码.rar: 1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

药店管理-JAVA-基于springBoot的药店管理系统的设计与实现（毕业论文+开题）: 1. 用户角色管理员药店员工/药师客户 2. 功能描述管理员功能用户管理创建、编辑和删除药店员工和药师的账户。设置不同用户的权限，确保敏感信息的安全。库存管理实时监控药品库存状态，设置库存预警，防止缺货或过期。支持药品入库、出库和退货记录，自动更新库存数量。商品管理添加、编辑和删除药品信息，包括名称、规格、价格、生产厂家、有效期等。分类管理药品，如处方药、非处方药、保健品等。销售管理查看和管理销售记录，生成每日、每周和每月的销售报表。分析销售数据，了解畅销产品和季节性变化，以优化库存。财务管理监控药店的收入与支出，并生成财务报表。管理支付方式（现金、信用卡、电子支付）及退款流程。客户管理记录客户的基本信息和购买历史，提供个性化服务。管理会员制度，设置积分和优惠活动。药品监管符合性确保药店遵循相关法规，跟踪药品的进货渠道和销售记录。提供合规报告，确保按规定进行药品管理。报告与分析生成各类统计报表，包括销售分析、库存分析和客户行为分析。提供决策支持，帮助制定更好的经营策略。药店员工/药师功能销售操作处理顾客的药

【网络】基于matlab高动态网络拓扑中OSPF网络计算【含Matlab源码 10964期】.zip: Matlab领域上传的视频是由对应的完整代码运行得来的，完整代码皆可运行，亲测可用，适合小白； 1、从视频里可见完整代码的内容主函数：main.m；调用函数：其他m文件；无需运行运行结果效果图； 2、代码运行版本 Matlab 2019b；若运行有误，根据提示修改；若不会，私信博主； 3、运行操作步骤步骤一：将所有文件放到Matlab的当前文件夹中；步骤二：双击打开main.m文件；步骤三：点击运行，等程序运行完得到结果； 4、仿真咨询如需其他服务，可私信博主； 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作

今天吴老师上课的时候说我.txt: 今天吴老师上课的时候说我.txt

检测骨架图像的交点Matlab代码.rar: 检测骨架图像的交点Matlab代码.rar

MMC simulink 模块化多电平变流器载波移相双闭环仿真输出谐波分析，线性自抗扰控制LADRC 有仿真文件: MMC simulink 模块化多电平变流器载波移相双闭环仿真输出谐波分析，线性自抗扰控制LADRC 有仿真文件

自动驾驶控制-斯坦利（stanely）算法路径跟踪仿真 matlab和carsim联合仿真搭建的无人驾驶斯坦利控制器仿真验证，可以实现双移线，圆形，以及其他自定义的路径跟踪跟踪效果如图，几乎没有误: 自动驾驶控制-斯坦利（stanely）算法路径跟踪仿真 matlab和carsim联合仿真搭建的无人驾驶斯坦利控制器仿真验证，可以实现双移线，圆形，以及其他自定义的路径跟踪。跟踪效果如图，几乎没有误差，跟踪误差在0.05m以内。

TongRDS替代Redis的基本部署和开发流程.zip: TongRDS是redis的国产化替代品之一，里面含有相应的安装部署包及操作流程，详细介绍TongRDS的基本部署和基本开发使用。

基于mpvue实现豆瓣电影微信小程序@zce_mpvue-Douban.zip: 基于mpvue实现豆瓣电影微信小程序@zce_mpvue-Douban

隔离型DCDC变器设计，LLC谐振变器闭环仿真，变频控制有自己做的对应明，十分详细: 隔离型DCDC变器设计，LLC谐振变器闭环仿真，变频控制。有自己做的对应明，十分详细。

Delphi 12 控件之Delphi in Depth - FireDAC.rar: Delphi in Depth - FireDAC.rar

063-基于MATLAB和Yalmip的2变量机组组合调度算法.rar: 1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

ShellBox微信小程序，集日程查询、成绩查询、电费查询、图书查询等功能于一体的高校微信小软件_ShellBox.zip: ShellBox微信小程序，集日程查询、成绩查询、电费查询、图书查询等功能于一体的高校微信小软件_ShellBox

小程序项目-基于微信小程序的微信小程序校园失物招领（包括源码，数据库，教程）.zip: Java小程序项目源码，该项目包含完整的前后端代码、数据库脚本和相关工具，简单部署即可运行。功能完善、界面美观、操作简单，具有很高的实际应用价值，非常适合作为Java毕业设计或Java课程设计使用。所有项目均经过严格调试，确保可运行！下载后即可快速部署和使用。 1 适用场景：毕业设计期末大作业课程设计 2 项目特点：代码完整：详细代码注释，适合新手学习和使用功能强大：涵盖常见的核心功能，满足大部分课程设计需求部署简单：有基础的人，只需按照教程操作，轻松完成本地或服务器部署高质量代码：经过严格测试，确保无错误，稳定运行 3 技术栈和工具前端：小程序后端框架：SSM/SpringBoot 开发环境：IntelliJ IDEA 数据库：MySQL（建议使用 5.7 版本，更稳定）数据库可视化工具：Navicat 部署环境：Tomcat（推荐 7.x 或 8.x 版本），Maven

微信小程序校园微社区_ zafuBBS.zip: 微信小程序校园微社区_ zafuBBS

计算图像的多向特征编码（Contour Code Representation）Matlab代码.rar: 计算图像的多向特征编码（Contour Code Representation）Matlab代码.rar

电池超级电容混合储能系统能量管理超级电容matlab simulink储能模型仿真，能量管理蓄电池充放电模型相关参考: 电池超级电容混合储能系统能量管理超级电容matlab simulink储能模型仿真，能量管理蓄电池充放电模型相关参考。

武汉市新版劳动合同.doc: 武汉市新版劳动合同

【电路】基于matlab三相短路分析【含Matlab源码 10955期】.zip: Matlab领域上传的视频是由对应的完整代码运行得来的，完整代码皆可运行，亲测可用，适合小白； 1、从视频里可见完整代码的内容主函数：main.m；调用函数：其他m文件；无需运行运行结果效果图； 2、代码运行版本 Matlab 2019b；若运行有误，根据提示修改；若不会，私信博主； 3、运行操作步骤步骤一：将所有文件放到Matlab的当前文件夹中；步骤二：双击打开main.m文件；步骤三：点击运行，等程序运行完得到结果； 4、仿真咨询如需其他服务，可私信博主； 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论