说一说java里面的hashcode3-再说string-hashcode

全部 Hibernate Spring Struts iBATIS 企业应用 Lucene SOA Java综合 Tomcat 设计模式 OO JBoss

浏览 1310 次

锁定老帖子主题：说一说java里面的hashcode3-再说string-hashcode 精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (11)
作者	正文
核桃博客等级: 文章: 80 积分: 160 来自: hetaoblog	发表时间：2012-02-23 相关推荐: string-hashcode:java.lang.String.hashCode java 中HashCode重复的可能性 [Java基础]--String hashCode实现 hash-generator-js:一个Vue.js应用程序，其中包含Java中String类的hashCode方法的javascript实现 java String 的hashCode 更多相关推荐 http://www.hetaoblog.com/%E8%AF%B4%E4%B8%80%E8%AF%B4java%E9%87%8C%E9%9D%A2%E7%9A%84hashcode3-%E5%86%8D%E8%AF%B4string-hashcode/ 前一篇文章说一说java里面的hashcode-string-hashcode，这篇再多说一下这个String.hashcode(), 我看到String.hashcode()的冲突的时候，第一个想法就是，哈，那不是质数31取的太小了么？导致在常用ascii字符集里面容易冲突，那么，直接设个大点的质数不就好了么？幸运的是，257就是个质数，那么就用257，立刻就可以避免之前的冲突的例子了，下面是一段代码 @Test public void testBetterhash() { System.out.println(betterHash("Aa") + "," + betterHash("BB")); System.out.println(betterHash("Ba") + "," + betterHash("CB")); System.out.println(betterHash("Ca") + "," + betterHash("DB")); System.out.println(betterHash("Da") + "," + betterHash("EB")); } public static int betterHash(String s) { int h = 0; int len = s.length(); for (int i = 0; i < len; i++) { h = 257*h + s.charAt(i); } return h; } 返回的结果很好，全部不冲突 16802,17028 17059,17285 17316,17542 17573,17799 不过悲剧的是，该算法相当于以257为进制，每次乘以257至少相当于移了8位多，在32位jdk下面，int只有32位，遇到5个字符就溢出了，调用betterHash("abcde")就会返回-372058641 所以，这个想法自然就失败了；那么，原来的String.hashcode()算法在‘通常情况’下大约有多少的冲突概率呢？为此，我从http://www.mieliestronk.com/wordlist.html下载了常用英文单词表，其中包含了将近6万个单词，我为了测试大小写排列组合的情况，取了前面5000个单词，然后对每个单词做大小写全排列，也就是cat会有cat/caT/cAt/cAT/Cat/CaT/CAt/CAT 这8种情况，得到8021600个不同的字符串，分别计算他们的hashcode(),得到了8012142个不同的hashcode，也就是有9458 个冲突，在这样的场景下，大约有超过千分之一的冲突；我想, jdk的实现肯定是经过了充分的考虑，考虑到大多数情况下能够在所有域上冲突能够做均匀分布；声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

论坛首页 → Java企业应用版

跳转论坛: