java6,7,8中String.intern进化史与深度剖析 -

danStart

浏览: 69314 次
性别:
来自: 宜宾

最近访客更多访客>>

sagadan

zhangketuan

一江春水邀明月

yoohoo_lai

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

java6,7,8中String.intern进化史与深度剖析

这篇文章将要讨论 Java 6 中是如何实现String.intern方法的，以及这个方法在 Java 7 以及 Java 8 中做了哪些调整。

字符串池

字符串池（有名字符串标准化）是通过使用唯一的共享String对象来使用相同的值不同的地址表示字符串的过程。你可以使用自己定义的Map<String, String>（根据需要使用 weak 引用或者 soft 引用）并使用 map 中的值作为标准值来实现这个目标，或者你也可以使用 JDK 提供的String.intern()。

很多标准禁止在 Java 6 中使用String.intern()因为如果频繁使用池会失去控制，有很大的几率触发OutOfMemoryException。Oracle Java 7 对字符串池做了很多改进，你可以通过以下地址进行了解http://bugs.sun.com/view_bug.do?bug_id=6962931以及http://bugs.sun.com/view_bug.do?bug_id=6962930

Java 6 中的 String.intern()

在美好的过去所有共享的 String 对象都存储在 PermGen 中 — 堆中固定大小的部分主要用于存储加载的类对象和字符串池。除了明确的共享字符串，PermGen 字符串池还包含所有程序中使用过的字符串（这里要注意是使用过的字符串，如果类或者方法从未加载或者被条用，在其中定义的任何常量都不会被加载）

Java 6 中字符串池的最大问题是它的位置 — PermGen。PermGen 的大小是固定的并且在运行时是无法扩展的。你可以使用-XX:MaxPermSize=N配置来调整它的大小。据我了解，对于不同的平台默认的 PermGen 大小在 32M 到 96M 之间。你可以扩展它的大小，不过大小使用都是固定的。这个限制需要你在使用String.intern时需要非常小心 — 你最好不要使用这个方法 intern 任何无法控制的用户输入。这是为什么在 JAVA6 中大部分使用手动管理Map来实现字符串池

Java 7 中的 String.intern()

Java 7 中 Oracle 的工程师对字符串池的逻辑做了很大的改变 — 字符串池的位置被调整到 heap 中了。这意味着你再也不会被固定的内存空间限制了。所有的字符串都保存在堆（heap）中同其他普通对象一样，这使得你在调优应用时仅需要调整堆大小。这个改动使得我们有足够的理由让我们重新考虑在 Java 7 中使用 String.intern()。

字符串池中的数据会被垃圾收集

没错，在 JVM 字符串池中的所有字符串会被垃圾收集，如果这些值在应用中没有任何引用。这是用于所有版本的 Java，这意味着如果interned 的字符串在作用域外并且没有任何引用 — 它将会从 JVM 的字符串池中被垃圾收集掉。

因为被重新定位到堆中以及会被垃圾收集，JVM 的字符串池看上去是存放字符串的合适位置，是吗？理论上是 — 违背使用的字符串会从池中收集掉，当外部输入一个字符传且池中存在时可以节省内存。看起来是一个完美的节省内存的策略？在你回答这个之前，可以肯定的是你需要知道字符串池是如何实现的。

在 Java 6，7，8 中 JVM 字符串池的实现

字符串池是使用一个拥有固定容量的HashMap每个元素包含具有相同 hash 值的字符串列表。一些实现的细节可以从 Java bug 报告中获得http://bugs.sun.com/view_bug.do?bug_id=6962930

默认的池大小是 1009 (出现在上面提及的 bug 报告的源码中，在 Java7u40 中增加了)。在 JAVA 6 早期版本中是一个常量，在随后的java6u30 至 java6u41 中调整为可配置的。而在java 7中一开始就是可以配置的（至少在java7u02中是可以配置的）。你需要指定参数-XX:StringTableSize=N, N 是字符串池Map的大小。确保它是为性能调优而预先准备的大小。

在 Java 6 中这个参数没有太多帮助，因为你仍任被限制在固定的 PermGen 内存大小中。后续的讨论将直接忽略 Java 6

Java 7 （直至 Java7u40）

在 Java7 中，换句话说，你被限制在一个更大的堆内存中。这意味着你可以预先设置好 String 池的大小（这个值取决于你的应用程序需求）。通常说来，一旦程序开始内存消耗，内存都是成百兆的增长，在这种情况下，给一个拥有 100 万字符串对象的字符串池分配 8-16M 的内存看起来是比较适合的（不要使用1,000,000 作为-XX:StringTaleSize的值 – 它不是质数；使用1,000,003代替）

你可能期待关于 String 在 Map 中的分配 — 可以阅读我之前关于 HashCode 方法调优的经验。

你必须设置一个更大的-XX:StringTalbeSize值(相比较默认的 1009 ),如果你希望更多的使用 String.intern() — 否则这个方法将很快递减到 0 （池大小）。

我没有注意到在 intern 小于 100 字符的字符串时的依赖情况（我认为在一个包含 50 个重复字符的字符串与现实数据并不相似，因此 100 个字符看上去是一个很好的测试限制）

下面是默认池大小的应用程序日志：第一列是已经 intern 的字符串数量，第二列 intern 10,000 个字符串所有的时间（秒）

0;
 time = 0.0sec

50000;
 time = 0.03sec

100000;
 time = 0.073sec

150000;
 time = 0.13sec

200000;
 time = 0.196sec

250000;
 time = 0.279sec

300000;
 time = 0.376sec

350000;
 time = 0.471sec

400000;
 time = 0.574sec

450000;
 time = 0.666sec

500000;
 time = 0.755sec

550000;
 time = 0.854sec

600000;
 time = 0.916sec

650000;
 time = 1.006sec

700000;
 time = 1.095sec

750000;
 time = 1.273sec

800000;
 time = 1.248sec

850000;
 time = 1.446sec

900000;
 time = 1.585sec

950000;
 time = 1.635sec

1000000;
 time = 1.913sec

测试是在 Core i5-3317U@1.7Ghz CPU 设备上进行的。你可以看到，它成线性增长，并且在 JVM 字符串池包含一百万个字符串时，我仍然可以近似每秒intern5000 个字符串，这对于在内存中处理大量数据的应用程序来说太慢了。

现在，调整-XX:StringTableSize=100003参数来重新运行测试：

50000;
 time = 0.017sec

100000;
 time = 0.009sec

150000;
 time = 0.01sec

200000;
 time = 0.009sec

250000;
 time = 0.007sec

300000;
 time = 0.008sec

350000;
 time = 0.009sec

400000;
 time = 0.009sec

450000;
 time = 0.01sec

500000;
 time = 0.013sec

550000;
 time = 0.011sec

600000;
 time = 0.012sec

650000;
 time = 0.015sec

700000;
 time = 0.015sec

750000;
 time = 0.01sec

800000;
 time = 0.01sec

850000;
 time = 0.011sec

900000;
 time = 0.011sec

950000;
 time = 0.012sec

1000000;
 time = 0.012sec

可以看到，这时插入字符串的时间近似于常量（在 Map 的字符串列表中平均字符串个数不超过 10 个），下面是相同设置的结果，不过这次我们将向池中插入 1000 万个字符串（这意味着 Map 中的字符串列表平均包含 100 个字符串）

2000000;
 time = 0.024sec

3000000;
 time = 0.028sec

4000000;
 time = 0.053sec

5000000;
 time = 0.051sec

6000000;
 time = 0.034sec

7000000;
 time = 0.041sec

8000000;
 time = 0.089sec

9000000;
 time = 0.111sec

10000000;
 time = 0.123sec

现在让我们将池的大小增加到 100 万（精确的说是 1,000,003）

1000000;
 time = 0.005sec

2000000;
 time = 0.005sec

3000000;
 time = 0.005sec

4000000;
 time = 0.004sec

5000000;
 time = 0.004sec

6000000;
 time = 0.009sec

7000000;
 time = 0.01sec

8000000;
 time = 0.009sec

9000000;
 time = 0.009sec

10000000;
 time = 0.009sec

如你所看到的,时间非常平均，并且与 “0 到 100万” 的表没有太大差别。甚至在池大小足够大的情况下，我的笔记本也能每秒添加1,000,000个字符对象。

我们还需要手工管理字符串池吗？

现在我们需要对比 JVM 字符串池和WeakHashMap<String, WeakReference<String>>它可以用来模拟 JVM 字符串池。下面的方法用来替换String.intern：

privatestaticfinal

WeakHashMap<String, WeakReference<String>> s_manualCache = 

newWeakHashMap<String,
 WeakReference<String>>( 100000);


privatestaticString
 manualIntern( finalString
 str )

{

finalWeakReference<String>
 cached = s_manualCache.get( str );

if(
 cached != null)

{

finalString
 value = cached.get();

if(
 value != null)

returnvalue;

}

s_manualCache.put(
 str, newWeakReference<String>(
 str ) );

returnstr;

}

下面针对手工池的相同测试：

0;
 manual time = 0.001sec

50000;
 manual time = 0.03sec

100000;
 manual time = 0.034sec

150000;
 manual time = 0.008sec

200000;
 manual time = 0.019sec

250000;
 manual time = 0.011sec

300000;
 manual time = 0.011sec

350000;
 manual time = 0.008sec

400000;
 manual time = 0.027sec

450000;
 manual time = 0.008sec

500000;
 manual time = 0.009sec

550000;
 manual time = 0.008sec

600000;
 manual time = 0.008sec

650000;
 manual time = 0.008sec

700000;
 manual time = 0.008sec

750000;
 manual time = 0.011sec

800000;
 manual time = 0.007sec

850000;
 manual time = 0.008sec

900000;
 manual time = 0.008sec

950000;
 manual time = 0.008sec

1000000;
 manual time = 0.008sec

当 JVM 有足够内存时，手工编写的池提供了良好的性能。不过不幸的是，我的测试（保留String.valueOf(0 < N < 1,000,000,000)）保留非常短的字符串，在使用-Xmx1280M参数时它允许我保留月为 2.5M 的这类字符串。JVM 字符串池 (size=1,000,003）从另一方面讲在 JVM 内存足够时提供了相同的性能特性，知道 JVM 字符串池包含 12.72M 的字符串并消耗掉所有内存（5倍多）。我认为，这非常值得你在你的应用中去掉所有手工字符串池。

在 Java 7u40+ 以及 Java 8 中的 String.intern()

Java7u40 版本扩展了字符串池的大小（这是组要的性能更新）到 60013.这个值允许你在池中包含大约 30000 个独立的字符串。通常来说，这对于需要保存的数据来说已经足够了，你可以通过-XX:+PrintFlagsFinalJVM 参数获得这个值。

我尝试在原始发布的 Java 8 中运行相同的测试，Java 8 仍然支持-XX:StringTableSize参数来兼容 Java 7 特性。主要的区别在于 Java 8 中默认的池大小增加到 60013：

50000;
 time = 0.019sec

100000;
 time = 0.009sec

150000;
 time = 0.009sec

200000;
 time = 0.009sec

250000;
 time = 0.009sec

300000;
 time = 0.009sec

350000;
 time = 0.011sec

400000;
 time = 0.012sec

450000;
 time = 0.01sec

500000;
 time = 0.013sec

550000;
 time = 0.013sec

600000;
 time = 0.014sec

650000;
 time = 0.018sec

700000;
 time = 0.015sec

750000;
 time = 0.029sec

800000;
 time = 0.018sec

850000;
 time = 0.02sec

900000;
 time = 0.017sec

950000;
 time = 0.018sec

1000000;
 time = 0.021sec

测试代码

这篇文章的测试代码很简单，一个方法中循环创建并保留新字符串。你可以测量它保留 10000 个字符串所需要的时间。最好配合-verbose:gcJVM 参数来运行这个测试，这样可以查看垃圾收集是何时以及如何发生的。另外最好使用-Xmx参数来执行堆的最大值。

这里有两个测试：testStringPoolGarbageCollection将显示 JVM 字符串池被垃圾收集 — 检查垃圾收集日志消息。在 Java 6 的默认 PermGen 大小配置上，这个测试会失败，因此最好增加这个值，或者更新测试方法，或者使用 Java 7.

第二个测试显示内存中保留了多少字符串。在 Java 6 中执行需要两个不同的内存配置比如：-Xmx128M以及-Xmx1280M（10 倍以上）。你可能发现这个值不会影响放入池中字符串的数量。另一方面，在 Java 7 中你能够在堆中填满你的字符串。

/**

-
 Testing String.intern.

*

-
 Run this class at least with -verbose:gc JVM parameter.

*/

publicclassInternTest
 {

publicstaticvoid

main( String[] args ) {

testStringPoolGarbageCollection();

testLongLoop();

}


/**

-
 Use this method to see where interned strings are stored

-
 and how many of them can you fit for the given heap size.

*/

privatestaticvoid

testLongLoop()

{

test(1000*1000*1000);

//uncomment
 the following line to see the hand-written cache performance

//testManual(
 1000 * 1000 * 1000 );

}


/**

-
 Use this method to check that not used interned strings are garbage collected.

*/

privatestaticvoid

testStringPoolGarbageCollection()

{

//first
 method call - use it as a reference

test(1000*1000);

//we
 are going to clean the cache here.

System.gc();

//check
 the memory consumption and how long does it take to intern strings

//in
 the second method call.

test(1000*1000);

}


privatestaticvoid

test( finalintcnt
 )

{

finalList<String>
 lst = newArrayList<String>(100);

longstart
 = System.currentTimeMillis();

for(inti
 = 0;
 i < cnt; ++i )

{

finalString
 str = "Very
 long test string, which tells you about something " 
+

"very-very
 important, definitely deserving to be interned #" 
+ i;

//uncomment
 the following line to test dependency from string length

//
 final String str = Integer.toString( i );

lst.add(
 str.intern() );

if(
 i % 10000==0)

{

System.out.println(
 i + ";
 time = " 
+ ( System.currentTimeMillis() - start ) / 1000.0+"
 sec" 
);

start
 = System.currentTimeMillis();

}

}

System.out.println("Total
 length = " 
+ lst.size() );

}


privatestaticfinal

WeakHashMap<String, WeakReference<String>> s_manualCache =

newWeakHashMap<String,
 WeakReference<String>>( 100000);


privatestaticString
 manualIntern( finalString
 str )

{

finalWeakReference<String>
 cached = s_manualCache.get( str );

if(
 cached != null)

{

finalString
 value = cached.get();

if(
 value != null)

returnvalue;

}

s_manualCache.put(
 str, newWeakReference<String>(
 str ) );

returnstr;

}


privatestaticvoid

testManual( finalintcnt
 )

{

finalList<String>
 lst = newArrayList<String>(100);

longstart
 = System.currentTimeMillis();

for(inti
 = 0;
 i < cnt; ++i )

{

finalString
 str = "Very
 long test string, which tells you about something " 
+

"very-very
 important, definitely deserving to be interned #" 
+ i;

lst.add(
 manualIntern( str ) );

if(
 i % 10000==0)

{

System.out.println(
 i + ";
 manual time = " 
+ ( System.currentTimeMillis() - start ) / 1000.0+"
 sec" 
);

start
 = System.currentTimeMillis();

}

}

System.out.println("Total
 length = " 
+ lst.size() );

}

}

总结

由于 Java 6 中使用固定的内存大小（PermGen）因此不要使用String.intern()方法
Java7 和 8 在堆内存中实现字符串池。这以为这字符串池的内存限制等于应用程序的内存限制。
在 Java 7 和 8 中使用-XX:StringTableSize来设置字符串池 Map 的大小。它是固定的，因为它使用HashMap实现。近似于你应用单独的字符串个数（你希望保留的）并且设置池的大小为最接近的质数并乘以 2 （减少碰撞的可能性）。它是的String.intern可以使用相同（固定）的时间并且在每次插入时消耗更小的内存(同样的任务，使用javaWeakHashMap将消耗4-5倍的内存)。
在 Java 6 和 7（Java7u40以前）中-XX:StringTableSize参数的值是 1009。Java7u40 以后这个值调整为 60013 （Java 8 中使用相同的值）
如果你不确定字符串池的用量，参考：-XX:+PrintStringTableStatisticsJVM 参数，当你的应用挂掉时它告诉你字符串池的使用量信息。

原文：http://java-performance.info/string-intern-in-java-6-7-8/

译文：http://www.4byte.cn/learning/84930/java-xing-neng-you-hua-shou-ce-ti-gao-java-dai-ma-xing-neng-de-ge-zhong-ji-qiao.html

分享到：

Freemarker的常用技巧总结 | 封闭开发终于结束了，回归我的博客，回归各 ...

2015-05-14 08:48
浏览 286
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

java6,7,8中String.intern进化史与深度剖析

字符串池

Java 6 中的 String.intern()

Java 7 中的 String.intern()

字符串池中的数据会被垃圾收集

在 Java 6，7，8 中 JVM 字符串池的实现

Java 7 （直至 Java7u40）

我们还需要手工管理字符串池吗？

在 Java 7u40+ 以及 Java 8 中的 String.intern()

测试代码

总结

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

java6,7,8中String.intern进化史与深度剖析

字符串池

Java 6 中的 String.intern()

Java 7 中的 String.intern()

字符串池中的数据会被垃圾收集

在 Java 6，7，8 中 JVM 字符串池的实现

Java 7 （直至 Java7u40）

我们还需要手工管理字符串池吗？

在 Java 7u40+ 以及 Java 8 中的 String.intern()

测试代码

总结

评论

发表评论

相关推荐

最近访客更多访客>>