`
JAVA海洋
  • 浏览: 618078 次
  • 性别: Icon_minigender_1
  • 来自: 太原
社区版块
存档分类
最新评论

Eclipse 的字符串分区共享优化机制

阅读更多
  在 Java/C# 这样基于引用语义处理字符串的语言中,作为不可变对象存在的字符串,如果内容相同,则可以通过某种机制实现重用。因为对这类语言来说,指向内存中两块内存位置不同内容相同的字符串,与同时指向一个字符串并没有任何区别。特别是对大量使用字符串的 XML 文件解析类似场合,这样的优化能够很大程度上降低程序的内存占用,如 SAX 解析引擎标准中就专门定义了一个 http://xml.org/sax/features/string-interning 特性用于字符串重用。

  在语言层面,Java/C# 中都直接提供了 String.Intern 的支持。而对 Java 来说,实现上的非常类似。由 String.intern 方法,将当前字符串以内容为键,对象引用为值,放入一个全局性的哈希表中。

  代码:

//
// java/lang/String.java
//

public final class String
{
 //...
 public native String intern(); // 使用 JNI 函数实现以保障效率
}

//
// hotspot/src/share/vm/prims/jvm.cpp
//

JVM_ENTRY(jstring, JVM_InternString(JNIEnv *env, jstring str))
JVMWrapper("JVM_InternString");
if (str == NULL) return NULL;
 oop string = JNIHandles::resolve_non_null(str); // 将引用解析为内部句柄
 oop result = StringTable::intern(string, CHECK_0); // 进行实际的字符串 intern 操作
 return (jstring) JNIHandles::make_local(env, result); // 获取内部句柄的引用
 JVM_END
 //
 // hotspot/src/share/vm/memory/symbolTable.cpp
 //
 oop StringTable::intern(oop string, TRAPS)
 {
  if (string == NULL) return NULL;
  ResourceMark rm(THREAD); // 保护线程资源区域
  int length;
  Handle h_string (THREAD, string);
  jchar* chars = java_lang_String::as_unicode_string(string, length); // 获取实际字符串内容
  oop result = intern(h_string, chars, length, CHECK_0); // 完成字符串 intern 操作
  return result;
 }
 oop StringTable::intern(Handle string_or_null, jchar* name, int len, TRAPS)
 {
  int hashValue = hash_string(name, len); // 首先根据字符串内容计算哈希值
  stringTableBucket* bucket = bucketFor(hashValue); // 根据哈希值获取目标容器
  oop string = bucket->lookup(name, len); // 然后检测字符串是否已经存在
  // Found
  if (string != NULL) return string;
  // Otherwise, add to symbol to table
  return basic_add(string_or_null, name, len, hashValue, CHECK_0); // 将字符串放入哈希表
 }

  对全局字符串表中的字符串,是没有办法显式手动清除的。只能在不使用此字符串后,由垃圾回收线程在进行不可达对象标记时进行分析,并最终调用 StringTable::unlink 方法去遍历清除。

  代码:

//
// hotspot/src/share/vm/memory/genMarkSweep.cpp
//

void GenMarkSweep::mark_sweep_phase1(...)
{
 //...
 StringTable::unlink();
}

//
// hotspot/src/share/vm/memory/symbolTable.cpp
//

void StringTable::unlink() {
 // Readers of the string table are unlocked, so we should only be
 // removing entries at a safepoint.
 assert(SafepointSynchronize::is_at_safepoint(), "must be at safepoint")
 for (stringTableBucket* bucket = firstBucket(); bucket <= lastBucket(); bucket++) {
  for (stringTableEntry** p = bucket->entry_addr(); *p != NULL;) {
   stringTableEntry* entry = *p;
   assert(entry->literal_string() != NULL, "just checking");
   if (entry->literal_string()->is_gc_marked()) { // 字符串对象是否可达
    // Is this one of calls those necessary only for verification? (DLD)
    entry->oops_do(&MarkSweep::follow_root_closure);
    p = entry->next_addr();
   } else { // 如不可达则将其内存块回收到内存池中
    *p = entry->next();
    entry->set_next(free_list);
    free_list = entry;
   }
  }
 }
}

  通过上面的代码,我们可以直观了解到,对 JVM (Sun JDK 1.4.2) 来说,String.intern 提供的是全局性的基于哈希表的共享支持。这样的实现虽然简单,并能够在最大限度上进行字符串共享;但同时也存在共享粒度太大,优化效果无法度量,大量字符串可能导致全局字符串表性能降低等问题。

  为此 Eclipse 舍弃了 JVM 一级的字符串共享优化机制,而通过提供细粒度、完全可控、可测量的字符串分区共享优化机制,一定程度上缓解此问题。Eclipse 核心的 IStringPoolParticipant 接口由使用者显式实现,在其 shareStrings 方法中提交需要共享的字符串。

  代码:

//
// org.eclipse.core.runtime.IStringPoolParticipant
//

public interface IStringPoolParticipant {
 /**
 * Instructs this participant to share its strings in the provided
 * pool.
 */
 public void shareStrings(StringPool pool);
}

  例如 MarkerInfo 类型实现了 IStringPoolParticipant 接口,在其 shareStrings 方法中,提交自己需要共享的字符串 type,并通知其下级节点进行相应的提交。

  代码:

//
// org.eclipse.core.internal.resources.MarkerInfo
//

public class MarkerInfo implements ..., IStringPoolParticipant
{
 public void shareStrings(StringPool set) {
  type = set.add(type);
  Map map = attributes;
  if (map instanceof IStringPoolParticipant)
  ((IStringPoolParticipant) map).shareStrings(set);
 }
}

  这样一来,只要一个对象树各级节点选择性实现 IStringPoolParticipant 接口,就可以一次性将所有需要共享的字符串,通过递归提交到一个字符串缓冲池中进行复用优化。如 Workspace 就是这样一个字符串共享根入口,其 open 方法在完成工作区打开操作后,将需要进行字符串共享优化的缓存管理对象,加入到全局字符串缓冲区分区优化列表中。

  代码:

//
// org.eclipse.core.internal.resources
//

public class Workspace ...
{
 protected SaveManager saveManager;
 public IStatus open(IProgressMonitor monitor) throws CoreException
 {
  // 打开工作空间
  // 最终注册一个新的字符串缓冲池分区
  InternalPlatform.getDefault().addStringPoolParticipant(saveManager, getRoot());
  return Status.OK_STATUS;
 }
}

  在 Java/C# 这样基于引用语义处理字符串的语言中,作为不可变对象存在的字符串,如果内容相同,则可以通过某种机制实现重用。因为对这类语言来说,指向内存中两块内存位置不同内容相同的字符串,与同时指向一个字符串并没有任何区别。特别是对大量使用字符串的 XML 文件解析类似场合,这样的优化能够很大程度上降低程序的内存占用,如 SAX 解析引擎标准中就专门定义了一个 http://xml.org/sax/features/string-interning 特性用于字符串重用。

  在语言层面,Java/C# 中都直接提供了 String.Intern 的支持。而对 Java 来说,实现上的非常类似。由 String.intern 方法,将当前字符串以内容为键,对象引用为值,放入一个全局性的哈希表中。

  代码:

//
// java/lang/String.java
//

public final class String
{
 //...
 public native String intern(); // 使用 JNI 函数实现以保障效率
}

//
// hotspot/src/share/vm/prims/jvm.cpp
//

JVM_ENTRY(jstring, JVM_InternString(JNIEnv *env, jstring str))
JVMWrapper("JVM_InternString");
if (str == NULL) return NULL;
 oop string = JNIHandles::resolve_non_null(str); // 将引用解析为内部句柄
 oop result = StringTable::intern(string, CHECK_0); // 进行实际的字符串 intern 操作
 return (jstring) JNIHandles::make_local(env, result); // 获取内部句柄的引用
 JVM_END
 //
 // hotspot/src/share/vm/memory/symbolTable.cpp
 //
 oop StringTable::intern(oop string, TRAPS)
 {
  if (string == NULL) return NULL;
  ResourceMark rm(THREAD); // 保护线程资源区域
  int length;
  Handle h_string (THREAD, string);
  jchar* chars = java_lang_String::as_unicode_string(string, length); // 获取实际字符串内容
  oop result = intern(h_string, chars, length, CHECK_0); // 完成字符串 intern 操作
  return result;
 }
 oop StringTable::intern(Handle string_or_null, jchar* name, int len, TRAPS)
 {
  int hashValue = hash_string(name, len); // 首先根据字符串内容计算哈希值
  stringTableBucket* bucket = bucketFor(hashValue); // 根据哈希值获取目标容器
  oop string = bucket->lookup(name, len); // 然后检测字符串是否已经存在
  // Found
  if (string != NULL) return string;
  // Otherwise, add to symbol to table
  return basic_add(string_or_null, name, len, hashValue, CHECK_0); // 将字符串放入哈希表
 }

  对全局字符串表中的字符串,是没有办法显式手动清除的。只能在不使用此字符串后,由垃圾回收线程在进行不可达对象标记时进行分析,并最终调用 StringTable::unlink 方法去遍历清除。

  代码:

//
// hotspot/src/share/vm/memory/genMarkSweep.cpp
//

void GenMarkSweep::mark_sweep_phase1(...)
{
 //...
 StringTable::unlink();
}

//
// hotspot/src/share/vm/memory/symbolTable.cpp
//

void StringTable::unlink() {
 // Readers of the string table are unlocked, so we should only be
 // removing entries at a safepoint.
 assert(SafepointSynchronize::is_at_safepoint(), "must be at safepoint")
 for (stringTableBucket* bucket = firstBucket(); bucket <= lastBucket(); bucket++) {
  for (stringTableEntry** p = bucket->entry_addr(); *p != NULL;) {
   stringTableEntry* entry = *p;
   assert(entry->literal_string() != NULL, "just checking");
   if (entry->literal_string()->is_gc_marked()) { // 字符串对象是否可达
    // Is this one of calls those necessary only for verification? (DLD)
    entry->oops_do(&MarkSweep::follow_root_closure);
    p = entry->next_addr();
   } else { // 如不可达则将其内存块回收到内存池中
    *p = entry->next();
    entry->set_next(free_list);
    free_list = entry;
   }
  }
 }
}

  通过上面的代码,我们可以直观了解到,对 JVM (Sun JDK 1.4.2) 来说,String.intern 提供的是全局性的基于哈希表的共享支持。这样的实现虽然简单,并能够在最大限度上进行字符串共享;但同时也存在共享粒度太大,优化效果无法度量,大量字符串可能导致全局字符串表性能降低等问题。

  为此 Eclipse 舍弃了 JVM 一级的字符串共享优化机制,而通过提供细粒度、完全可控、可测量的字符串分区共享优化机制,一定程度上缓解此问题。Eclipse 核心的 IStringPoolParticipant 接口由使用者显式实现,在其 shareStrings 方法中提交需要共享的字符串。

  代码:

//
// org.eclipse.core.runtime.IStringPoolParticipant
//

public interface IStringPoolParticipant {
 /**
 * Instructs this participant to share its strings in the provided
 * pool.
 */
 public void shareStrings(StringPool pool);
}

  例如 MarkerInfo 类型实现了 IStringPoolParticipant 接口,在其 shareStrings 方法中,提交自己需要共享的字符串 type,并通知其下级节点进行相应的提交。

  代码:

//
// org.eclipse.core.internal.resources.MarkerInfo
//

public class MarkerInfo implements ..., IStringPoolParticipant
{
 public void shareStrings(StringPool set) {
  type = set.add(type);
  Map map = attributes;
  if (map instanceof IStringPoolParticipant)
  ((IStringPoolParticipant) map).shareStrings(set);
 }
}

  这样一来,只要一个对象树各级节点选择性实现 IStringPoolParticipant 接口,就可以一次性将所有需要共享的字符串,通过递归提交到一个字符串缓冲池中进行复用优化。如 Workspace 就是这样一个字符串共享根入口,其 open 方法在完成工作区打开操作后,将需要进行字符串共享优化的缓存管理对象,加入到全局字符串缓冲区分区优化列表中。

  代码:

//
// org.eclipse.core.internal.resources
//

public class Workspace ...
{
 protected SaveManager saveManager;
 public IStatus open(IProgressMonitor monitor) throws CoreException
 {
  // 打开工作空间
  // 最终注册一个新的字符串缓冲池分区
  InternalPlatform.getDefault().addStringPoolParticipant(saveManager, getRoot());
  return Status.OK_STATUS;
 }
分享到:
评论

相关推荐

    eclipse字符串驼峰转换插件及源码

    eclipse字符串驼峰转换插件及源码,提供字符串转StringBuilder, snake_case转camalCase及互转功能。将文档中的plugins复制到eclipse中,重启即可生效。ctrl+shift+1 为转换StringBuilder快捷键, ctrl+alt+z为驼峰...

    eclipse字符串下划线驼峰互转插件(附源码).7z

    本插件是专门为Eclipse设计的,目的是方便开发者在编写代码时快速将字符串的下划线风格(如"my_string")转换为驼峰风格(如"myString")或者反之,极大地提高了编码效率。 驼峰命名法(Camel Case)是一种常用的...

    Eclipse初学者教程 读取输入字符串

    通过从控制台(例如,使用Scanner)给定一个整数序列的输入字符串,从而实现对该字符串的读取,并将其解析为一个未排序的整数数组,然后查找该数组中最近的相邻元素对。

    类似eclipse文件夹查字符串的工具(可以查php文件比一般的工具好很多)

    标题中的“类似eclipse文件夹查字符串的工具”指的是能够快速搜索代码库中特定字符串的软件,这样的工具在开发过程中非常实用,特别是对于大型项目或包含多种语言(如PHP)的项目。Eclipse是一款广泛使用的Java集成...

    在整个项目中查询字符串.doc

    在许多集成开发环境(IDE)中,如Eclipse、IntelliJ IDEA或Visual Studio Code,都提供了强大的搜索功能来帮助我们快速找到查询字符串。以下是一些具体的操作步骤: 1. **Eclipse**:在Eclipse中,你可以使用快捷键...

    java对象生成json字符串实例(eclipse工程)

    java对象生成json字符串实例(eclipse工程),生成的结果如下: {"stuList":[{"stuname":"stu_jack","stuno":"stu001"},{"stuname":"stu_jack2","stuno":"stu002"}],"teaname":"tea_jack","teano":"tea_001"} 自己可以...

    使用Eclipse的平台共享代码

    使用Eclipse的平台共享代码使用Eclipse的平台共享代码使用Eclipse的平台共享代码使用Eclipse的平台共享代码使用Eclipse的平台共享代码

    eclipse-asveditor:用于 Eclipse 的 Android 字符串值编辑器插件

    用于 Eclipse 的 Android 字符串值编辑器插件 用于编辑 Android strings.xml 资源字符串的 Eclipse 插件。 让您在一个屏幕中管理所有本地化的 string.xml 文件。 插件的主视图。 设置画面。 将资源保存到文件...

    org.eclipse.jface.text_3.8.101.v20130802-1147去除字符串上屏

    org.eclipse.jface.text_3.8.101.v20130802-1147去除使用空格和“;”字符串上屏

    Eclipse驼峰和下划线互转

    将文件下载后放在Eclipse安装目录下plugins后重启Eclipse。双击选中要转换的字符按快捷键Ctrl+Shift+Z,插件转换规则依次是: 下划线(小写) &gt; 驼峰(首字母大写) &gt; 驼峰(首字母小写) &gt; 下划线(大写) &gt; 下划线(小写)&gt;....

    Thymeleaf显示base64字符串为图片.docx

    在网页开发中,有时我们需要将Base64编码的字符串直接作为图片显示出来,这在Thymeleaf框架中可以通过特定的方式实现。Base64是一种数据编码方式,它将二进制数据转化为可打印的ASCII字符,常用于在HTTP协议中传输...

    Java字符串和数组

    `IDEA`、`Eclipse`等Java集成开发环境提供了强大的代码提示和自动完成功能,帮助开发者更高效地编写和调试涉及字符串和数组的代码。同时,阅读源码也是一个提升理解的好方法,比如查看`String`类的源码,可以了解到...

    EclipsePasteAsJavaString:Eclipse插件,当按Ctrl + Shift + V时将文本粘贴为Java字符串(带有多行转义)

    EclipsePasteAsJavaString Eclipse插件,当按Ctrl + Shift + V时将文本粘贴为Java字符串(带有多行转义)安装将.jar文件拖放到Eclipse plugins文件夹中,然后重新启动Eclipse。 用法按Ctrl + Shift + V将文本作为...

    eclipse内存优化

    理解Eclipse内存优化前,首先需了解Java虚拟机(JVM)的内存管理机制。JVM管理的内存主要分为两类:堆内存(Heap)与非堆内存(Non-heap)。堆内存用于存储所有类实例和数组,是Java代码可直接访问的部分。而非堆...

    在文件中查询特定字符串

    例如,Eclipse和IntelliJ IDEA都有查找和替换整个项目中字符串的功能。这些IDE不仅限于特定编程语言,还支持搜索注释、变量名、函数名等,并能提供上下文信息。 对于大型项目或代码库,Git这样的版本控制系统也提供...

    Eclipse更改默认字符集

    Eclipse 更改默认字符集 Eclipse 是一个功能强大且广泛使用的集成开发环境(IDE),它提供了许多实用的功能和插件来帮助开发者快速高效地开发各种应用程序。但是,默认情况下,Eclipse 的工作空间使用操作系统的...

    Eclipse控制台展示字符的问题

    Eclipse 控制台展示字符的问题 Eclipse 控制台展示字符的问题是 Eclipse 开发环境中常见的一种问题。在 Eclipse 中,默认情况下,控制台最多显示 80000 字符,如果超出这个字符数,控制台将无法显示全部信息。为了...

    字符串和基本类型相互转换

    字符串和基本数据类型相互转换,以及基本类型之间相互转换,此文件是用eclipse打包的,如果用eclipse工具可直接导入查看举例,如果用的是idea工具,可以打开bin下的.class文件之后,拖入到idea运行即可

    用JAVA和UDP实现字符串的发送和接收

    在本文中,我们将深入探讨如何使用Java编程语言和用户数据报协议(UDP)来实现字符串的发送和接收。首先,我们需要了解UDP的基本概念。UDP是一种无连接的、不可靠的传输层协议,它不保证数据包的顺序或完整性,但...

Global site tag (gtag.js) - Google Analytics