`
OneAPM_Official
  • 浏览: 24725 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

管理Java垃圾回收的五个建议

阅读更多

【编者按】本文作者是Niv Steingarten,是Takipi 的联合创始人,热衷于编写优雅简洁的代码。作者通过对垃圾收集器的介绍和梳理,在管理垃圾回收方面提出了五个建议,降低收集器开销,帮助大家进一步提升项目性能。本文系国内 ITOM 管理平台OneAPM 工程师编译整理。

保持GC低开销最实用的建议是什么?

早有消息声称Java 9即将发布,但如今却一再推迟,其中比较值得关注的是G1(“Garbage-First”)垃圾收集器将成为HotSpot JVM的默认收集器。从串行收集器到CMS收集器,在整个生命周期中JVM已历经多代GC的实现和更新,而接下来,G1收集器将谱写新的篇章。

随着垃圾收集器的持续发展,每一代都会进行改善和提高。在串行收集器之后的并行收集器利用多核机器强大的计算能力,实现了垃圾收集多线程。而之后的CMS(Concurrent Mark-Sweep)收集器,将收集分为多个阶段执行,允许在应用线程运行同时进行大量的收集,大大降低了“stop-the-world”全局停顿的出现频率。而现在,G1在JVM上加入了大量堆和可预测的均匀停顿,有效地提升了性能。

尽管GC不断在完善,其致命弱点还是一样:多余的和不可预知的对象分配。但本文中提出了一些高效的长期实用的建议,不管你选择哪种垃圾收集器,都可以帮助你降低GC开销。

 

建议1:预测收集能力

所有的Java标准集合和大多数自定义的扩展实现(如Trove 和谷歌的Guava),都会使用底层数组(无论基于原始或基于对象)。数据的长度一旦分配后,数组就不可变了,所以在许多情况下,为集合增加项目可能会导致老的底层数组被删除,然后需要重新分配一个更大的数组来替代。

大多数的集合实现都尝试在集合没有被设置为预期大小时,还能对重分配过程进行优化,并降低其开销。但是,最好的结果还是在构造集合时就设置成预期大小。

让我们看一下下面这个简单的例子:

public static List reverse(List<? extends T> list) {
    List result = new ArrayList();
    for (int i = list.size() - 1; i >= 0; i--) {
        result.add(list.get(i));
    }
    return result;
}

 

以上方法分配了一个新的数组,再将另一个列表的项目填充其中,但只能按倒序填充。

但是,难就难在如何优化增加项目到新列表这一步骤。每次添加后,该列表还需确保其底层数组有足够的空槽能装下新项目。如果能装下,它就会直接在下一个空槽中存储新项目;但如果空间不够,它就会重新分配一个底层数组,将旧数组的内容复制到新数组中,然后再添加新项目。这一过程会导致分配的多个数组都会占据内存,直到GC最后来回收。

所以,我们可以在构建时告知数组需容纳多少个项目,重构后的代码如下:

public static List reverse(List<? extends T> list) {
    List result = new ArrayList(list.size());
    for (int i = list.size() - 1; i >= 0; i--) {
        result.add(list.get(i));
    }
    return result;
}

 

这样一来,可以保证ArrayList构造函数在最初配置时就能容纳下list.size()个项目,这意味着它不需要再在迭代中重新分配内存。

Guava的集合类则更加先进,允许我们用一个确切数量或估计值来初始化集合。

List result = Lists.newArrayListWithCapacity(list.size());
List result = Lists.newArrayListWithExpectedSize(list.size());

 

第一行代码是我们知道有多少项目需要存储的情况,第二行会分配一些多余填充以适应预估误差。

 

建议2:直接用处理流

当处理数据流时,如从文件中读取数据或从网上下载数据,例如,我们通常可以从数据流中有所发现:

byte[] fileData = readFileToByteArray(new File("myfile.txt"));

 

由此产生的字节数组可以被解析为XML文档、JSON对象或协议缓冲消息,来命名一些常用选项。

当处理大型或未知大小的文件时,这个想法则不适用了,因为当JVM无法分配文件大小的缓冲区时,则会出现OutOfMemoryErrors错误。

但是,即使数据大小看似能管理,当涉及到垃圾回收时,上述模式仍会造成大量开销,因为它在堆上分配了相当大的blob来容纳文件数据。

更好的处理方式是使用合适的InputStream(本例中是FileInputStream),并直接将其送到分析器,而不是提前将整个文件读到字节数组中。所有主要库会将API直接暴露给解析流,例如:

FileInputStream fis = new FileInputStream(fileName);
MyProtoBufMessage msg = MyProtoBufMessage.parseFrom(fis);

 

建议3:使用不可变对象

不变性有诸多优势,但有一个优势却极少被重视,那就是不变性对垃圾回收的影响。

不可变对象是指对象一旦创建后,其字段(本例中指非原始字段)将无法被修改。例如:

public class ObjectPair {
    private final Object first;
    private final Object second;
    public ObjectPair(Object first, Object second) {
        this.first = first;
        this.second = second;
    }
    public Object getFirst() {
        return first;
    }
    public Object getSecond() {
        return second;
    }
}

 

实例化上面类的结果为不可变对象——所有的字段一旦标记后则不能再被修改。

不变性意味着在构造容器完成之前,由不可变容器引用的所有对象都已经创建。在GC看来:容器会和其最新的新生代保持一致。这意味着当对新生代(young generations)执行垃圾回收周期时,GC可以跳过老年代(older generations)中的不可变对象,因为它知道不可变对象不能引用新生代的任何内容。

越少对象扫描意味着需扫描的内存页越少,而越少的内存页扫描意味着GC周期越短,同时也预示着更短的GC停顿和更好的整体吞吐量。

 

建议4:慎用字符串连接

字符串可能是任何基于JVM的应用中最普遍的非原始数据结构。但是,其隐含重量和使用便利性使得它们成为应用内存变大的罪魁祸首。

很明显,问题不在于被内联和拘留的文字字符串,而在于字符串在运行时被分配和构建。接下来看看构建动态字符串的简单示例:

public static String toString(T[] array) {
    String result = "[";
    for (int i = 0; i < array.length; i++) {
        result += (array[i] == array ? "this" : array[i]);
        if (i < array.length - 1) {
            result += ", ";
        }
    }
    result += "]";
    return result;
}

 

获取数组并返回它的字符串表示是一个很不错的方法,但这也正是对象分配的问题所在。

要看到其背后所有的语法糖并不容易,但真正的幕后场景应该是这样:

public static String toString(T[] array) {
    String result = "[";
    for (int i = 0; i < array.length; i++) {
        StringBuilder sb1 = new StringBuilder(result);
        sb1.append(array[i] == array ? "this" : array[i]);
        result = sb1.toString();
        if (i < array.length - 1) {
            StringBuilder sb2 = new StringBuilder(result);
            sb2.append(", ");
            result = sb2.toString();
        }
    }
    StringBuilder sb3 = new StringBuilder(result);
    sb3.append("]");
    result = sb3.toString();
    return result;
}

 

字符串是不可变的,所以在其连接时并没有被修改,而是依次分配新的字符串。此外,编译器利用标准StringBuilder类来执行的这些链接。这就导致了双重麻烦,在每次循环迭代时,我们得到(1)隐式分配临时字符串,(2)隐式分配临时的StringBuilder对象来帮助我们构建最终结果。

避免上述问题的最佳方法是明确使用StringBuilder并直接附加给它,而不是使用略幼稚的串联运算符(“+”)。所以应该是这样:

public static String toString(T[] array) {
    StringBuilder sb = new StringBuilder("[");
    for (int i = 0; i < array.length; i++) {
        sb.append(array[i] == array ? "this" : array[i]);
        if (i < array.length - 1) {
            sb.append(", ");
        }
    }
    sb.append("]");
    return sb.toString();
}

 

此时,在方法开始时我们只分配了StringBuilder。从这一点来看,所有的字符串和列表项都会被添加到唯一的StringBuilder中,最终只调用一次toString方法转换成字符串,然后返回结果。

 

建议5:使用专门的原始集合

Java的标准库非常方便且通用,支持使用集合绑定半静态类型。例如,如果要用一组字符串(Set<String>),或一对字符串映射到字符串列表(Map<Pair, List<String>>),直接利用标准库会非常方便。

事实上,问题之所以出现是因为我们想把double类型的值放在 int 类型的list集合或map映射中。由于泛型不能调用原始集合,则可以用包装类型代替,所以放弃List<int>而使用List<Integer>更好。

但其实这非常浪费,Integer本身就是一个完备对象,由12字节的对象头和内部4字节的整数字段组合而成,加起来每个Integer对象占16个字节,这是同样大小的基类int类型长度的4倍!然而,更大的问题是所有这些Integer实际上都是垃圾回收过程中的对象实例。

为了解决这个问题,我们在Takipi 中使用优秀Trove 集合库。Trove放弃了一些(但不是全部)支持专业高效内存的原始集合的泛型。例如,不用浪费的Map,而用专门的原始集合TintDoubleMap来替代更好:

TIntDoubleMap map = new TIntDoubleHashMap();
map.put(5, 7.0);
map.put(-1, 9.999);
...

 

Trove底层实现了原始数组的使用,所以在操作集合时没有装箱(int -> Integer)或拆箱(Integer -> int)发生,因此也不会将对象存储在基类中。

 

结语

随着垃圾收集器不断进步,以及实时优化和JIT编译器变得更加智能,作为开发者的我们,可以越来越少地操心代码的GC友好性。尽管如此,无论G1有多先进,在提高JVM方面,我们还有许多问题需要不断探索和实践,百尺竿头仍需更进一步。

(编译自:https://www.javacodegeeks.com/2015/12/5-tips-reducing-java-garbage-collection-overhead.html

OneAPM 为您提供端到端的 Java 应用性能解决方案,我们支持所有常见的 Java 框架及应用服务器,助您快速发现系统瓶颈,定位异常根本原因。分钟级部署,即刻体验,Java 监控从来没有如此简单。想阅读更多技术文章,请访问 OneAPM 官方技术博客

本文转自 OneAPM 官方博客

想知道更多关于 Java 性能优化的内容,请扫码关注下方的公众号:

 

 
分享到:
评论

相关推荐

    java高级之垃圾回收机制

    本文将详细介绍Java中的垃圾回收机制及其工作原理,并探讨JVM如何管理和优化垃圾回收过程。 #### 二、JVM内存模型 JVM内存模型主要包括永久代(Permanent Generation, PermGen)、堆(Heap)和栈(Stack)三大部分。值得...

    理解Java垃圾回收

    Java垃圾回收(Garbage Collection, GC)是Java编程语言中一个重要的特性,它自动管理程序运行过程中的内存分配和释放,避免程序员手动处理内存管理,从而减少错误和提高程序的可维护性。以下是对Java垃圾回收的深入...

    Java Garbage Collection Study java 垃圾回收学习

    Java垃圾回收(Garbage Collection,简称GC)是Java运行时环境(JRE)中的一个关键特性,它自动管理对象的生命周期,释放不再使用的对象所占用的内存空间。在Java中,对象在不再被任何引用链可达时,即被视为垃圾,...

    Java垃圾回收机制e.pdf

    Java垃圾回收机制是Java语言中一个重要的特性,它负责自动管理程序中的内存,避免程序员手动进行内存释放,从而降低了内存泄漏的风险。与C++不同,Java的垃圾回收是由Java虚拟机(JVM)内置的机制执行的,这使得...

    Java垃圾回收机制.pdf

    Java的垃圾回收机制(Garbage Collection,简称GC)是Java语言的一个重要特性,它解决了C++等语言中手动管理内存可能导致的内存泄漏问题。在Java中,垃圾回收是由Java虚拟机(JVM)内置的机制自动进行的,程序员无需...

    降低Java垃圾回收开销的5条建议.docx

    ### 降低Java垃圾回收开销的5条建议 #### Tip1: 预测集合的容量 在Java中,标准的集合如`ArrayList`、`HashMap`等,它们的底层通常采用数组结构来存储数据。当集合中的元素数量超过数组的初始容量时,集合会自动扩...

    Java入门--简述Java语言回收机制

    在Java中,这个过程是由Java虚拟机(JVM)内部的垃圾回收器自动完成的。 - Java中的垃圾回收机制与C++中的手动管理内存相比具有明显的优势。在C++中,开发者需要显式地分配和释放内存,这容易导致内存泄漏等问题。...

    Java垃圾回收机制扫描.pdf

    Java垃圾回收机制是Java语言的一大特性,它负责自动管理程序中的内存,避免了程序员手动进行内存释放,从而降低了出现内存泄漏等问题的风险。垃圾回收的主要任务是识别并清理那些不再被程序引用的对象,以便回收它们...

    java垃圾回收机制知识.pdf

    Java垃圾回收机制是Java编程中一个非常重要的概念,它的核心目标是自动管理程序中的内存,以避免程序员手动处理内存释放,从而减少内存泄漏和程序崩溃的风险。Java虚拟机(JVM)规范定义了多种内存区域,包括栈内存...

    Java堆的管理--垃圾回收

    ### Java堆的管理与垃圾回收详解 在Java编程语言中,内存管理是其核心特性之一,尤其是自动垃圾回收机制,极大地简化了开发人员的工作,避免了C++等语言中常见的内存泄漏问题。本文将深入探讨Java堆的管理,特别是...

    垃圾回收机制面试题·.docx

    Java作为一种广泛使用的编程语言,其垃圾回收机制是其重要的特性之一,能够自动管理内存,大大简化了开发者的负担。本文将深入探讨Java中的垃圾回收机制,包括其工作原理、常用算法以及实际应用中的注意事项。 ####...

    java虚拟机垃圾回收详解

    本文将深入探讨Java垃圾回收的基本原理、过程以及相关的配置选项。 垃圾回收的目的是在程序运行过程中自动识别并释放那些不再使用的对象所占用的内存空间。Java中的垃圾回收主要包括三个关键步骤:标记、扫描和清除...

    java垃圾回收机制可用.pdf

    Java垃圾回收机制是Java编程中的一个重要概念,它自动管理程序中的内存分配和释放,从而避免了程序员手动管理内存可能导致的内存泄漏和溢出等问题。在Java虚拟机(JVM)中,内存分为多个区域,包括栈内存、堆内存、...

    垃圾回收与资源管理

    在Java等编程语言中,垃圾回收(Garbage Collection, GC)和资源管理是至关重要的概念,它们确保程序高效、稳定地运行。本压缩包文件包含了关于垃圾回收与资源管理的源码,对于深入理解这些机制提供了宝贵的参考资料...

    Java对象的清除与垃圾回收.pdf

    执行垃圾回收可以使用System.gc()方法,但注意,这个方法只是建议系统执行垃圾回收,不能强制系统立刻执行垃圾回收。 2. 在虚拟机可用内存耗尽的时候。在虚拟机堆内存耗尽的时候,系统会自动进行垃圾回收,通过消除...

    java垃圾回收机制参考.pdf

    Java垃圾回收机制是Java编程中一个至关重要的概念,它的核心目标是自动管理程序中的内存,以避免程序员手动处理内存释放,从而减少内存泄漏和悬挂引用等问题。Java虚拟机(JVM)规范定义了多种内存区域,包括栈内存...

    浅析JAVA之垃圾回收机制.doc

    在Java编程中,垃圾回收机制(Garbage Collection, GC)是一个核心特性,它自动管理内存,使得开发者无需手动释放内存,从而降低了内存泄漏的风险。Java虚拟机(JVM)负责执行垃圾回收,但其工作原理对于优化程序...

    深入java垃圾回收的详解

    Java垃圾回收机制是Java语言的一项重要特性,它自动管理程序中的内存分配和释放,避免了程序员手动管理内存可能导致的问题。本文将深入解析Java垃圾回收的核心思想、触发条件以及如何减少垃圾回收带来的开销。 1. *...

    Java的垃圾收集器(GC)

    垃圾收集器(Garbage Collector,简称GC)是Java语言的一项重要特性,它自动化管理内存,显著减轻了开发者手动管理内存负担,避免了常见的内存泄漏问题,提高了程序的稳定性和安全性。在Java世界里,GC不仅是面试和...

Global site tag (gtag.js) - Google Analytics