`

Java性能优化[2]:字符串过滤实战

    博客分类:
  • java
阅读更多

 

上一个帖子已经介绍了基本类型和引用类型的性能差异(主要是由于内存分配方式不同导致)。为了给列位看官加深印象,今天拿一个具体的例子来实地操作一把,看看优化的效果如何。

 

  ★关于需求

 

  首先描述一下需求,具体如下:给定一个String对象,过滤掉除数字(字符'0'-'9')以外的其它字符。要求时间开销尽可能小。过滤函数的原型如下:String filter(String str);

 

  针对上述需求,我写了5个不同的过滤函数。为了叙述方便,分别称为filter1到filter5。其中filter1性能最差、filter5性能最好。在你接着看后续的内容之前,你先暗自思考一下,如果由你来实现该函数,大概会写成什么样?最好把你想好的函数写下来,便于后面的对比。

 

  ★代码实现

 

  ◇测试代码

 

  为了方便测试性能,先准备好一个测试代码,具体如下:

 

 

 

class Test
{
 public static void main(String[] args)
 {
  if(args.length != 1)
  {
   return;
  }

  String str = "";
  long nBegin = System.currentTimeMillis();
  for(int i=0; i<1024*1024; i++)
  {
   str = filterN(args[0]); //此处调用某个具体的过滤函数
  }
  long nEnd = System.currentTimeMillis();
  System.out.println(nEnd-nBegin);
  System.out.println(str);
 }
};

 在没有想好你的实现方式之前,先别偷看后续内容哦!另外,先注明下,我使用的Java环境是JDK 1.5.0-09,使用的测试字

 

 

符串为“D186783E36B721651E8AF96AB1C4000B”。由于机器性能不尽相同,你在自己机器上测试的结果可能和我下面给出的

 

数值不太一样,但趋势应该是差不多的。

 

 

◇版本1

 

  先来揭晓性能最差的filter1,代码如下:

 

 

private static String filter1(String strOld)
 {
  String strNew = new String();
  for(int i=0; i<strOld.length(); i++)
  {
   if('0'<=strOld.charAt(i) && strOld.charAt(i)<='9')
   {
    strNew += strOld.charAt(i);
   }
  }
  return strNew;
 }
 

 

 

如果你的代码不幸和filter1雷同,那你的Java功底可就是相当糟糕了,连字符串拼接需要用StringBuffer来优化都没搞明白。

 

  为了和后续对比,先记下filter1的处理时间,大约在8.81-8.90秒之间。

 

  ◇版本2

 

  再来看看filter2,代码如下:

 

 

private static String filter2(String strOld)
 {
  StringBuffer strNew = new StringBuffer();
  for(int i=0; i<strOld.length(); i++)
  {
   if('0'<=strOld.charAt(i) && strOld.charAt(i)<='9')
   {
    strNew.append(strOld.charAt(i));
   }
  }
  return strNew.toString();
 }
 

 

 

其实刚才在评价filter1的时候,已经泄露了filter2的天机。filter2通过使用StringBuffer来优化连接字符串的性能。为什么StringBuffer连接字符串的性能比String好,这个已经是老生常谈,我就不细说了。尚不清楚的同学自己上Google一查便知。我估计应该有挺多同学会写出类似filter2的代码。

 

  filter2的处理时间大约为2.14-2.18秒,提升了大约4倍。

 

 

 

◇版本3

 

  接着看看filter3,代码如下:

 

 

 

private static String filter3(String strOld)
 {
  StringBuffer strNew = new StringBuffer();
  int nLen = strOld.length();
  for(int i=0; i<nLen; i++)
  {
   char ch = strOld.charAt(i);
   if('0'<=ch && ch<='9')
   {
    strNew.append(ch);
   }
  }
  return strNew.toString();
 }
 

 

 

乍一看filter3和filter2差不多嘛!你再仔细瞧一瞧,原来先把strOld.charAt(i)赋值给char变量,节省了重复调用 charAt()方法的开销;另外把strOld.length()先保存为nLen,也节省了重复调用length()的开销。能想到这一步的同学,估计是比较细心的。

 

  经过此一优化,处理时间节省为1.48-1.52,提升了约30%。由于charAt()和length()的内部实现都挺简单的,所以提升的性能不太明显。

 

  ◇版本4

 

  然后看看filter4,代码如下:

 

 

 

private static String filter4(String strOld)
 {
  int nLen = strOld.length();
  StringBuffer strNew = new StringBuffer(nLen);
  for(int i=0; i<nLen; i++)
  {
   char ch = strOld.charAt(i);
   if('0'<=ch && ch<='9')
   {
    strNew.append(ch);
   }
  }
  return strNew.toString();
 }
 

 

filter4和filter3差别也很小,唯一差别就在于调用了StringBuffer带参数的构造函数。通过StringBuffer的构造函数设置初始的容量大小,可以有效避免append()追加字符时重新分配内存,从而提高性能。

 

filter4的处理时间大约在1.33-1.39秒。约提高10%,可惜提升的幅度有点小 :-(

 

  ◇版本5

 

  最后来看看终极版本,性能最好的filter5。

 

private static String filter5(String strOld)
 {
  int nLen = strOld.length();
  char[] chArray = new char[nLen];
  int nPos = 0;
  for(int i=0; i<nLen; i++)
  {
   char ch = strOld.charAt(i);
   if('0'<=ch && ch<='9')
   {
    chArray[nPos] = ch;
    nPos++;
   }
  }
  return new String(chArray, 0, nPos);
 }
 

猛一看,你可能会想:filter5和前几个版本的差别也忒大了吧!filter5既没有用String也没有用StringBuffer,而是拿字符数组进行中间处理。

 

  filter5的处理时间,只用了0.72-0.78秒,相对于filter4提升了将近50%。为啥捏?是不是因为直接操作字符数组,节省了append(char)的调用?通过查看append(char)的源代码,内部的实现很简单,应该不至于提升这么多。

 

  那是什么原因捏?

 

  虽然filter5有一个字符数组的创建开销,但是相对于filter4来说,StringBuffer的构造函数内部也会有字符数组的创建开销。两相抵消。所以filter5比filter4还多节省了StringBuffer对象本省的创建开销。所以节约了性能。

 

  ★对于5个版本的总结

 

  上述5个版本,filter1和filter5的性能相差12倍。除了filter3相对于filter2是通过消除函数重复调用来提升性能,其它的几个版本都是通过节省内存分配,降低了时间开销。可见内存分配对于性能的影响有多大啊!如果你是看了上一个帖子才写出filter4或者filter5,那说明你已经领会了个中奥妙,我那个帖子也就没白写了。

 

  ★一点补充说明,关于时间和空间的平衡

 

  另外,需要补充说明一下。版本4和版本5使用了空间换时间的手法来提升性能。假如被过滤的字符串很大,并且数字字符的比例很低,这种方式就不太合算了。

 

  举个例子:被处理的字符串中,绝大部分都只含有不到10%的数字字符,只有少数字符串包含较多的数字字符。这时候该怎么办捏?对于filter4来说,可以把new StringBuffer(nLen);修改为new StringBuffer(nLen/10);来节约空间开销。但是filter5就没法这么玩了。

 

  所以,具体该用版本4还是版本5,要看具体情况了。只有在你非常看重时间开销,且数字字符比例很高(至少大于50%)的情况下,用filter5才合算。否则的话,建议用filter4。

 

  本文原始地址:

 

  http://program-think.blogspot.com/2009/03/java-performance-tuning-2-string.html

 

 


分享到:
评论

相关推荐

    Remove-item-from-list:一个简单的Java程序,用于从字符串列表中删除选定的字符串

    这个程序提供了一个简单的解决方案,帮助开发者从字符串列表中删除指定的元素。下面我们将深入探讨这个话题,包括Java中的列表操作、删除元素的方法以及如何实现这个程序。 1. **Java列表(List)接口**: Java...

    java 开发实战经典 习题答案 java

    Java开发实战经典习题涉及了Java编程的基础概念和常见算法,涵盖了循环结构、条件判断、数组操作、字符串处理以及面向对象编程等多个知识点。下面逐一解析这些习题。 1. **水仙花数**:水仙花数是三位数,其每位...

    java FASTJSON 解析复杂JSON实例源码

    2. **将Java对象转换为JSON字符串** - `JSON.toJSONString(Object obj)`:将Java对象转换为JSON格式的字符串。 - `JSONArray.toJSONString()` 和 `JSONObject.toJSONString()`:分别用于将JSONArray和JSONObject...

    java+web项目实战大全源码搜索引擎Java源码

    1. **Java基础**:包括类、对象、封装、继承、多态等面向对象编程概念,以及异常处理、数据类型、控制结构、数组、字符串等基础知识。 2. **Java集合框架**:如ArrayList、LinkedList、HashMap、HashSet等,这些是...

    Java_Web开发实战经典 李新华 课后习题答案

    《Java_Web开发实战经典》是由李新华老师编著的一本深入浅出的Java Web...对于使用不同数据库的情况,只需按照数据库的API进行适当的调整,如连接字符串、SQL语法等,即可适应不同的环境。祝你在学习过程中收获满满!

    java echars入门实战代码

    在本项目"java echarts入门实战代码"中,我们将探讨如何使用Java后端与ECharts前端库协同工作,实现动态数据显示。ECharts是一款基于JavaScript的数据可视化库,它提供了丰富的图表类型,如柱状图、折线图、饼图等,...

    Lucene4.X实战类baidu搜索的大型文档海量搜索系统-19.Lucene过滤 共4页.pptx

    同样,对于字符串类型的字段,我们可以使用`newStringRange`方法创建相应的范围过滤器: ```java FieldCacheRangeFilter&lt;String&gt; stringFilter = FieldCacheRangeFilter.newStringRange( "field", lowerVal, ...

    java8实战:使用流收集数据之toList、joining、groupBy(多字段分组)

    接着,`joining`方法用于将流中的字符串连接成一个单一的字符串。它接受可选的分隔符、前缀和后缀参数,允许我们自定义连接方式。例如,如果我们有一个包含多个城市名的流,我们可以这样做: ```java String cities...

    Java开发实战1200例(第1卷).(清华出版.李钟尉.陈丹丹).part3

    书名:《Java开发实战1200例(第I卷)》(清华大学出版社.李钟尉,陈丹丹) PDF格式扫描版,全书分为24章,共817页。2011年1月出版。 全书压缩打包成4部分,这是第3部分 注:本系列图书的第I、II卷再版时均相应改名为...

    使用Java正则表达式分析处理日志

    例如,时间戳可能是一个符合特定格式的字符串,如`"\\d{4}-\\d{2}-\\d{2} \\d{2}:\\d{2}:\\d{2}"`。 3. **统计和分析**:通过正则表达式,我们可以计算特定错误发生的次数,或者找出特定模式的日志。例如,如果日志...

    基于Java和Python的爬虫项目实战源码.zip

    基于Java和Python的爬虫项目实战源码.zip 自己动手写网络爬虫》,并基于Python3和Java实现 为什么采用宽度优先搜索策略? 深度优先遍历可能会在深度上过“深”而陷入“黑洞”; 重要的网页往往距离种子网页比较近,...

    EasyCommons JAVA 通用开发组件项目组

    2. **StringUtils**: 对字符串进行各种处理,如格式化、拼接、分割、校验等,避免了对Java内置String类的频繁调用,提高了代码可读性。 3. **DateUtils**: 处理日期和时间,提供格式化、比较、计算等功能,简化日期...

    JAVA中防止SQL注入攻击类的源代码

    - **字符串过滤**:`stringFilter`方法用于过滤字符串中的特殊字符,通过遍历`FilterChars`数组进行替换。 - **JavaScript字符过滤**:`stringFilterScriptChar`方法专门用于过滤JavaScript中的特殊字符,确保字符串...

    Java_Web开发实战1200例第1卷.part3

    第2章 Java语言基础 20 2.1 基本语法 21 2.2 运算符 25 2.3 条件语句 29 2.4 循环控制 34 2.5 常用排序 42 2.6 算法应用 48 第3章 HTML/CSS技术 53 3.1 页面效果 54 3.2 表格样式 64 3.3 鼠标样式 72 3.4 文字及列表...

    java基础班和就业班视频

    - **数据类型**:熟悉Java中的基本数据类型如int、double、char等以及复合数据类型如数组、字符串。 - **流程控制**:掌握条件语句(if-else)、循环语句(for、while)的使用方法。 #### 2. 面向对象编程(OOP) - *...

Global site tag (gtag.js) - Google Analytics