`

Google Guava Splitter 对比 Apache StringUtils

阅读更多

google的guava库是个很不错的工具库,这次来学习其spliiter的用法,它是一个专门用来 
分隔字符串的工具类,其中有四种用法,分别来小结 

1 基本用法 

[html] view plain copy
 
  1. import com.google.common.base.Splitter;   
  2.   
  3. public class GuavaSplitterExample {   
  4.   
  5. public static void main(String[] args) {   
  6.   
  7. String str = "a,,b,     c,,,d";   
  8.   
  9. Iterable<String> result = Splitter.on(',')   
  10.        .split(str);   
  11.   
  12. System.out.println("--start--");   
  13. for(String s: result){   
  14. System.out.println(s);   
  15. }   
  16. System.out.println("--end--");   
  17. }   
  18. }   


  输出: 
–start– 



      c 


–end– 


2) 去除空格,使用omitEmptyStrings 

[html] view plain copy
 
  1. String str = "a,,b,     c,,,d";   
  2.   
  3. rable<String> result = Splitter.on(',')   
  4.     .omitEmptyStrings()   
  5.     .split(str);   



输出: 
–start– 


      c 

–end– 

3) 去除每一行的空格 

[html] view plain copy
 
  1. String str = "a,,b,     c,,,d";   
  2.   
  3. erable<String> result = Splitter.on(',')   
  4.      .trimResults()   
  5.      .omitEmptyStrings()   
  6.      .split(str);   


输出: 
–start– 




–end– 

4) 还可以指定使用哪些字符去除 

[html] view plain copy
 
  1. String str = "a,,b,c1,,,d2";   
  2.   
  3. Iterable<String> result = Splitter.on(',')   
  4.        .trimResults(CharMatcher.DIGIT)   
  5.        .omitEmptyStrings()   
  6.        .split(str);   



输出: 
–start– 



–end– 

 

===================================================

性能对比:

 

首先看基本的使用方法: 

Java代码  收藏代码
  1. // Apache StringUtils...  
  2. String[] tokens1= StringUtils.split("one,two,three",',');  
  3.    
  4. // Google Guava splitter...  
  5. Iteratable<String> tokens2 = Splitter.on(','),split("one,two,three");  



很明显,google提供的方法更加的面向对象一点,因为它要先创建一个Splitter对象,然后使用它来分割字符串,而apache的方法则有点函数式编程的味道,它的方法都是静态的。 

这里我更加倾向于采用google的splitter,因为这个对象是可以重用的,且可以在其上附加更多的功能,比如trim,去掉空的元素等,一切都很简单。 

Java代码  收藏代码
  1. Splitter niceCommaSplitter = Splitter.on(',') .omitEmptyString().trimResults();  
  2. niceCommaSplitter.split("one,, two,  three"); //"one","two","three"  
  3. niceCommaSplitter.split("  four  ,  five  "); //"four","five"  




看起来有点用,还有其他区别么? 
另外一个需要注意的地方就是Splitter返回的是Iteratable<String>,而StringUtils.split返回的是一个String数组。 

大部分使用分隔符的情况是我们需要对字符串按照分隔符进行遍历处理,仅此而已。 
下面就是常用的代码性能对比的例子: 

Java代码  收藏代码
  1. final String numberList = "One,Two,Three,Four,Five,Six,Seven,Eight,Nine,Ten";  
  2.   
  3. long start = System.currentTimeMillis();    
  4. for(int i=0; i<1000000; i++) {  
  5.     StringUtils.split(numberList , ',');     
  6. }  
  7. System.out.println(System.currentTimeMillis() - start);  
  8.     
  9. start = System.currentTimeMillis();  
  10. for(int i=0; i<1000000; i++) {  
  11.     Splitter.on(',').split(numberList );  
  12. }  
  13. System.out.println(System.currentTimeMillis() - start);  

代码很简单,就是都对同一个字符串进行100万次的分隔操作,看看时间上的区别,结果如下: 

Java代码  收藏代码
  1. 983  
  2. 165  

很明显,guava的速度快很多,这个程序如果运行在每天处理大量字符串的服务中,那么性能差异更加明显。我想其中的原因是Splitter返回的是Iterable<String>,而StringUtils.split返回的是一个String[],需要创建新的String对象,导致耗时增加。 

如果我们对Splitter对象缓存,那么速度提高更多: 

Java代码  收藏代码
  1. start = System.currentTimeMillis();  
  2.     Splitter s = Splitter.on(',');  
  3.     for (int i = 0; i < 1000000; i++) {  
  4.       s.split(numberList);  
  5.     }  
  6.     System.out.println(System.currentTimeMillis() - start);  

结果为12,神奇吧,呵呵 

别急,结果还没有出来,目前我们还没有对结果进行处理。我们试试对上面的结果进行处理: 

Java代码  收藏代码
  1. final String numberList = "One,Two,Three,Four,Five,Six,Seven,Eight,Nine,Ten";  
  2.     long start = System.currentTimeMillis();  
  3.     for (int i = 0; i < 1000000; i++) {  
  4.       final String[] numbers = StringUtils.split(numberList, ',');  
  5.       for (String number : numbers) {  
  6.         number.length();  
  7.       }  
  8.     }  
  9.     System.out.println(System.currentTimeMillis() - start);  
  10.     start = System.currentTimeMillis();  
  11.     for (int i = 0; i < 1000000; i++) {  
  12.       Iterable<String> is = Splitter.on(',').split(numberList);  
  13.       for(String s:is) {  
  14.         s.length();  
  15.       }  
  16.     }  
  17.     System.out.println(System.currentTimeMillis() - start);  
  18.     start = System.currentTimeMillis();  
  19.     Splitter sp = Splitter.on(',');  
  20.     for (int i = 0; i < 1000000; i++) {  
  21.       Iterable<String> is =  sp.split(numberList);  
  22.       for(String s:is) {  
  23.         s.length();  
  24.       }  
  25.     }  
  26.     System.out.println(System.currentTimeMillis() - start);  



结果再次令人惊奇: 

Java代码  收藏代码
  1. 851  
  2. 2967  
  3. 2514  



guava比apache 的StringUtils慢3倍。 

结论: 
很明显,guava把处理时间较长的操作延迟到后面了,前期处理比较快。无论如何,我还是比较倾向于采用guava处理常见的字符串分隔任务,如果你要处理大量分隔后的字符串,且对性能比较关注,那可以使用StringUtils.split。

分享到:
评论

相关推荐

    Guava使用培训教程

    下面的示例展示了与 Apache Commons `StringUtils` 在性能上的对比: ```java public void testPerformance() { final String numberList = "One,Two,Three,Four,Five,Six,Seven,Eight,Nine,Ten"; long start = ...

    常用工具类

    对于更复杂的解析任务,可以使用正则表达式或者第三方库,如Guava的`Lists`和`Splitter`类。 这些知识点在日常的Java Web开发中非常常见,掌握它们有助于提高开发效率和代码质量。在实际应用中,可以根据具体需求...

    识字电锯

    4. **第三方库**: 如Apache Commons Lang提供了一系列高级的字符串处理函数,如`StringUtils`类,包含了许多实用的方法。Guava库也有强大的字符串处理工具,如`Joiner`和`Splitter`,可以方便地拼接和分割字符串。 ...

    智能家居_物联网_环境监控_多功能应用系统_1741777957.zip

    人脸识别项目实战

    PLC热反应炉仿真程序和报告 ,PLC; 热反应炉; 仿真程序; 报告,PLC热反应炉仿真程序报告

    PLC热反应炉仿真程序和报告 ,PLC; 热反应炉; 仿真程序; 报告,PLC热反应炉仿真程序报告

    C++函数全解析:从基础入门到高级特性的编程指南

    内容概要:本文详细介绍了 C++ 函数的基础概念及其实战技巧。内容涵盖了函数的基本结构(定义、声明、调用)、多种参数传递方式(值传递、引用传递、指针传递),各类函数类型(无参无返、有参无返、无参有返、有参有返),以及高级特性(函数重载、函数模板、递归函数)。此外,通过实际案例展示了函数的应用,如统计数组元素频次和实现冒泡排序算法。最后,总结了C++函数的重要性及未来的拓展方向。 适合人群:有一定编程基础的程序员,特别是想要深入了解C++编程特性的开发人员。 使用场景及目标:① 学习C++中函数的定义与调用,掌握参数传递方式;② 掌握不同类型的C++函数及其应用场景;③ 深入理解函数重载、函数模板和递归函数的高级特性;④ 提升实际编程能力,通过实例强化所学知识。 其他说明:文章以循序渐进的方式讲解C++函数的相关知识点,并提供了实际编码练习帮助理解。阅读过程中应当边思考边实践,动手实验有助于更好地吸收知识点。

    `计算机视觉_Python_PyQt5_Opencv_综合图像处理与识别跟踪系统`.zip

    人脸识别项目实战

    Ultra Ethernet Consortium规范介绍与高性能AI网络优化

    内容概要:本文主要介绍了Ultra Ethernet Consortium(UEC)提出的下一代超高性能计算(HPC)和人工智能(AI)网络解决方案及其关键技术创新。文中指出,现代AI应用如大型语言模型(GPT系列)以及HPC对集群性能提出了更高需求。为了满足这一挑战,未来基于超乙太网络的新规格将采用包喷射传输、灵活数据报排序和改进型流量控制等机制来提高尾部延迟性能和整个通信系统的稳定度。同时UEC也在研究支持高效远程直接内存访问的新一代协议,确保能更好地利用现成以太网硬件设施的同时还增强了安全性。 适合人群:网络架构师、数据中心管理员、高性能运算从业人员及相关科研人员。 使用场景及目标:①为构建高效能的深度学习模型训练平台提供理论指导和技术路线;②帮助企业选择最合适的网络技术和优化现有IT基础设施;③推动整个行业内关于大规模分布式系统网络层面上的设计创新。 阅读建议:本文档重点在于展示UEC如何解决目前RDMA/RoCE所面临的问题并提出了一套全新的设计理念用于未来AI和HPC环境下的通信效率提升。在阅读时需要注意理解作者对于当前网络瓶颈分析背后的原因以及新设计方案所能带来的具体好处

    (参考GUI)MATLAB道路桥梁裂缝检测.zip

    (参考GUI)MATLAB道路桥梁裂缝检测.zip

    pygeos-0.14.0-cp311-cp311-win-amd64.whl

    pygeos-0.14.0-cp311-cp311-win_amd64.whl

    微信小程序_人脸识别_克隆安装_社交娱乐用途_1741777709.zip

    人脸识别项目实战

    基于Matlab的模拟光子晶体光纤中的电磁波传播特性 对模式场的分布和有效折射率的计算 模型使用有限差分时域(FDTD)方法来求解光波在PCF中的传播模式 定义物理参数、光纤材料参数、光波参数、PC

    基于Matlab的模拟光子晶体光纤中的电磁波传播特性 对模式场的分布和有效折射率的计算 模型使用有限差分时域(FDTD)方法来求解光波在PCF中的传播模式 定义物理参数、光纤材料参数、光波参数、PCF参数及几何结构等参数 有限差分时域(FDTD)方法:这是一种数值模拟方法,用于求解麦克斯韦方程,模拟电磁波在不同介质中的传播 特征值问题求解:使用eigs函数求解矩阵的特征值问题,以确定光波的传播模式和有效折射率 模式场分布的可视化:通过绘制模式场的分布图,直观地展示光波在PCF中的传播特性 程序已调通,可直接运行 ,基于Matlab模拟; 光子晶体光纤; 电磁波传播特性; 模式场分布; 有效折射率计算; 有限差分时域(FDTD)方法; 物理参数定义; 几何结构参数; 特征值问题求解; 程序运行。,基于Matlab的PCF电磁波传播模拟与特性分析

    知识图谱与大模型融合实践研究报告:技术路径、挑战及行业应用实例分析

    内容概要:《知识图谱与大模型融合实践研究报告》详细探讨了知识图谱和大模型在企业级落地应用的现状、面临的挑战及融合发展的潜力。首先,介绍了知识图谱与大模型的基本概念和发展历史,并对比分析了两者的优点和缺点,随后重点讨论了两者结合的可行性和带来的具体收益。接下来,报告详细讲解了两者融合的技术路径、关键技术及系统评估方法,并通过多个行业实践案例展示了融合的实际成效。最后提出了对未来的展望及相应的政策建议。 适合人群:对人工智能技术和其应用有兴趣的企业技术人员、研究人员及政策制定者。 使用场景及目标:①帮助企业理解知识图谱与大模型融合的关键技术和实际应用场景;②指导企业在实际应用中解决技术难题,优化系统性能;③推动相关领域技术的进步和发展,为政府决策提供理论依据。 其他说明:报告不仅强调了技术和应用场景的重要性,还关注了安全性和法律法规方面的要求,鼓励各界积极参与到这项新兴技术的研究和开发当中。

    (参考GUI)MATLAB BP神经网络的火焰识别.zip

    神经网络火焰识别,神经网络火焰识别,神经网络火焰识别,神经网络火焰识别,神经网络火焰识别

    人脸识别_实时_ArcFace_多路识别技术_JavaScr_1741771263.zip

    人脸识别项目实战

    telepathy-farstream-0.6.0-5.el7.x64-86.rpm.tar.gz

    1、文件内容:telepathy-farstream-0.6.0-5.el7.rpm以及相关依赖 2、文件形式:tar.gz压缩包 3、安装指令: #Step1、解压 tar -zxvf /mnt/data/output/telepathy-farstream-0.6.0-5.el7.tar.gz #Step2、进入解压后的目录,执行安装 sudo rpm -ivh *.rpm 4、更多资源/技术支持:公众号禅静编程坊

    基于Springboot框架的购物推荐网站的设计与实现(Java项目编程实战+完整源码+毕设文档+sql文件+学习练手好项目).zip

    本东大每日推购物推荐网站管理员和用户两个角色。管理员功能有,个人中心,用户管理,商品类型管理,商品信息管理,商品销售排行榜管理,系统管理,订单管理。 用户功能有,个人中心,查看商品,查看购物资讯,购买商品,查看订单,我的收藏,商品评论。因而具有一定的实用性。 本站是一个B/S模式系统,采用Spring Boot框架作为开发技术,MYSQL数据库设计开发,充分保证系统的稳定性。系统具有界面清晰、操作简单,功能齐全的特点,使得东大每日推购物推荐网站管理工作系统化、规范化。 关键词:东大每日推购物推荐网站;Spring Boot框架;MYSQL数据库 东大每日推购物推荐网站的设计与实现 1 1系统概述 1 1.1 研究背景 1 1.2研究目的 1 1.3系统设计思想 1 2相关技术 3 2.1 MYSQL数据库 3 2.2 B/S结构 3 2.3 Spring Boot框架简介 4 3系统分析 4 3.1可行性分析 4 3.1.1技术可行性 5 3.1.2经济可行性 5 3.1.3操作可行性 5 3.2系统性能分析 5 3.2.1 系统安全性 5 3.2.2 数据完整性 6 3.3系统界面

    使用C语言编程设计实现的平衡二叉树的源代码

    二叉树实现。平衡二叉树(Balanced Binary Tree)是一种特殊的二叉树,其特点是树的高度(depth)保持在一个相对较小的范围内,以确保在进行插入、删除和查找等操作时能够在对数时间内完成。平衡二叉树的主要目的是提高二叉树的操作效率,避免由于不平衡而导致的最坏情况(例如,形成链表的情况)。本资源是使用C语言编程设计实现的平衡二叉树的源代码。

    基于扩张状态观测器eso扰动补偿和权重因子调节的电流预测控制,相比传统方法,增加了参数鲁棒性 降低电流脉动,和误差 基于扩张状态观测器eso补偿的三矢量模型预测控制 ,基于扩张状态观测器; 扰动补

    基于扩张状态观测器eso扰动补偿和权重因子调节的电流预测控制,相比传统方法,增加了参数鲁棒性 降低电流脉动,和误差 基于扩张状态观测器eso补偿的三矢量模型预测控制 ,基于扩张状态观测器; 扰动补偿; 权重因子调节; 电流预测控制; 参数鲁棒性; 电流脉动降低; 误差降低; 三矢量模型预测控制,基于鲁棒性增强和扰动补偿的电流预测控制方法

Global site tag (gtag.js) - Google Analytics