`
uule
  • 浏览: 6358190 次
  • 性别: Icon_minigender_1
  • 来自: 一片神奇的土地
社区版块
存档分类
最新评论

StringTokenizer-大数据情况下截取字符串

 
阅读更多

java.util.StringTokenizer

 

StringTokenizer:字符串分隔解析类型

属于:java.util包。

 

1、构造函数。

 

StringTokenizer(String str) :

       构造一个用来解析str的StringTokenizer对象。java默认的分隔符是“空格”、“制表符(‘\t’)”、“换行符(‘\n’)”、“回车符(‘\r’)”。

StringTokenizer(String str, String delim) :

       构造一个用来解析str的StringTokenizer对象,并提供一个指定的分隔符。

StringTokenizer(String str, String delim, boolean returnDelims) :

       构造一个用来解析str的StringTokenizer对象,并提供一个指定的分隔符,同时,指定是否返回分隔符。

 

 

2、方法。

说明:

1. 所有方法均为public;

2. 书写格式:[修饰符] <返回类型> <方法名([参数列表])>

如:

static int parseInt(String s) 表示:此方法(parseInt)为类方法(static),返回类型为(int),方法所需参数为String类型。

 

1. int countTokens() :返回nextToken方法被调用的次数。如果采用构造函数1和2,返回的就是分隔符数量(例2)。

2. boolean hasMoreTokens() :返回是否还有分隔符。

3. boolean hasMoreElements() :结果同2。

4. String nextToken() :返回从当前位置到下一个分隔符的字符串。

5. Object nextElement() :结果同4。

6. String nextToken(String delim) :与4类似,以指定的分隔符返回结果。

 

一、使用实例:

import java.util.StringTokenizer;

public class StringTokenizerExample {

	public static void main(String[] args) {
		// TODO Auto-generated method stub
		defaultStruct();
		
		System.out.println();
		
		/*
		 * 二三不同在于是否返回分隔符
		 * StringTokenizer st = new StringTokenizer(s,"=",true);
         * StringTokenizer st = new StringTokenizer(s,"=");
		 * */
		defaultStructTwo();
		
		System.out.println();
		defaultStructThree();	
		
	}

	public static void defaultStruct(){
		 String s = new String("The Java platform is the ideal platform for network computing");

         StringTokenizer st = new StringTokenizer(s);
         System.out.println( "Token Total: " + st.countTokens() );
         
         while(st.hasMoreElements()){
        	 System.out.println(st.nextToken());
         }
	}
	
	
	//不返回分隔符
	public static void defaultStructTwo(){
		String s = new String("The=Java=platform=is=the=ideal=platform=for=network=computing");

        //StringTokenizer st = new StringTokenizer(s,"=",true);
        StringTokenizer st = new StringTokenizer(s,"=");
        System.out.println( "Token Total: " + st.countTokens() );

        while( st.hasMoreElements() ){
             System.out.println( st.nextToken() );
        }
	}
	
	//返回分隔符
	public static void defaultStructThree(){
		String s = new String("The=Java=platform=is=the=ideal=platform=for=network=computing");

        StringTokenizer st = new StringTokenizer(s,"=",true);        
        System.out.println( "Token Total: " + st.countTokens() );

        while( st.hasMoreElements() ){
             System.out.println( st.nextToken() );
        }
	}

}

 结果:

Token Total: 10
The
Java
platform
is
the
ideal
platform
for
network
computing

Token Total: 10
The
Java
platform
is
the
ideal
platform
for
network
computing

Token Total: 19
The
=
Java
=
platform
=
is
=
the
=
ideal
=
platform
=
for
=
network
=
computing

 

二、性能测试:

来源:http://blog.csdn.net/songylwq/article/details/9016609

import java.util.Random;
import java.util.StringTokenizer;

/**
 * String测试类
 * 
 * @author xiaori.Liu
 *
 */
public class StringTest {

	public static void main(String args[]) {
		String orginStr = getOriginStr(100);
		System.out.println(orginStr);
		
		////////////// String.splic()表现//////////////////////////////////////////////
		System.out.println("使用String.splic()的切分字符串");
		long st1 = System.nanoTime();
		String[] result = orginStr.split("\\.");
		System.out.println("String.splic()截取字符串用时:" + (System.nanoTime() - st1));
		System.out.println("String.splic()截取字符串结果个数:" + result.length);
		System.out.println();

		////////////// StringTokenizer表现//////////////////////////////////////////////
		System.out.println("使用StringTokenizer的切分字符串");
		long st3 = System.nanoTime();
		StringTokenizer token = new StringTokenizer(orginStr, ".");
		System.out.println("StringTokenizer截取字符串用时:" + (System.nanoTime() - st3));
		System.out.println("StringTokenizer截取字符串结果个数:" + token.countTokens());
		System.out.println();

		//////////////////// String.substring()表现//////////////////////////////////////////

		long st5 = System.nanoTime();
		int len = orginStr.lastIndexOf(".");
		System.out.println("使用String.substring()切分字符串");
		int k = 0, count = 0;

		for (int i = 0; i <= len; i++) {
			if (orginStr.substring(i, i + 1).equals(".")) {
				if (count == 0) {
					orginStr.substring(0, i);
				} else {
					orginStr.substring(k + 1, i);
					if (i == len) {
						orginStr.substring(len + 1, orginStr.length());
					}
				}
				k = i;
				count++;
			}
		}
		System.out.println("String.substring()截取字符串用时" + (System.nanoTime() - st5));
		System.out.println("String.substring()截取字符串结果个数:" + (count + 1));
	}

	/**
	 * 构造目标字符串 eg:10.123.12.154.154
	 * 
	 * @param len
	 *            目标字符串组数(每组由3个随机数组成)
	 * @return
	 */
	private static String getOriginStr(int len) {

		StringBuffer sb = new StringBuffer();
		StringBuffer result = new StringBuffer();
		Random random = new Random();
		for (int i = 0; i < len; i++) {
			sb.append(random.nextInt(9)).append(random.nextInt(9)).append(random.nextInt(9));
			result.append(sb.toString());
			sb.delete(0, sb.length());
			if (i != len - 1)
				result.append(".");
		}

		return result.toString();
	}
}

 结果:

347.250.685.477.054.632.034.341.582.131.205.087.160.754.152.534.228.028.146.687.563.067.613.427.410.070.727.633.150.621.688.503.782.634.337.034.802.115.777.531.563.133.023.078.827.053.000.086.877.541.118.133.252.242.031.760.508.534.663.481.175.317.652.162.610.144.517.172.413.642.135.623.822.234.685.200.081.842.621.351.836.252.615.755.480.825.535.363.483.103.667.387.214.432.140.001.500.252.437.213

使用String.splic()的切分字符串
String.splic()截取字符串用时:25555768
String.splic()截取字符串结果个数:100

使用StringTokenizer的切分字符串
StringTokenizer截取字符串用时:45759
StringTokenizer截取字符串结果个数:100

使用String.substring()切分字符串
String.substring()截取字符串用时362875
String.substring()截取字符串结果个数:100

 
 

StringTokenizer则是表现最优秀的,基本上平稳,始终保持在5000ns一下。

结论

最终,StringTokenizer在截取字符串中效率最高,不论数据量大小,几乎持平。substring则要次之,数据量增加耗时也要随之增加。split则是表现最差劲的。

 

 

究其原因,split的实现方式是采用正则表达式实现,所以其性能会比较低。至于正则表达式为何低,还未去验证。split源码如下:

public String[] split(String regex, int limit) {
    return Pattern.compile(regex).split(this, limit);
} 

 

..

 

 

 

 

 

  • 大小: 5.4 KB
分享到:
评论

相关推荐

    java文档String和StringTokenizer---马克-to-win java视频

    java文档String和StringTokenizer 马克-to-win java视频 字符串解析器

    java编写一个截取字符串的函数,输入为一个字符串和字节数.docx

    Java 中有多种方式可以实现字符串截取,包括使用 `substring`、`split` 和 `StringTokenizer` 等方法。在本例中,我们使用 `substring` 方法来实现字符串截取。 substring 方法 `substring` 方法用于从字符串中...

    StringTokenizer1---马克-to-win java视频

    StringTokenizer 马克-to-win java视频 字符串解析器

    StringTokenizer2---马克-to-win java视频

    StringTokenizer 马克-to-win java视频 字符串解析器

    Arduino-StringTokenizer-Library:一个非常简单的arduino库,可以使用Java(如string-tokenizer函数)使用定界符分割字符串

    Arduino-StringTokenizer-库一个非常简单的arduino库,可以使用Java(如string-tokenizer函数)来使用定界符分割字符串。 基本说明: 参数:用于标记化的字符串; 分隔符字符串职能 : (boolean)hasNext()-如果...

    Java 实例 - 字符串分隔(StringTokenizer)源代码-详细教程.zip

    总的来说,`StringTokenizer`是Java中处理字符串分割的一个重要工具,尤其适用于需要逐个处理字符串中的每个部分的情况。虽然现代的Java开发更倾向于使用`split()`方法,但了解并熟练掌握`StringTokenizer`仍然对...

    java课件-6-字符串和数组.pptx

    在上面的代码中,我们使用StringTokenizer类将一个字符串分割成多个子字符串,然后使用while循环来遍历这些子字符串。 Java中的字符串和数组是两种非常重要的数据类型,String类和StringBuffer类提供了许多有用的...

    计算机软件-商业源码-17 如何对字符串按照一定的规则进行分割.zip

    在计算机编程中,字符串处理是一项基础且重要的任务。在日常开发中,我们经常需要将一个长字符串按照特定的规则拆分成多个子串,这被称为字符串的分割操作。本压缩包文件"计算机软件-商业源码-17 如何对字符串按照...

    字符串截取

    本文将详细探讨几种常用的字符串截取技术,包括使用`split()`方法、`StringTokenizer`类以及结合`indexOf()`与`substring()`方法的实现方式。 #### 使用`split()`方法进行字符串分割 `split()`方法是Java中最简单...

    Java 字符串操作源码实例集.rar

    这个方法用于截取字符串的一部分,例如`str.substring(startIndex, endIndex)`,返回从开始索引到结束索引前的子字符串。 5. **indexOf() 和 lastIndexOf()**: 这两个方法分别用于查找指定字符或子字符串在原...

    字符串分析,分别输出字符串中个单词,并统计出单词个数

    需要注意的是,如果字符串中的单词之间不仅使用了逗号分隔,还使用了其他符号如空格、句点等,则需要更新分隔符以适应不同的情况。 ##### 2.2 计算Token数量 `StringTokenizer`类提供了一个`countTokens()`方法,...

    JavaPD-Ch07mao字符串及其应用1

    8. **`StringTokenizer`类**:用于将字符串按照指定分隔符拆分成多个字符串,方便进行字符串的解析。 9. **`Scanner`类**:`java.util.Scanner`类提供了从各种输入源(如键盘、文件、流)读取基本类型和字符串的...

    c#模拟实现java StringTokenizer

    Java 的 `StringTokenizer` 类是一个用于分隔字符串的工具,它可以根据特定的分隔符将一个大的字符串拆分成多个小的字符串或令牌。 在 C# 中,我们通常使用 `string.Split()` 方法来达到类似的效果。`Split()` 方法...

    java字符串分隔类

    ### Java字符串分隔类——StringTokenizer的使用方法详解 在Java编程中,处理字符串是非常常见的需求之一,特别是在数据解析、格式化输出等场景下。`StringTokenizer`类作为Java标准库的一部分,为开发者提供了一种...

    字符串处理例子一些相关的java代码

    在 Java 编程中,字符串处理是至关重要的一个部分,因为字符...`StringTokenizer` 类则用于将字符串分解为令牌,方便进行分词操作。从 JDK 1.4 开始,Java 添加了对正则表达式的全面支持,使字符串处理更加灵活和强大。

    第06章 字符串处理.ppt

    此外,还有`substring(int beginIndex, int endIndex)`用于截取字符串的一部分,`replace(char oldChar, char newChar)`用于替换所有出现的特定字符,以及`toLowerCase()`和`toUpperCase()`用于将字符串转换为小写或...

    StringTokenizer的使用

    str是要处理的字符串; delim是分隔符; returnDelims 是否把分隔符也作为结果返回 (public StringTokenizer(String str, String delim) returnDelims默认false; StringTokenizer(String str)默认分隔符...

    java数组与字符串用法小结

    `StringTokenizer` 是Java中用于解析字符串的一个实用类,它可以按照指定的分隔符将字符串分割成多个部分。下面是一个简单的示例: ```java import java.util.StringTokenizer; public class Test { public ...

    使用空格符分隔字符串解决方案

    在许多情况下,我们可能需要将一个包含多个部分的字符串拆分成单独的元素,以便于处理或分析。此时,利用分隔符来分割字符串就显得尤为重要。标题提到的“使用空格符分隔字符串解决方案”就是专门针对这种情况的一个...

    Java教程:字符串·时间日期·数字

    字符串 字符串的常用方法 字符串与基本数据的相互转化 对象的字符串表示 StringTokenizer类 符串与字符、字节数组 StringBuffer类 正则表达式

Global site tag (gtag.js) - Google Analytics