`
llfzy
  • 浏览: 15956 次
  • 性别: Icon_minigender_1
  • 来自: 重庆
文章分类
社区版块
存档分类
最新评论

Java按字节长度截取字符串

阅读更多

编写一个截取字符串的函数,输入为一个字符串和字节数,输出为按字节截取的字符串。但是要保证汉字不被截半个,如"我ABC"4,应该截为"我AB",输 入"我ABC汉DEF",6,应该输出为"我ABC"而不是"我ABC+汉的半个"。

   public static String substring(String str, int toCount,String more)

   {

  int reInt = 0;

  String reStr = "";

   if (str == null)

  return "";

   char[] tempChar = str.toCharArray();

   for (int kk = 0; (kk < tempChar.length && toCount > reInt); kk++) {

   String s1 = str.valueOf(tempChar[kk]);

   byte[] b = s1.getBytes();

  reInt += b.length;

   reStr += tempChar[kk];

  }

   if (toCount == reInt || (toCount == reInt - 1))

  reStr += more;

   return reStr;

  }

  Web应用程序在浏览器中显示字符串时,由于 显示长度的限制,常常需要将字符串截取后再进行显示。但目前很多流行 的语言,如C#、Java内部采用的都 是 Unicode 16(UCS2)编码,在这种编码中所有的字符都是两个字符,因此,如果要截取的字符串是中、英文、数字混合的,就会产生问题,如下 面的字符串:

  String s = "a加b等于c,如果a等1、b等于2,那么c等3";

  上面的字符串既有汉 字,又有英文字符和数字。如果要截取前6个字节的字符,应该是”a加b等",但如果用substring方法截取前6个字符就成了"a 加b等于c"。产 生这个问题的原因是将substring方法将双字节的汉字当成一个字节的字符(UCS2字符)处理了。要解决这个问题的方法是首先得到该字符串的 UCS2编码的字节数组,如下面的代码如下:

  byte[] bytes = s.getBytes("Unicode");

   由于上面生成的字节数组中前两个字节是标志位,bytes[0] = -2,bytes[1] = -1,因此,要从第三个字节开始扫描,对于一个英文 或数字字符,UCS2编码的第二个字节是相应的ASCII,第一个字节是0,如a的UCS2编码是0  97,而汉字两个字节都不为0,因此,可以 利于UCS2编码的这个规则来计算实际的字节数,该方法的实现代码 如下:

   public static String bSubstring(String s, int length) throws Exception

   {

  byte[] bytes = s.getBytes("Unicode");

   int n = 0; // 表示当前的字节数

  int i = 2; // 要截取的字节数,从第3个字节开始

   for (; i < bytes.length && n < length; i++)

  {

   // 奇数位置,如3、5、7等,为UCS2编码中两个字节的第二个字节

  if (i % 2 == 1)

  {

   n++; // 在UCS2第二个字节时n加1

  }

  else

  {

   // 当UCS2编码的第一个字节不等于0时,该UCS2字符为汉字,一个汉字算两个字节

  if (bytes[i] != 0)

   {

  n++;

  }

  }

  }

  // 如果i为奇数时,处理 成偶数

  if (i % 2 == 1)

  {

  // 该UCS2字符是汉字时,去掉这个截一半的 汉字

  if (bytes[i - 1] != 0)

  i = i - 1;

  // 该UCS2 字符是字母或数字,则保留该字符

  else

  i = i + 1;

  }

   return new String(bytes, 0, i, "Unicode");

  }

  下面代码使用了 bSubstring方法:

  String s = "a加b等于c,如果a等1、b等于2,那么c等3";

   System.out.println(bSubstring(s, 6));

  上面的代码截取的字符串是"a加b等"。

分享到:
评论

相关推荐

    JAVA如何按字节截取字符串

    "JAVA按照字节截取字符串" JAVA按照字节截取字符串是Java编程语言中的一项重要技术,通过本文,我们将详细介绍如何使用Java语言按照字节截取字符串。 首先,我们需要了解什么是字节截取。在计算机科学中,字节是...

    关于java按字节截取带有汉字的字符串的解法

    这就意味着当我们按照字节长度截取字符串时,可能会将一个完整的汉字分割成两部分,从而导致乱码。 Java中的`String`类提供了多种截取字符串的方法,如`substring()`、`subSequence()`等,但它们都是基于字符(char...

    java编写一个截取字符串的函数,输入为一个字符串和字节数.docx

    在 `main` 方法中,我们创建了一个 `SplitString` 对象,并调用其 `SplitIt` 方法来截取字符串。 总结 本例中,我们实现了一个 Java 字符串截取函数,该函数可以截取指定字节的字符串,并保证汉字不被截半个。该...

    按byte截取字符串

    本篇文章将详细探讨“按byte截取字符串”这一技术点,并通过两个Java文件——SliceByByteTest.java和SliceByByte.java的实例来阐述其实现方法。 首先,我们需要理解字符串在计算机内存中的存储方式。在Java中,字符...

    根据字节数截取字符串

    本话题将深入探讨如何在Java语言中根据字节数来截取字符串,并结合给出的`SplitString.java`文件,我们可以推测这是一个具体的实现示例。 首先,字符串截取的基本需求是获取字符串的一部分,通常基于特定的起始和...

    Java 按照字节来截取字符串的代码(不会出现半个汉字)

    在Java编程中,有时我们需要按照字节长度来截取字符串,尤其在处理中文字符时,因为一个中文字符在UTF-8编码下占用两个字节,而一个英文字符仅占用一个字节。这样的需求通常出现在前端展示限制或者传输数据时,避免...

    字符串按照指定的字节数来截取

    了解这些方法后,我们就可以灵活地根据需求截取字符串中的特定字节数部分了。但要注意,字节截取可能会涉及到字符编码问题,因此在实际操作时要特别留意编码格式,避免出现乱码或者截取不完整的情况。

    java按字节截取带有汉字的字符串的解法(推荐)

    在Java编程语言中,处理包含汉字的字符串时,由于汉字在不同编码格式下占用的字节数不同,按字节截取字符串会面临特殊挑战。本文将深入探讨如何正确地按字节截取带有汉字的字符串,以确保不出现半字符或者乱码的情况...

    Java精确截取字符串.doc

    这个问题在文档标题“Java精确截取字符串.doc”中提到,描述也指出了解决字符串过长并需要添加省略号的需求。 以下是一种常见的解决方法,通过判断字符串中的每个字节来确定是否为中文字符,并据此进行截取: ```...

    java中截取带汉字的字符串

    如果字符串长度不能被每次截取的字节数整除,则最后一次截取的长度会少于指定的字节数。 3. **实现截取逻辑**:遍历字符串,按照计算出的次数进行截取,并打印或存储每次截取的结果。 #### 示例代码解析 ```java ...

    Java精确截取字符串.pdf

    总的来说,Java中精确截取字符串涉及到字符编码、字节长度计算等多个方面。对于不同的场景,需要选择合适的方法,确保截取后的字符串既能满足长度要求,又能正确显示其中的文本内容。在实际开发中,可以根据项目需求...

    截取如下字符串“java程序教程”的前5个字节,字符串应该为“java程”,截取前6个字符,字符串也应该为“java程”,程序实现之.

    为了实现这一需求,Java提供了String类的getBytes()方法,用于将字符串转换成字节数组,同样也提供了substring()方法用于截取字符串。但在本例中,使用substring()方法无法直接达到目标,因为这种方法无法直接对字节...

    Java截取中英文混合字符串的方法

    一种常用的方法是使用getBytes方法将字符串转换为byte数组,然后根据字节的长度来截取字符串。这种方法可以保证汉字不被截半个,但是需要指定编码方式,否则可能会出现错误。 在上面的代码中,定义了一个substring...

    java 实现截取字符串并按字节分别输出实例代码

    本例通过Java代码实现了一个截取字符串的函数,该函数能够根据指定的字节数截取字符串,并保证在截取过程中不会将中文字符截断,也就是说,如果一个中文字符的字节长度超过了一个字节,那么在截取时会保持该字符的...

    java中英文字符串截取

    在Java编程语言中,处理字符串是一项常见的任务,尤其是在进行...上述代码提供了一个具体的示例,展示了如何在GBK编码下安全地截取字符串,但开发者也应熟悉其他常见编码(如UTF-8),以便在不同的应用场景中灵活应对。

    java中常用的字符串的截取方法

    Java 中常用的字符串截取方法 在 Java 编程语言中,字符串截取是非常重要的操作之一。字符串截取可以用于获取字符串中的部分内容,或者将字符串分割成多个部分。本文将详细介绍 Java 中常用的字符串截取方法,包括 ...

    java 一个截取字符串的函数

    本题中,我们需要编写一个函数,该函数能够根据指定的字节数截取字符串,并确保不会出现汉字被截半的情况。这是一个涉及字符编码和边界条件处理的问题。 首先,我们来理解题目中的要求: 1. 函数接收两个参数,一个...

    字符串 截取

    这意味着如果我们直接按字节来截取字符串,可能会截取到某个汉字的中间部分,从而导致乱码。 #### 2. 截取算法设计 为了实现上述功能,我们需要设计一种算法,使得无论我们指定截取多少字节,都不会截取到半个汉字...

    java 截取字符串(判断汉字)

    * 截取字符串,len为字节长度 * @param str 需要截取的字符串 * @param len 字节长度 * @return 截取后的字符串 * @throws UnsupportedEncodingException 当指定的编码不存在时抛出异常 */ public static ...

    impala中substr()截取中文字符串乱码的问题

    当使用`substr()`或`substring()`截取中文字符串时,如果截取的起始位置和长度没有正确地对齐到字符边界,就可能导致部分字符的字节被截断,从而引发乱码。这种问题在其他数据库系统中也常见,尤其是那些不支持...

Global site tag (gtag.js) - Google Analytics