`
113.com
  • 浏览: 81171 次
  • 来自: 广州
社区版块
存档分类
最新评论

按字节截取含有中文汉字的字符串

    博客分类:
  • java
 
阅读更多

Java中1个char类型的变量可存储任意编码的1个字符,如1个ASC码和或1个中文字符,例如:含有3个ASC和含有3个汉字字符的字符串长度是一样的: 
     "1ac" .length () == 3
     "你好a" .length () = 3
但上述两个字符串所占的byte是不一样的,前者是3,后者是5(1个汉字2byte)。
请编写函数: 
     public static  String leftStr ( String source,  int  maxByteLen )
  从source中取最大maxByteLen个byte的子串。当最后一个byte恰好为一个汉字的前半个字节时,舍弃此byte。例如: 
      String str= "我LRW爱JAVA" ;
      leftStr ( str, 1 ) == "" ;
      leftStr ( str, 2 ) == "我" ;
      leftStr ( str, 4 ) == "我LR" ;
      leftStr ( str, 11 ) == "我LRW" ;
或者,当最后一个byte恰好为一个汉字的前半个字节时,补全汉字(多截取一个byte)。例如: 
      String str= "我LRW爱JAVA" ;
      leftStr ( str, 1 ) == "我" ;
      leftStr ( str, 2 ) == "我" ;
      leftStr ( str, 4 ) == "我LR" ;
      leftStr ( str, 11 ) == "我LRW爱" ;

  一种做法是依次判断每一个字符是否为中文。(参考http://zangweiren.javaeye.com/blog/216005 中的四)

  在此考虑另一种解决办法。因为汉字只涉及到最后一个字节,当最后一个字节是汉字的前半个字节时需要特殊处理,所以就围绕“怎么判断最后一个字节是汉字的前半个字节 ”进行考虑。单独来讲,是无法判定一个字节到底是不是一个汉字的前半个字节,但可以判断出是否是字串中某个汉字的前半个字节。汉字为:“/u4e00-/u9fa5 ”(未考证)

  解决办法就是:将截取的最后一个字节与紧跟在后面的一个字节进行组合(考虑后面已经没字节的情况),判断组合出来的一个字符是否包含在原字符串中:如果包含,则说明是前半个汉字;如果不包含,则说明不是前半个汉字。(应该也无法区分汉字、韩文、日文)。

  以“我LRW爱JAVA”为例。其getBytes()(使用默认的字符集)得到的二进制码为:CED2 4C 52 57 B0AE 4A 41 56 41
  截取前1个字节时,为“CE”,那么就判断“CED2”是否是前半个汉字,用“CED2”构造一个字符出来(亦使用默认字符集),判断构造出来的字符是否包含在原字串中。发现构造出来的字符是“我”,显然包含在原字串中,所以是前半个汉字。
  截取前2个字节时,为“CED2”(就是“我”字),那么就判断“D2”是否是前半个汉字,用“D24C”构造一个字符出来(亦使用默认字符集),发现构造出来的字符是“襆”,显然不包含在原字串中,所以不是前半个汉字。

  判断出来了最后一个字节是否为前半个汉字后就很容易处理了,一种是舍弃最后一个字节,一种是加多一个字节,以便保证汉字的完整。

  所有过程均采用默认字符集,绕过了不同字符集编码不同的影响。

完整源码如下:

    /**
      * Java中1个char类型的变量可存储任意编码的1个字符,如1个ASC码和或1个中文字符,
      * 例如:含有3个ASC和含有3个汉字字符的字符串长度是一样的: "1ac".length()==3;  "你好a".length()=3;
      * 但上述两个字符串所占的byte是不一样的,前者是3,后者是5(1个汉字2byte)。
      * 请编写函数:
      *     public static String leftStr(String source, int maxByteLen)
      * 从source中取最大maxByteLen个byte的子串。
      * 当最后一个byte恰好为一个汉字的前半个字节时,舍弃此byte。例如:
      *     String str="我LRW爱JAVA";
      *     leftStr(str,1,-1)=="";
      *     leftStr(str,2,-1)=="我";
      *     leftStr(str,4,-1)=="我LR";
      *     leftStr(str,11,-1)=="我LRW";
      * 当最后一个byte恰好为一个汉字的前半个字节时,补全汉字(多取一个字节)。例如:
      *     String str="我LRW爱JAVA";
      *     leftStr(str,1,1)=="我";
      *     leftStr(str,2,1)=="我";
      *     leftStr(str,4,1)=="我LR";
      *     leftStr(str,11,1)=="我LRW爱";
      *
      @param  source 原始字符串
      @param  maxByteLen 截取的字节数
      @param  flag 表示处理汉字的方式。1表示遇到半个汉字时补全,-1表示遇到半个汉字时舍弃
      @return 截取后的字符串
      */
     public static  String leftStr ( String source,  int  maxByteLen,  int  flag ){
         if ( source ==  null  || maxByteLen <=  0 ){
             return  "" ;
         }
         byte []  bStr = source.getBytes () ;
         if ( maxByteLen >= bStr.length ) return  source;
         String cStr =  new  String ( bStr, maxByteLen -  1 2 ) ;
         if ( cStr.length ()  ==  && source.contains ( cStr )){
             maxByteLen += flag;
         }
         return new  String ( bStr,  0 , maxByteLen ) ;
     }

分享到:
评论

相关推荐

    关于java按字节截取带有汉字的字符串的解法

    总的来说,处理带有汉字的字符串时,按照字节截取需要考虑字符编码,以避免破坏字符完整性。通过自定义方法并结合Java的字符编码功能,我们可以有效地解决这个问题。在实际开发中,理解字符编码和字节流的概念对于...

    中英文字符串按字节截取

    截取含有中英文的字符串,按字节进行截取,当出现汉字时不能截取半个汉字要把汉字补全。

    java按字节截取带有汉字的字符串的解法(推荐)

    在Java编程语言中,处理包含汉字的字符串时,由于汉字在不同编码格式下占用的字节数不同,按字节截取字符串会面临特殊挑战。本文将深入探讨如何正确地按字节截取带有汉字的字符串,以确保不出现半字符或者乱码的情况...

    java中截取带汉字的字符串

    ### Java中截取带汉字的字符串 在Java编程语言中,处理包含中文字符的字符串时,经常遇到的一个问题是如何正确地截取这些字符串。如果直接按照字节(byte)来进行分割,很容易导致中文字符被截断一半,从而形成乱码。...

    字符串截取(按字节)

    本文将深入探讨一种按字节截取字符串的方法,并通过分析一个具体的Java代码示例来解释其实现原理。 #### 核心概念:Unicode与字节 在讨论字符串按字节截取之前,我们首先需要理解几个基础概念。现代计算机系统中,...

    asp.net c# String类添加按字节截取字符串的扩展方法

    在ASP.NET C#开发环境中,处理字符串是一项常见且重要的任务,尤其是在需要对字符串进行精确控制的情况下,如按字节截取字符串。本文将详细介绍如何为C#中的`String`类添加一个扩展方法,该方法允许我们按照字节而非...

    delphi 实现截取字符串中中文+英文混合截取

    这个函数`SafeSubstring`接收字符串S、起始字节位置StartByte和截取的字节数LenBytes,返回一个从指定字节位置开始,长度为LenBytes字节的新字符串。注意,这个函数假设输入的都是有效的字节位置,没有进行边界检查...

    JavaScript截取中文字符串

    ### JavaScript截取中文字符串知识点详解 #### 一、引言 在进行文本处理时,我们经常需要对字符串进行截取操作。特别是在处理包含多种字符集(如英文与中文)的字符串时,考虑到不同字符编码长度的差异性,简单地...

    JAVA如何按字节截取字符串

    在进行Java编程时,我们经常会遇到需要按字节截取字符串的情况,尤其是在数据传输、网络通信以及对数据进行存储处理的时候。由于计算机内部存储和处理的都是二进制数据,对于非英文字符,在不同的编码(如UTF-8、GBK...

    超实用c#按字节截取长度(原创)

    根据给定文件的信息,本文将深入探讨如何在C#中实现一种高效的按字节截取字符串的方法,尤其针对包含单字节与双字节混合字符的情况。这种方法特别适用于处理中文等双字节字符与英文等单字节字符混合的情况。 ### 一...

    按字节长度截取字符串(支持截取带HTML代码样式的字符串)

    为了按字节截取,我们需要自己实现逻辑。以下是一个示例,展示了如何创建一个函数,该函数能够处理HTML字符串并按照字节长度进行截取: ```csharp public static string SubStringHtml(string input, int ...

    PHP中如何截取中文字符串

    在PHP中处理中文字符串截取是一项常见的...PHP的mbstring扩展提供了强大且安全的方法来处理多字节字符,确保了中文字符串截取的准确性。在编写代码时,要时刻关注字符串的编码类型,以避免出现乱码或截取错误的情况。

    C#字符串截取固定长度的方法

    - **简单截取**:适用于仅包含单字节字符的字符串。 - **考虑多字节编码**:适用于包含多字节字符(如中文)的字符串。 - **利用正则表达式**:适用于需要进行更复杂条件判断的截取需求。 在实际开发过程中,应根据...

    实现一个按字节来截取字符串的方法,功能类似于string类的substring方法,

    实现一个按字节来截取字符串的方法,功能类似于string类的substring方法,String类是按字符截取 的,例如"中国abc".substring(1,3),将返回...要求按字节截取,一个英文字符当一个字节,一个中文字符当两个字节.  

    C++中英混合字符串截取

    这个示例首先将UTF-8字符串转换为宽字符串,然后遍历每个字符,如果遇到非字母字符(可能是汉字),则计算其字节长度,并相应调整截取位置。最后,将截取后的宽字符串再转换回UTF-8。 在实际项目中,可能还需要考虑...

    根据字节数截取字符串

    标题“根据字节数截取字符串”涉及的核心概念是字符串截取,这通常在处理有限的显示空间、传输限制或者存储容量时变得尤为重要。本话题将深入探讨如何在Java语言中根据字节数来截取字符串,并结合给出的`SplitString...

    impala中substr()截取中文字符串乱码的问题

    当使用`substr()`或`substring()`截取中文字符串时,如果截取的起始位置和长度没有正确地对齐到字符边界,就可能导致部分字符的字节被截断,从而引发乱码。这种问题在其他数据库系统中也常见,尤其是那些不支持...

    C#字符串截取

    此方法用于获取指定长度的字符串,并特别考虑了中文字符的情况,因为中文字符通常占用两个字节的空间。 #### 参数说明: - `stringToSub`:需要截取的原始字符串。 - `length`:需要截取的长度(考虑到中文字符占两...

    java编写一个截取字符串的函数,输入为一个字符串和字节数.docx

    Java 字符串截取函数 ...本例中,我们实现了一个 Java 字符串截取函数,该函数可以截取指定字节的字符串,并保证汉字不被截半个。该函数使用 `substring` 方法来实现字符串截取,并且可以应用于各种字符串处理场景。

    按byte截取字符串

    总结来说,“按byte截取字符串”是一项实用的技术,涉及到字符串编码、字节数组操作以及对Java语言特性的深入理解。在实际开发中,掌握这项技能对于处理与字节流相关的任务至关重要,尤其是在处理网络数据传输、文件...

Global site tag (gtag.js) - Google Analytics