`
dowhathowtodo
  • 浏览: 805714 次
文章分类
社区版块
存档分类
最新评论

用Java实现按字节长度截取字符串的方法

 
阅读更多
Web应用程序在浏览器中显示字符串时,由于显示长度的限制,常常需要将字符串截取后再进行显示。但目前很多流行的语言,如C#、Java内部采用的都是 Unicode 16(UCS2)编码,在这种编码中所有的字符都是两个字符,因此,如果要截取的字符串是中、英文、数字混合的,就会产生问题,如下面的字符串:

Strings="a加b等于c,如果a等1、b等于2,那么c等3";


上面的字符串既有汉字,又有英文字符和数字。如果要截取前6个字节的字符,应该是”a加b等",但如果用substring方法截取前6个字符就成了"a 加b等于c"。产生这个问题的原因是将substring方法将双字节的汉字当成一个字节的字符(UCS2字符)处理了。 要解决这个问题的方法是首先得到该字符串的UCS2编码的字节数组。

由于上面生成的字节数组中前两个字节是标志位,bytes[0] = -2,bytes[1] = -1,因此,要从第三个字节开始扫描,对于一个英文或数字字符,UCS2编码的第二个字节是相应的ASCII,第一个字节是0,如a的UCS2编码是0 97,而汉字两个字节都不为0,因此,可以利于UCS2编码的这个规则来计算实际的字节数,该方法的实现代码如下:

    public static String bSubstring(String s, int length) throws Exception
    {

        byte[] bytes = s.getBytes("Unicode");
        int n = 0; // 表示当前的字节数
        int i = 2; // 要截取的字节数,从第3个字节开始
        for (; i < bytes.length && n < length; i++)
        {
            // 奇数位置,如3、5、7等,为UCS2编码中两个字节的第二个字节
            if (i % 2 == 1)
            {
                n++; // 在UCS2第二个字节时n加1
            }
            else
            {
                // 当UCS2编码的第一个字节不等于0时,该UCS2字符为汉字,一个汉字算两个字节
                if (bytes[i] != 0)
                {
                    n++;
                }
            }
        }
        // 如果i为奇数时,处理成偶数
        if (i % 2 == 1)

        {
            // 该UCS2字符是汉字时,去掉这个截一半的汉字
            if (bytes[i - 1] != 0)
                i = i - 1;
            // 该UCS2字符是字母或数字,则保留该字符
            else
                i = i + 1;
        }

        return new String(bytes, 0, i, "Unicode");
    }

下面代码使用了bSubstring方法:

String s = "a加b等于c,如果a等1、b等于2,那么c等3";
System.out.println(bSubstring(s, 6));

上面的代码截取的字符串是"a加b等"。

分享到:
评论

相关推荐

    关于java按字节截取带有汉字的字符串的解法

    这就意味着当我们按照字节长度截取字符串时,可能会将一个完整的汉字分割成两部分,从而导致乱码。 Java中的`String`类提供了多种截取字符串的方法,如`substring()`、`subSequence()`等,但它们都是基于字符(char...

    JAVA如何按字节截取字符串

    "JAVA按照字节截取字符串" ...本文详细介绍了Java按照字节截取字符串的技术,包括使用StringBuffer类和charAt()方法的实现。这种技术在实际应用中具有重要的应用价值,对大家的学习和工作具有重要的参考价值。

    java编写一个截取字符串的函数,输入为一个字符串和字节数.docx

    在循环中,我们使用 `substring` 方法来截取字符串,并将结果输出。 main 方法 在 `main` 方法中,我们创建了一个 `SplitString` 对象,并调用其 `SplitIt` 方法来截取字符串。 总结 本例中,我们实现了一个 ...

    按byte截取字符串

    本篇文章将详细探讨“按byte截取字符串”这一技术点,并通过两个Java文件——SliceByByteTest.java和SliceByByte.java的实例来阐述其实现方法。 首先,我们需要理解字符串在计算机内存中的存储方式。在Java中,字符...

    根据字节数截取字符串

    本话题将深入探讨如何在Java语言中根据字节数来截取字符串,并结合给出的`SplitString.java`文件,我们可以推测这是一个具体的实现示例。 首先,字符串截取的基本需求是获取字符串的一部分,通常基于特定的起始和...

    字符串按照指定的字节数来截取

    了解这些方法后,我们就可以灵活地根据需求截取字符串中的特定字节数部分了。但要注意,字节截取可能会涉及到字符编码问题,因此在实际操作时要特别留意编码格式,避免出现乱码或者截取不完整的情况。

    java按字节截取带有汉字的字符串的解法(推荐)

    在Java编程语言中,处理包含汉字的字符串时,由于汉字在不同编码格式下占用的字节数不同,按字节截取字符串会面临特殊挑战。本文将深入探讨如何正确地按字节截取带有汉字的字符串,以确保不出现半字符或者乱码的情况...

    java中截取带汉字的字符串

    如果字符串长度不能被每次截取的字节数整除,则最后一次截取的长度会少于指定的字节数。 3. **实现截取逻辑**:遍历字符串,按照计算出的次数进行截取,并打印或存储每次截取的结果。 #### 示例代码解析 ```java ...

    Java精确截取字符串.doc

    这个`SplitString`类的`splitIt`方法会根据给定的字节数截取字符串,确保不会截断汉字。当输入的字节数大于1时,检查最后一个字节是否为汉字的第二个字节;如果输入的字节数为1,需要检查是否为汉字的首个字节。这样...

    Java 按照字节来截取字符串的代码(不会出现半个汉字)

    本文将详细解析提供的Java代码,了解如何实现按字节截取字符串,确保不出现半个汉字。 首先,给出的代码定义了一个名为`StringTool`的工具类,其中包含一个静态方法`getSubString`,该方法接受一个字符串`str`和一...

    截取如下字符串“java程序教程”的前5个字节,字符串应该为“java程”,截取前6个字符,字符串也应该为“java程”,程序实现之.

    为了实现这一需求,Java提供了String类的getBytes()方法,用于将字符串转换成字节数组,同样也提供了substring()方法用于截取字符串。但在本例中,使用substring()方法无法直接达到目标,因为这种方法无法直接对字节...

    Java精确截取字符串.pdf

    总的来说,Java中精确截取字符串涉及到字符编码、字节长度计算等多个方面。对于不同的场景,需要选择合适的方法,确保截取后的字符串既能满足长度要求,又能正确显示其中的文本内容。在实际开发中,可以根据项目需求...

    java 实现截取字符串并按字节分别输出实例代码

    本例通过Java代码实现了一个截取字符串的函数,该函数能够根据指定的字节数截取字符串,并保证在截取过程中不会将中文字符截断,也就是说,如果一个中文字符的字节长度超过了一个字节,那么在截取时会保持该字符的...

    Java截取中英文混合字符串的方法

    一种常用的方法是使用getBytes方法将字符串转换为byte数组,然后根据字节的长度来截取字符串。这种方法可以保证汉字不被截半个,但是需要指定编码方式,否则可能会出现错误。 在上面的代码中,定义了一个substring...

    java中常用的字符串的截取方法

    Java 中常用的字符串截取方法 在 Java 编程语言中,字符串截取是非常重要的操作之一。字符串截取可以用于获取字符串中的部分内容,或者将字符串分割成多个部分。本文将详细介绍 Java 中常用的字符串截取方法,包括 ...

    java中英文字符串截取

    给出的代码片段展示了一种在GBK编码下截取字符串的方法: ```java public static String substring(String text, int length) { if (text == null) { return null; } StringBuilder sb = new StringBuilder(); ...

    字符串 截取

    这意味着如果我们直接按字节来截取字符串,可能会截取到某个汉字的中间部分,从而导致乱码。 #### 2. 截取算法设计 为了实现上述功能,我们需要设计一种算法,使得无论我们指定截取多少字节,都不会截取到半个汉字...

    java 截取字符串(判断汉字)

    本文将详细介绍一个用于在Java中根据字节数而非字符数截取字符串的方法——`getLimitLengthString`。该方法能够确保在截断中文字符串时不会出现乱码,并且可以适用于JSP页面中的中文字符串截取需求。 #### 方法实现...

    impala中substr()截取中文字符串乱码的问题

    当使用`substr()`或`substring()`截取中文字符串时,如果截取的起始位置和长度没有正确地对齐到字符边界,就可能导致部分字符的字节被截断,从而引发乱码。这种问题在其他数据库系统中也常见,尤其是那些不支持...

    一种支持微信文本限制长度限制使用的,在合适的位置截取限制字节长度的字符串子串的java算法

    微信公众平台消息发送...本demo为java实现,提供一种算法在限制字节内合适的位置拆分出尽可能多的长度的子文本串。 调用MessageStrUtils.getSubStrIndexByByte(String text, int maxbytelen)即可得到合适位置的索引。

Global site tag (gtag.js) - Google Analytics