Web应用程序在浏览器中显示字符串时,由于显示长度的限制,常常需要将字符串截
取后再进行显示。
但目前很多流行的语言,如C#、Java内部采用的都是 Unicode
16(UCS2)编码,在这种编码中所有的字符都是两个字符,因此,如果要截取的字符串是中、英文、数字混合的,就会产生问题,如下面的字符串:
<!-- <br />
<br />
Code highlighting produced by Actipro CodeHighlighter (freeware)<br />
http://www.CodeHighlighter.com/<br />
<br />
-->
String s
=
"
a
加b等于c,如果a等1、b等于2,那么c等3
"
;
上面的字符串既有汉字,又有英文字符和数字。如果要截取前6个字节的字符,应该是”a加b等",但如果用substring方法截取前6个字符就成
了"a
加b等于c"。
产生这个问题的原因是将substring方法将双字节的汉字当成一个字节的字符(UCS2字符)处理了。要解决这个问题的方法是首先得到该字符串的
UCS2编码的字节数组,如下面的代码如下:
<!-- <br />
<br />
Code highlighting produced by Actipro CodeHighlighter (freeware)<br />
http://www.CodeHighlighter.com/<br />
<br />
-->
byte
[] bytes
=
s.getBytes(
"
Unicode
"
);
由于上面生成的字节数组中前两个字节是标志位,bytes[0] = -2,bytes[1] =
-1,因此,要从第三个字节开始扫描,对于一个英文或数字字符,UCS2编码的第二个字节是相应的ASCII,第一个字节是0,如a的UCS2编码是0
97,而汉字两个字节都不为0,因此,可以利于UCS2编码的这个规则来计算实际的字节数,该方法的实现代码如下:
<!-- <br />
<br />
Code highlighting produced by Actipro CodeHighlighter (freeware)<br />
http://www.CodeHighlighter.com/<br />
<br />
-->
public
static
String bSubstring(String s,
int
length)
throws
Exception
{
byte
[] bytes
=
s.getBytes(
"
Unicode
"
);
int
n
=
0
;
//
表示当前的字节数
int
i
=
2
;
//
要截取的字节数
,从第3个字节开始
for
(; i
<
bytes.length
&&
n
<
length; i
++
)
{
//
奇数位置,如3、5、7等,为UCS2编码中两个字节的第二个字节
if
(i
%
2
==
1
)
{
n
++
;
//
在UCS2第二个字节时n加1
}
else
{
//
当UCS2编码的第一个字节不等于0时,该UCS2字符为汉字,一个汉字算两个字节
if
(bytes[i]
!=
0
)
{
n
++
;
}
}
}
//
如果i为奇数时,处理成偶数
if
(i
%
2
==
1
)
{
//
该UCS2字符是汉字时,去掉这个截一半的汉字
if
(bytes[i -
1]
!=
0
)
i
=
i
-
1
;
//
该UCS2字符是字母或数字,则保留该字符
else
i
=
i
+
1
;
}
return
new
String(bytes,
0
, i,
"
Unicode
"
);
}
下面代码使用了bSubstring方法:
<!-- <br />
<br />
Code highlighting produced by Actipro CodeHighlighter (freeware)<br />
http://www.CodeHighlighter.com/<br />
<br />
-->
String s
=
"
a
加b等于c,如果a等1、b等于2,那么c等3
"
;
System.out.println(bSubstring(s,
6
));
上面的代码截取的字符串是"
a加b等"
。
分享到:
相关推荐
"JAVA按照字节截取字符串" ...本文详细介绍了Java按照字节截取字符串的技术,包括使用StringBuffer类和charAt()方法的实现。这种技术在实际应用中具有重要的应用价值,对大家的学习和工作具有重要的参考价值。
这就意味着当我们按照字节长度截取字符串时,可能会将一个完整的汉字分割成两部分,从而导致乱码。 Java中的`String`类提供了多种截取字符串的方法,如`substring()`、`subSequence()`等,但它们都是基于字符(char...
在 `main` 方法中,我们创建了一个 `SplitString` 对象,并调用其 `SplitIt` 方法来截取字符串。 总结 本例中,我们实现了一个 Java 字符串截取函数,该函数可以截取指定字节的字符串,并保证汉字不被截半个。该...
本话题将深入探讨如何在Java语言中根据字节数来截取字符串,并结合给出的`SplitString.java`文件,我们可以推测这是一个具体的实现示例。 首先,字符串截取的基本需求是获取字符串的一部分,通常基于特定的起始和...
本篇文章将详细探讨“按byte截取字符串”这一技术点,并通过两个Java文件——SliceByByteTest.java和SliceByByte.java的实例来阐述其实现方法。 首先,我们需要理解字符串在计算机内存中的存储方式。在Java中,字符...
了解这些方法后,我们就可以灵活地根据需求截取字符串中的特定字节数部分了。但要注意,字节截取可能会涉及到字符编码问题,因此在实际操作时要特别留意编码格式,避免出现乱码或者截取不完整的情况。
在Java编程语言中,处理包含汉字的字符串时,由于汉字在不同编码格式下占用的字节数不同,按字节截取字符串会面临特殊挑战。本文将深入探讨如何正确地按字节截取带有汉字的字符串,以确保不出现半字符或者乱码的情况...
如果字符串长度不能被每次截取的字节数整除,则最后一次截取的长度会少于指定的字节数。 3. **实现截取逻辑**:遍历字符串,按照计算出的次数进行截取,并打印或存储每次截取的结果。 #### 示例代码解析 ```java ...
这个问题在文档标题“Java精确截取字符串.doc”中提到,描述也指出了解决字符串过长并需要添加省略号的需求。 以下是一种常见的解决方法,通过判断字符串中的每个字节来确定是否为中文字符,并据此进行截取: ```...
本文将详细解析提供的Java代码,了解如何实现按字节截取字符串,确保不出现半个汉字。 首先,给出的代码定义了一个名为`StringTool`的工具类,其中包含一个静态方法`getSubString`,该方法接受一个字符串`str`和一...
总的来说,Java中精确截取字符串涉及到字符编码、字节长度计算等多个方面。对于不同的场景,需要选择合适的方法,确保截取后的字符串既能满足长度要求,又能正确显示其中的文本内容。在实际开发中,可以根据项目需求...
为了实现这一需求,Java提供了String类的getBytes()方法,用于将字符串转换成字节数组,同样也提供了substring()方法用于截取字符串。但在本例中,使用substring()方法无法直接达到目标,因为这种方法无法直接对字节...
本例通过Java代码实现了一个截取字符串的函数,该函数能够根据指定的字节数截取字符串,并保证在截取过程中不会将中文字符截断,也就是说,如果一个中文字符的字节长度超过了一个字节,那么在截取时会保持该字符的...
在Java编程语言中,处理字符串是一项常见的任务,尤其是在进行...上述代码提供了一个具体的示例,展示了如何在GBK编码下安全地截取字符串,但开发者也应熟悉其他常见编码(如UTF-8),以便在不同的应用场景中灵活应对。
一种常用的方法是使用getBytes方法将字符串转换为byte数组,然后根据字节的长度来截取字符串。这种方法可以保证汉字不被截半个,但是需要指定编码方式,否则可能会出现错误。 在上面的代码中,定义了一个substring...
这意味着如果我们直接按字节来截取字符串,可能会截取到某个汉字的中间部分,从而导致乱码。 #### 2. 截取算法设计 为了实现上述功能,我们需要设计一种算法,使得无论我们指定截取多少字节,都不会截取到半个汉字...
* 截取字符串,len为字节长度 * @param str 需要截取的字符串 * @param len 字节长度 * @return 截取后的字符串 * @throws UnsupportedEncodingException 当指定的编码不存在时抛出异常 */ public static ...
Java 中常用的字符串截取方法 在 Java 编程语言中,字符串截取是非常重要的操作之一。字符串截取可以用于获取字符串中的部分内容,或者将字符串分割成多个部分。本文将详细介绍 Java 中常用的字符串截取方法,包括 ...
在这个实现中,函数`splitString`将根据字节数截取字符串并打印结果。在测试案例中,`srcStr1`和`srcStr2`分别被正确地截取,确保了汉字的完整性。 总结来说,这个Java函数解决了字符串截取时可能遇到的汉字截半...
微信公众平台消息发送...本demo为java实现,提供一种算法在限制字节内合适的位置拆分出尽可能多的长度的子文本串。 调用MessageStrUtils.getSubStrIndexByByte(String text, int maxbytelen)即可得到合适位置的索引。