- 浏览: 5551 次
- 性别:
- 来自: 广州
最新评论
文章列表
中文在不同编码中占用的字节数是不同的,GBK编码中,一个汉字占两个字节,UTF-8编码格式中,一个汉字占3个字节。关于汉字所占字节,知乎有此问答,http://www.zhihu.com/question/20451870。如果我们按照字节数来截取带中文的字符串,就有可能截取了半个或者三分之一个汉字,导致乱码的出现。
package com.java.string.split;
import java.util.ArrayList;
import java.util.List;
public class ChineseSplit {
public stati ...