- 浏览: 3071 次
最新评论
文章列表
问题:
UTF-8格式的文件,在xp环境下读入,判断有问题,通过new String(utf8_txt.getBytes(),”UTF-8”)转换存在部分文字丢失的问题,即有一部分字为??。
分析:
utf-8文件如果用字节流读入,用字节流输出,没有任何问题。但是当要处理utf-8文件时,采用字符流就涉及到了编码问题。事实上编码是一件很混乱的事。utf-8的编码更奇葩,因为它占用的byte大小可能是1字节,2字节,3字节。而其他编码也各有各的规则。但有一条规则我觉得是要明确的,转码要防止多次转换。
上面我遇到的问题其实经过了两次编码;首先是字符本身为UTF-8,其次utf8_txt.getByt ...