读取unicode编码文件的乱码解决

J2EE大鸟

浏览: 529730 次
性别:
来自: 宁波

最近访客更多访客>>

j10y

jin361612388

gundammew

yjxandsp

博主相关

博客

微博

相册

留言

关于我

博客专栏

: 浙大软院考研
浏览量：20407

文章分类

社区版块

存档分类

博客分类：

javaweb应用问题解决

首先，有必要了解下记事本文件的几种编码方式：

四种常见文本文件编码方式研究

ANSI、UNICODE 、UNICODE big endian、UTF-8四种格式编码存在差别，简要介绍如下:

ANSI编码:

无文件头(文件编码开头标志性字节)

ANSI编码字母数字占一个字节，汉字占两个字节，

回车换行符单字节十六进制表示为0d 0a

UNICODE编码:

文件头，十六进制表示为FF FE

每一个字符都用两个字节编码

回车换行符双字节 000d 000a

Unicode big endian编码:

文件头十六进制表示为FE FF ，

后面编码是把字符的高位放在前面，低位放在后面，正好和Unicode编码颠倒。

回车换行符,双字节,十六进制表示为0d00 0a00

UTF-8 编码:

文件头，十六进制表示为EF BB BF。

UTF-8是Unicode的一种变长字符编码，数字、字母、回车、换行都用一个字节表示,汉字占3个字节.

回车换行符，单字节，十六进制表示为0d 0a

以中文"你好"二字为例，各种类型的编码对应的十六进制格式(可由EditPlus查看)如下图所示:

一个汉字在Unicode中用两个字节表示，a-z等字母也是两个字节。

UTF-8是Unicode的一种表现形式(Unicode编码值使用UTF-8方式编码存储)，是一种变长的表达方式，把字符的Unicode编码在文件中表现出来，从一个字节到三个字节不等(为了减少如a-z等ascii码字符占用的空间，因为他们出现太频繁了).

UTF-8编码范围为:

0000 - 007F : 0xxxxxxx

0080 - 07FF : 110xxxxx 10xxxxxx

0800 - FFFF : 1110xxxx 10xxxxxx 10xxxxxx

如"汉"的Unicode编码为6C49，在0800 - FFFF之间，所以要使用3字节模板: 1110xxxx 10xxxxxx 10xxxxxx

6C49的二进制是: 0110 110001 001001

用这个二进制流依次代替3字节模板中的x得: 1110 0110 10110001 10001001，即E6 B1 89

保存到文件中的就是3个字节E6 B1 89，而不是2个字节6C 49

// 给InputStreamReader指定要读取的文件的编码，读取时就不会出现乱码了.
public class TextFileReader {
    public static void main(String[] args) throws Exception {
        String filename = "source/demo.txt";
        String encoding = "Unicodelittle";
        printFile(filename, encoding);
    }

    // 打印出文件的文本内容, 使用指定的编码读入文件
    public static void printFile(String filename, String encoding) throws IOException {
        InputStreamReader isr = new InputStreamReader(new FileInputStream(filename), encoding);
        BufferedReader reader = new BufferedReader(isr);
        String line = null;
        while ((line = reader.readLine()) != null) {
            System.out.println(line);
        }
    }
}

文本编码方式是unicode，在读取文件流时需要指定encoding为unicodelittle。

文本编码方式是unicode big endian，在读取文件时指定encoding为unicode。

在写文件时，当encoding指定为unicode时，生成的文本文件的编码格式为unicode big endian，故需指定为unicodelittle。

若为ANSI 编码，在文件流操作时，不需要指定编码方式，使用默认即可。

参考文献：

http://www.cppblog.com/biao/archive/2012/10/19/137637.html

http://blog.csdn.net/soleghost/article/details/959832

http://bbs.csdn.net/topics/330045908

http://www.chengxuyuans.com/code/C++/63390.html

查看图片附件

分享到：

面试题（用栈代替队列的操作和原生map实现 ... | JAVA的节点流和处理流

2014-01-03 21:25
浏览 2225
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论