这几天在做一个读取UTF8文件的功能,其中包括中英文。
在UTF8中,不同的字符集下的字符宽度是不等的,比如 英文和符号都用1个Byte来表示,中文就需要用2-3个byte来表示,因此在从一个UTF8字符串中获取一个字符的时候就需要先判断该字符应该占几个字节。
根据UTF8 编码, 首字节的编码包含了整个字符占用几个字节的 信息,参见下表(右边一栏为UTF8编码)
U-00000000 - U-0000007F:
0xxxxxxx
...
- 2007-04-24 14:47
- 浏览 1662
- 评论(0)