区分一个包含汉字的字符串是UTF-8还是GBK -

chenpeilei2003

浏览: 195359 次
性别:
来自: 北京

最近访客更多访客>>

mft8899

暴走小骚年

zhaoyin

seven.zhou

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

区分一个包含汉字的字符串是UTF-8还是GBK

博客分类：

杂七杂八

Blog

如果想区分一个完整的字符串是 GBK 还是 UTF8 其实蛮简单的。虽然做不到 100% 有效，但也比上面的方法强许多。

UTF8 是兼容 ascii 的，所以 0~127 就和 ascii 完全一致了。

gbk 的第一字节是高位为 1 的，第 2 字节可能高位为 0 。这种情况一定是 gbk ，因为 UTF8 对 >127 的编码一定每个字节高位为 1 。

另外，对于中文，UTF8 一定编码成 3 字节。（似乎亚洲文字都是，UTF8 中双字节好象只用于西方字符集）

所以型如 110***** 10****** 的，我们一概看成 gbk/gb2312 编码。这就解决了“位”的问题。

汉字以及汉字标点（包括日文汉字等），在 UTF8 中一定被编码成：1110**** 10****** 10******

连续汉字数量不是 3 的倍数的 gb2312 编码的汉字字符串一定不会被误认为 UTF8 。用了一些gbk 扩展字，或是插入了一些 ascii 符号的字符串也几乎不会被认为是 UTF8 。

一般说来，只要汉字稍微多几个，gbk 串被误认为 UTF8 的可能性极其低。（只需要默认不使用 UTF8 中双字节表示的字符）可能性低，这里还有另外一个原因。UTF8 中汉字编码的第一个字节是 1110**** ，这处于汉字的 gb2312 中二级汉字（不常用汉字，区码从 11011000 开始）的编码空间。一般是一些生僻字才会碰上。

可用如下代码确认是不是汉字

int isChinese(unsigned char bhead, unsigned char btail)
{
int r=0;
int iHead = bhead & 0xff;
int iTail = btail & 0xff;

if ((iHead>=0x81 && iHead<=0xfe &&
(iTail>=0x40 && iTail<=0x7e || iTail>=0x80 && iTail<=0xfe)) ||
(iHead>=0xa1 && iHead<=0xf7 && iTail>=0xa1 && iTail<=0xfe) ||
(iHead>=0xa1 && iHead<=0xf9 &&
(iTail>=0x40 && iTail<=0x7e || iTail>=0xa1 && iTail<=0xfe)))
{
return 1;
}
return 0;
}

[摘自云风的blog]

分享到：

很不错的访谈，可以了解大师是如何思考、工 ... | 桃花庵歌

2010-08-03 16:28
浏览 1323
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

区分一个包含汉字的字符串是UTF-8还是GBK

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

区分一个包含汉字的字符串是UTF-8还是GBK

评论

发表评论

相关推荐

常用命令行

goAgent设置备忘

QNX > RIM

智能的电子垃圾

为何效率低下，注意力不能集中呢

批量获取文件名

很不错的访谈，可以了解大师是如何思考、工作的

桃花庵歌

从google搜索页想到的

区分一个包含汉字的字符串是 UTF-8 还是 GBK

名词索引

我所理解的程序员最基本素质

最近访客更多访客>>