抓取中应该考虑GB编码的问题 -

wangwei3

浏览: 123405 次
性别:
来自: 北京

最近访客更多访客>>

jeffkuang

蔚蓝之天空

whut0503

lincolnlee1982

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

抓取中应该考虑GB编码的问题

博客分类：

网络/网页

今天，测试的同学在测试我的爬虫的时候发现了一些‘?’的字符，也就是无法识别编码的字符。开始我很诧异，毕竟我用了自动编码识别的很成熟的架构，为虾米会有这种字符？仔细分析了一下页面，页面的编码是'gbk'而用我的程序识别出来是'gb2312'因为分析只采集了前面100个字符作为样本，所以识别出来的是'gb2312'。因为'gb2312'是属于'gbk'，只包括一些常见汉字，如果万一有一个偏的汉字出现那就只能沦为现实为'?'号的下场了~

所以想要做好抓取必须大致的了解编码：

GB2312
GB 2312或GB 2312-80是一个简体中文字符集的中国国家标准，全称为《信息交换用汉字编码字符集·基本集》，又称为GB0，由中国国家标准总局发布，1981年5月1日实施。GB2312编码通行于中国大陆；新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB 2312。　　GB 2312标准共收录6763个汉字，其中一级汉字3755个，二级汉字3008个；同时，GB 2312收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。　　GB 2312的出现，基本满足了汉字的计算机处理需要，它所收录的汉字已经覆盖中国大陆99.75%的使用频率。　　对于人名、古汉语等方面出现的罕用字，GB 2312不能处理，这导致了后来GBK及GB 18030汉字字符集的出现。

GBK
基本简介
GB码，全称是GB2312-80《信息交换用汉字编码字符集基本集》，1980年发布，是中文信息处理的国家标准，在大陆及海外使用简体中文的地区（如新加坡等）是强制使用的唯一中文编码。P-Windows3.2和苹果OS就是以GB2312为基本汉字编码， Windows 95/98则以GBK为基本汉字编码、但兼容支持GB2312。GB码共收录6763个简体汉字、682个符号，其中汉字部分：一级字3755，以拼音排序，二级字3008，以偏旁排序。该标准的制定和应用为规范、推动中文信息化进程起了很大作用。　　GBK编码是中国大陆制订的、等同于UCS的新的中文编码扩展国家标准。GBK工作小组于1995年10月，同年12月完成GBK规范。该编码标准兼容GB2312，共收录汉字21003个、符号883个，并提供1894个造字码位，简、繁体字融于一库。　　有些汉字用五笔和拼音都打不出来，如：溙（五笔IDWI），须调出GBK字符集才能打出这个字。极品五笔中可右击输入法图标，设置，属性中选GBK字符集。极点五笔中可点击工具条中相关图标进行转换。
计算公式
　　GBK码对字库中偏移量的计算公式为：　　[(GBKH-0xB0)*0x5E+(GBKL-0xA1)]*(汉字离散后每个汉字点阵所占用的字节)

gb18030
国家标准GB18030-2000《信息交换用汉字编码字符集基本集的扩充》是我国继GB2312-1980和GB13000-1993之后最重要的汉字编码标准，是我国计算机系统必须遵循的基础性标准之一。目前，GB18030有两个版本：GB18030-2000和GB18030-2005。GB18030-2000是GBK的取代版本，它的主要特点是在GBK基础上增加了CJK统一汉字扩充A的汉字。GB18030-2005的主要特点是在GB18030-2000基础上增加了CJK统一汉字扩充B的汉字。

依照上面的信息，我们大致了解了GB字符发展的轮廓，个人建议识别为GB的编码统一用
gb18030 去解码~就不会出现我上面遇到的问题了~
OK，结案~

本文章为原创文章，转载请注明出处~

0
顶

2
踩

分享到：

linux(ubuntu) 之间互挂磁盘以及 linux挂 ... | KFS 正式部署的时候遇到的问题

2011-06-30 13:52
浏览 1191
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

抓取中应该考虑GB编码的问题

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

抓取中应该考虑GB编码的问题

评论

发表评论

相关推荐

不可见字符正则匹配

RPC

htmlparser抽取表格

HTTP header

如何读取gzip压缩网页

爬虫 js,flash,ajax网页（JREX）

HTTP的Header信息详解

ASCII码

模板抽取思路

最近访客更多访客>>