`
iunknown
  • 浏览: 410097 次
社区版块
存档分类
最新评论

[zz]GB2312/GBK/GB18030/BIG5 的历史

    博客分类:
  • MISC
阅读更多
http://iask.sina.com.cn/b/7837434.html?from=related

GBK中的“K”是扩展的意思,而GB2312中的“2312”以及GB18030中的“18030”是国家标准的代号,BIG5是港澳台地区的编码。
下面详细介绍一下字库情况,你就可看出其区别:
(一)GB2312-80字库
从1975年开始,我国为了研究汉字的使用频度,进行了大规模的字频统计工作,内容包括工业、农业、军事、科技、政治、经济、文学、艺术、教育、体育、医药卫生、天文地理、自然、化学、文字改革、考古等多方面的出版物,在数以亿计的浩翰文献资料中,统计出实际使用的不同的汉字数为6335个,而其中有 3000多个汉字的累计使用频度达到了99.9%,而另外的3000多个累计频度不到0.1%,说明了常用汉字与次常用汉字的数量不足7000个,这就为国家制定汉字库标准提供了依据。1980年颁布了《信息交换用汉字编码字符集--基本集》的国标交换码,国家标准号为:GB2312-80,选入了 6763个汉字,分为两级,一级字库中有3755个,是常用汉字,二级字库中有3008个,是次常用汉字;还选入了682个字符,包含有数字、一般符号、拉丁字母、日本假名、希腊字母、俄文字母、拼音符号、注音字母等。
(二)大字符集字库(又叫GBK字库)
国际标准化组织为了将世界各民族的文字进行统一编码,制定了UCS标准。根据这一标准,中、日、韩三国共同制定了《CJK统一汉字编码字符集》,其国际标准号为:ISO/IEC10646,国家标准号为:GB13000-90,该汉字编码字符集就是通常人们所说的大字符集,它编入了20902个汉字,收集了大陆一二级字库中的简体字,台湾《通用汉字标准交换码》中的繁体字,58个香港特别用字和92个延边地区朝鲜族“吏读”字,甚至涵盖了日文与韩文中的通用汉字,满足了方方面面的需要。Windows95/98/NT/2000中都装入了大字符集汉字库,人们一般称它为GBK字库。有了GBK字库,还要有对应的汉字输入法,才能输入其中的全部汉字,如果某种汉字输入法仅编入了一二级字库,仍然只能输入6763个汉字。
(三)台湾 BIG5 字库
港澳台地区普遍使用台湾的《通用汉字标准交换码》,地区标准号为:CNS11643,选入了13 000多个繁体汉字,这就是人们讲的BIG5码,或叫大五码。 钱码的“海外繁体版”编入了BIG5字库,能输入13 000多个繁体汉字。
四)新标准汉字库 (GB18030-2000)
2000年3月,国家信息产业部和质量技术监督局在北京联合发布了两项新标准,一项叫做《信息技术和信息交换用汉字编码字符集、基本集的扩充》,国家标准号为:GB18030-2000,收录了27533个汉字,还收录了藏、蒙、维等主要少数民族的文字,以期一举解决邮政、户政、金融、地理信息系统等生僻汉字与主要少数民族语言的输入,该标准于2000年12月31日强制执行;另一项是《信息技术和数字键盘汉字输入通用要求》,国家标准号是: GB/T18031-2000,为数字键盘输入提供了统一的标准。 新标准汉字库已经公布,迫切需要与之相应的输入方法。
(五)方正超大字符集
方正超大字符集字体包括了上面提到的全部汉字以及在第二平面中(42,711)选出的36,862个在中国大陆,香港特别行政区(以及部分台湾地区)使用的汉字。因此包括西文等常用字符在内,宋体-方正超大字符集共包括65,531个字符。这是目前包含字数最全的字库。要安装该字库需在安装WinXP时采用自定义安装,选择安装宋体-方正超大字符集,但是一般的输入法是无法打出这么多的字的,但可以用“插入”—“符号”的方法选择插入。

分享到:
评论
12 楼 iunknown 2008-03-20  
vim 显示 utf8 文件

set termencoding=cp936
set enc=utf-8
11 楼 iunknown 2008-03-20  
http://www.joelonsoftware.com/articles/Unicode.html

There are hundreds of traditional encodings which can only store some code points correctly and change all the other code points into question marks.

UTF 7, 8, 16, and 32 all have the nice property of being able to store any code point correctly.

The traditional store-it-in-two-byte methods are called UCS-2 (because it has two bytes) or UTF-16 (because it has 16 bits), and you still have to figure out if it's high-endian UCS-2 or low-endian UCS-2.

There are actually a bunch of other ways of encoding Unicode. There's something called UTF-7, which is a lot like UTF-8 but guarantees that the high bit will always be zero, so that if you have to pass Unicode through some kind of draconian police-state email system that thinks 7 bits are quite enough, thank you it can still squeeze through unscathed. There's UCS-4, which stores each code point in 4 bytes, which has the nice property that every single code point can be stored in the same number of bytes, but, golly, even the Texans wouldn't be so bold as to waste that much memory.

10 楼 iunknown 2008-03-13  
http://www.cl.cam.ac.uk/~mgk25/ucs/utf-8-history.txt

UTF-8 was designed, in front of my eyes, on a placemat in a New Jersey diner one night in September or so 1992.
9 楼 iunknown 2008-03-12  
http://www.cl.cam.ac.uk/~mgk25/unicode.html

If you use the term “UCS”, “ISO 10646”, or “Unicode”, this just refers to a mapping between characters and integers. This does not yet specify how to store these integers as a sequence of bytes in memory.

8 楼 iunknown 2008-03-11  
http://www.linuxforum.net/doc/i18n-new.html

"中文化"是一个很模糊的概念.在Linux上的"中文化"它既包含使 软件或系统国际化,又包含使软件本地化.也就是说, "中文化"不仅仅 是只把软件本地化这么简单的事情, 更重要的是因为Linux直接支持中文的软件太少, 做"中文化"必须先做"国际化".

但是, Unicode作为一种编码也有它的缺陷, 比如编码的位置与排序无关,所以使软件支持Unicode仅仅是国际化的第一步, 实际情况中还需要与语言相关的信息和规则.所以Unicode一般作为程序的内部处理编码, 必须提供与其它 编码的双向转换表.

在实际应用中, 字符串往往是中文和英文的混和字符串, 所以必须使用两种字体来绘出该字符串, 这种指定两种或两种以上的字体的描述就是字体集.字体集一般的格式是把多种字体用逗号隔开

令人遗憾的是, 中文的GB编码和Big5编码有重叠区域, 不能区分开来, 所以字体集并不能同时指定GB和Big5的字体.

在文本浏览,网页浏览或网页翻译时, 通常需要自动识别汉字的内码, 但是中文的GB编码和Big5编码有重叠区域,所以很难区分开.目前公开 源代码的识别软件很少, 识别结果不能令人满意,远没有达到目前商业软件 的识别水平.

按国际化的级别来分, 下列几种情况都属于国际化:

   1. 语言可以切换.在系统启动时可以设置某种语言
   2. 使用不同语言的软件可以同时使用, 在应用软件启动时可以 设置某种语言
   3. 使用不同语言的软件可以同时使用, 而且应用软件的语言可 以动态切换
   4. 使用不同语言的软件可以同时使用, 而且在应用软件中可以 同时使用不同语言

显然, 第(4)种国际化方式是最完善的方式, 其次是第(3)种,第(2)种 和第(1)种.mltalk 最终决定使用第(3)种, 原因是需要支持第(4)种的 X窗口系统供应商是少数的.从目前Linux上的国际化情况看,支持第(2), (3)种的国际化软件是最常见的, 但是第(4)种软件比较少见,而且应用的 意义不是很大.
7 楼 iunknown 2008-03-11  
http://www.ibm.com/developerworks/cn/linux/i18n/unicode/linuni/

ASCII 是一个编码字符集(coded character set,CCS),换句话说,它是整数到字符表示的映射。ASCII 编码字符集允许用一个八位(基于二进制的,用值 0 或 1 表示的)字段或字节(2^8 =256)表示 256 个字符。

C 语言库将会依次测试环境变量 LC_ALL、LC_CTYPE 和 LANG。其中第一个含值的环境变量将决定为 LC_CTYPE 类别装入哪种语言环境数据。语言环境数据分裂成独立的类别。值 LC_CTYPE 定义了字符编码,而 LC_COLLATE 定义了排序顺序。我们用 LANG 环境变量为所有类别设置缺省语言环境,但 LC_* 变量可以用来覆盖单个类别。

6 楼 iunknown 2008-03-11  
前面提到从ASCII、GB2312、GBK到GB18030的编码方法是向下兼容的。而Unicode只与ASCII兼容(更准确地说,是与ISO-8859-1兼容),与GB码不兼容。例如“汉”字的Unicode编码是6C49,而GB码是BABA。
5 楼 iunknown 2008-03-11  
http://www.fmddlmyy.cn/text16.html

文字的显示应该是这样的:

    * 步骤1:文字首先以某种编码保存在文件中。
    * 步骤2:Windows将文件中的文字编码映射到Unicode。
    * 步骤3:Windows按照Unicode在字体文件中查找字体图像,画到窗口上。


代码页(Code Page)是个古老的专业术语,据说是IBM公司首先使用的。代码页和字符集的含义基本相同,代码页规定了适用于特定地区的字符集合,和这些字符的编码。可以将代码页理解为字符和字节数据的映射表。

在Windows 2000以后,Windows统一采用UTF-16作为内部字符编码。现在,安装一个代码页就是安装一张代码页转换表。通过代码页转换表,Windows 既可以将代码页的编码转换到UTF-16,也可以将UTF-16转换到代码页的编码。代码页转换表的具体实现可以是一个以nls为后缀的数据文件,也可以是一个提供转换函数的动态链接库。有的代码页是不需要安装的。例如:Windows将UTF-7和UTF-8分别作为代码页65000和代码页 65001。UTF-7、UTF-8和UTF-16都是基于Unicode的编码方案。它们之间可以通过简单的算法直接转换,不需要安装代码页转换表。

在安装过一个代码页后,Windows就知道怎样将该代码页的文本转换到Unicode文本,也知道怎样将Unicode文本转换成该代码页的文本。

其实,如果全世界人民在计算机刚发明时就统一采用Unicode作为字符编码,那么代码页就没有存在的必要了。可惜在Unicode被发明前,世界各国人民都发明并使用了各种字符编码方案。所以,Windows必须通过代码页支持已经被广泛使用的字符编码。从这种意义看,代码页主要是为了兼容现有的数据、程序和习惯而存在的。

4 楼 iunknown 2008-03-11  
http://www.fmddlmyy.cn/text24.html

GB2312有6763个汉字,GBK有21003个汉字,GB18030-2000有27533个汉字,GB18030-2005有70244个汉字。
3 楼 iunknown 2008-03-11  
http://tieba.baidu.com/f?kz=157050302

从GB2312-1980编码开始,汉字都是采用双字节编码。为了与系统中基本的ASCII字符集区分开,所有汉字编码的每个字节的第一位都是1。例如: “啊”字的编码为0xB0A1。GB2312的汉字编码规则为:第一个字节的值在0xB0到0xF7之间,第二个字节的值在0xA0到0xFE之间。 GB12345和GB13000是对GB2312-1980的扩充,所有已经包含在GB2312中的汉字编码不变,另外增加更多的码位。其编码规则大致为:第一个字节的值在0x81到0xFE之间,第二个字节的值在0x40到0xFE之间。由于GB13000是对GB2312的扩展,所以也被成为 GBK。
GB18030也是对GB2312的扩展,其编码长度由2个字节变为1~4个字节。其中包括:
* 单字节,其值从0到0x7F。
* 双字节,第一个字节的值从0x81到0xFE,第二个字节的值从0x40到0xFE(不包括0x7F)。
* 四字节,第一个字节的值从0x81到0xFE,第二个字节的值从0x30到0x39,第三个字节的值从0x81到0xFE,第四个字节的值从0x30到0x39。
2 楼 iunknown 2008-03-11  
http://www.sqlite.com.cn/MySqlite/4/256.Html

我们知道,计算机中的每一个字符都有一个内码。在默认情况下,计算机排序时,比较两个字符的大小就是比较字符内码的大小,这对于英文来说没有问题,因为英文字母的内码是按字母顺序递增的。对于中文来说,就比较麻烦了:首先,中文的排序方式有多种,比如按内码排序、按拼音排序和按笔画排序,要通过参数指定排序的方式,否则计算机就按内码排序了。其次,汉字的内码顺序即不同于拼音顺序,也不同于按笔画顺序。在GB2312编码中,汉字基本上按拼音排序(据说有例外,不太清楚)。在GBK中,它在GB2312基础上进行了扩充,兼容GB2312中的所有字符,所以不是按拼音排序了。在Unicode中,汉字的排列似乎更没有什么规律可言了。
1 楼 iunknown 2008-03-11  
http://bbs.jjol.cn/showthread.php?t=2870

这里主要说明一下本资料的相关来源。

①《现汉》2005版,单字14282个,是俺手工录入的,校对过多次,资料可靠。
②《快速识别多音字》,5147字,是我校对的,资料可靠。
③《中华成语全典》(崇文出版社),《精编成语辞典》(上海辞书出版社),5032字,粗校。
④《快速识别形似字》,1115字,精校。
⑤《汉语大字典》,手工查询375字。
⑥GBK字序拼音,21015字,精校,资料可靠。
以上资料都是带调拼音资料。

无调拼音的资料来源:
①从不同来源搜罗而来,一般较可靠。有不少错误很多的资料一律不加入。
③ffffccc在紫光论坛发布的资料。单字26823字,有1529字和我的资料不重复,加在后面。

对比
微软全拼的字音总共27954个(接近28000),是较全的。
本资料字音32026个,多出4000余个。

简体字的字频资料:主要参考了北京语言大学的资料。
繁体字的字频资料:主要参考了香港中文大学的资料。
多音字的字音频率比例计算:是根据几个可靠的词库计算的。

相关推荐

    ZZ18000/25.5/50型四柱支撑掩护式支架的研制与应用

    ZZ18000/25.5/50型四柱支撑掩护式支架是一款专为煤矿快速搬家和回撤巷道支护设计的高效设备。这款支架在煤炭开采中扮演着至关重要的角色,特别是在高产高效矿井中,其有效提升了综采设备的利用率和搬家倒面的速度。 ...

    ZZ8500/20/40型液压支架中缸筒设计及工艺的改进

    针对ZZ8500/20/40型液压支架中缸筒设计不合理部分进行改进。分别列举了中缸筒按原设计和改进后设计进行加工的工艺过程,并对二者进行了比较。改进前设计加工工艺繁琐,费料费时,效率低;改进后省工省料,可降低成本,提高...

    ZZ8200/22/45型四柱支撑掩护式液压支架研制与应用

    根据掌石沟煤业有限公司15号煤层的地质...分析了ZZ8200/22/45型四柱支撑掩护式液压支架的结构组成、适用范围和技术参数等,对支架的顶梁、底座、掩护梁进行了阐述。该支架的使用保证了较高的支护效率和人员生产安全。

    ZZ13000/28/60重型液压支架井下整体快速搬运的研究

    【ZZ13000/28/60重型液压支架井下整体快速搬运的研究】 在煤炭开采领域,随着技术的不断进步,大型化、高效化的综采综掘设备日益普及,尤其是大功率、大采高的液压支架。晋华宫矿在开采过程中遇到的挑战是如何在...

    综采面回撤三角区ZZ7200/18/36型支架电液系统设计

    本文所讨论的ZZ7200/18/36型支架的研发,正是在这一背景下应运而生的产物。针对综采面回撤三角区的特殊工况,该支架通过其独特的设计与电液控制系统,不仅显著提高了工作效率,也改善了工人的劳动条件,更确保了作业...

    ZZ13000/28/60型液压支架稳定性研究

    通过对ZZ13000/28/60型液压支架结构的介绍,重点对四连杆机构力的纵向稳定性进行了分析,验证了液压支架四连杆结构的设计是合理的、正确的,能确保工作面的稳定性,为煤矿高效、安全生产提供重要的保障。

    ZZ5900/14/28型液压支架设计探讨

    ZZ5900/14/28型液压支架作为煤矿开采领域的重要设备,主要用于支撑井下的顶板,为矿工提供安全的工作环境。设计一种新型液压支架不仅涉及到结构的设计,而且要考虑材料的选择、焊接工艺、以及如何满足井下作业的特殊...

    ZZ6400/22/45型液压支架的选型及支护强度验算

    综采工作面液压支架架型是否与工作面煤层...根据丁集煤矿1121(3)回采工作面地质条件,选用ZZ6400/22/45型液压支架。为验证液压支架的支护强度,对其进行支护强度验算,验算结果表明,所选支架的支护强度满足顶板压力要求。

    ZZ3200/11/21型液压支架改造

    ZZ3200/11/21型液压支架投用后,由于盘江支护条件的改变顶梁护帮板结构不能适应盘江煤层条件,液压系统反冲洗过滤器通液孔径很小,对水质要求极高,容易堵塞,致使支架无法正常工作,原ZZ3200/11/21型液压系统是本架操纵...

    ZZ9000/23/48型液压支架柱窝铸造工艺的优化

    潞安机械公司在ZZ9000/23/48型液压支架柱窝铸件实际生产过程中,由于传统工艺的局限,柱窝铸件冒口处无法得到有效补缩,导致柱窝在切割冒口后发现十字结构热节处存在严重的缩孔缺陷,直接导致铸件报废,无法使用。...

    ZZ8800/25/50型液压支架立柱强度计算

    以某矿用280型双伸缩立柱拟定的各个技术参数为基础,通过建立二维模型,根据双伸缩立柱的结构特点,通过对壁厚、稳定性和活塞杆强度的计算验证技术参数能否满足使用要求。计算结果表明:计算方法合理,该型号双伸缩立柱...

    ZZ9900/29.5/50型支架护帮装置限压阀板的改进

    标题和描述提到的知识点集中于对ZZ9900/29.5/50型支撑掩护式大采高液压支架护帮装置限压控制系统中限压阀板的改进。这项改进主要针对的是该限压阀板存在的缺陷。为了深入理解和掌握这部分内容,我们首先需要对液压...

    base zz zz zz zz

    base zz zz zz zz zz base zz zz zz zz zz base zz zz zz zz zz base zz zz zz zz zz

    大采高ZZ13000/28/60型液压支架的稳定性分析

    大采高ZZ13000/28/60型液压支架是针对晋华宫矿大采高工作面的特殊地质条件而设计的,该型号液压支架能够在煤层硬度高、顶板稳定性差的环境下,保持其稳定性和承载能力,为煤矿的高效生产提供了技术保障。 针对大采...

    在页面处理分页

    var zz =new Array(a.length); for(var i=0;i ;i++){ zz[i]=a[i].innerHTML; } //div的字符串数组付给zz var pageno=1; //当前页 var pagesize=3; //每页多少条信息 if(zz.length%pagesize==0){ var pageall =zz....

    BC480/22/42支撑掩护式液压支架的改造

    已造成相当数量的结构件变形,影响了支架的整体稳定性,目前支架的状况已不能满足煤矿安全生产要求,全部报废会造成资源的极大浪费,通过对该支架进行改造,使整体性能超过原BC480/22/42支架,整机性能和ZZ5200/19.5/4支架...

    ZZ13000/28/60型液压支架选型设计初步研究

    大同煤矿集团公司晋华宫矿南山区域402盘区12#层为侏罗系厚煤层赋存区。通过对该区域的地质情况、开采矿压总结分析,初步对支架的架型、工作阻力进行设计研究,实现了"两硬"条件下6 m厚煤层一次采全高综采工作面的安全...

Global site tag (gtag.js) - Google Analytics