`
totoxian
  • 浏览: 1074964 次
  • 性别: Icon_minigender_2
  • 来自: 西安
文章分类
社区版块
存档分类
最新评论

聂受立:汉字你知多少?

阅读更多

from: http://hi.baidu.com/%BD%F0%C9%DF%BF%F1%CE%E8/blog/item/6a5f41088c5f6a960a7b82d8.html


一. 从古老的甲骨文到今天的汉字,汉字一共有多少个呢? 近年来一直致力于古文字研究的郑州大学博 士生导师王蕴智先生说,他们最新的研究成果表明,商代文字字头已有4100多个,能和今天的字联系起来、仍然“活着”的字有1250多个。中国历来重视编 写出版字书,最早的字书是东汉许慎编撰的《说文解字》,共收汉字9353个,《说文解字》的出现,使汉字书写有了统一的标准和规范。宋代丁度等编纂的《广 韵》,收字达53525个,是古代收汉字最多的字典,清代张玉书奉诏编纂的《康熙字典》,收字达47035个,辛亥革命后,欧阳溥存等编的《中华大字 典》,收入汉字达到48000多个。近年来出版的《汉语大字典》,共收录汉字56000多字,是迄今为止收录汉字最多的字典,堪称当今汉语字典的“世界之 最”


二.你知道有多少使用汉字的国家吗?

除中国使用汉字外,过去使用过或现在仍然在使用汉字的国家有越南、日本、朝鲜、韩国。

越南在公元第一世纪传入汉字。13世纪创造了越南形声字,叫做“字喃”。“字喃”一直与汉字平行使用。19世纪起采用拉丁化新文字。1945年,越南民主共和国成立,用新文字扫除文盲。随着扫盲工作的开展,新文字在越南普及了。

[ 转自铁血社区 http://bbs.tiexue.net/ ]

日本在公元第三世纪传入汉字。不久,日本把汉字当成记音的字母来记录日本语言。后来又把记音字母的汉字笔画简化,创造出 “假名”。到了第七世纪,就出现了汉字夹用“假名”的日文。现在汉字在日文中,只是当作“定型字”来使用,如果有写不出的汉字,也可以直接写假名。一般的 日本人使用的日文,是以假名为主,夹用一部分汉字。汉字曾被限制在1850个,叫做“当用汉字”,另有92个汉字,作为“人名特用字”。1981年3月, 日本国语审议会向文部省申报了所拟订的《常用汉字表》,共有1945字,代替了《当用汉字表》,并于1981年10月公布施行。

朝鲜在公元第二世纪传入汉字,使用汉字约有一千七八百年。1444年,朝鲜颁布推行《训民正音》(李朝世宗皇帝颁布朝鲜 拼音文字时使用的名称),采用汉字笔画式字母,叫“正音字”(即谚文),夹在汉字中间使用。1948年,朝鲜民主主义人民共和国成立,废除了汉字,采用纯 谚文的拼音文字。它的书写单位为字母拼成的方块形式音节。

韩国现在还在使用汉字和韩字(即谚文)的混合体文字,文教部曾经颁布过供大中学校使用的1800个“新订通用汉字”和供一般文字生活使用的1300个“常用汉字”。民间往来的书面语,则因人而异,或用混合体文字,或用纯拼音文字(韩字)。


三.你知道计算机世界的汉字有多少? 最近在互联网上引起的简繁体字之争,引起了IT人对汉字的兴趣。如果从IT人角度来看看这些有趣的方块字,你会发现计算机世界的汉字,比现实中的简繁体还要复杂百倍。

甚么是GB 2312?
GB 2312(或GB 2312-80)是由中国国家标准总局发布的一个中国国家标准的简体汉字字符集,并从1981年5月1日开始实施。全名为《信息交换用汉字编码字符集‧基本集》,又称为GB0。

GB 2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时,GB 2312也收录了682其它字母。GB 2312基本上已可应付计算机处理汉字的需要,覆盖99.75%的使用频率。

甚么是GBK?
基于GB 2312不能处理一些人名、古汉语等罕用字,后来出现了GBK及GB 18030汉字字符集。GBK(Chinese Internal Code Specification)全名为汉字内码扩展规范。

在1993年,Unicode 1.1版本面市,收录了中国、台湾、日本及韩国通用字符集的汉字,总共有2万902个。中文计算机开发商,于是利用了GB 2312未用的编码空间,收录了所有出现在Unicode 1.1及GB 13000.1-93之中的汉字,制定了GBK编码。

根据西方资料,GBK最初是由微软对GB2312的扩展,最初出现于Windows 95简体中文版中,由于Windows在中国广泛被使用,中国国家有关部门将其作为技术规范,但并非中国国家正式标准。

甚么是BIG5?
Big5,又称为大五码或五大码,是使用繁体中文社群中最常用的计算机汉字字符集标准,共收录1万3053个汉字,其中有2字为重复编码。Big5是在 1984年由台湾信息工业策进会和5家(宏碁、神通、佳佳、零壹及大众)共同推动中文计算机文化的公司所共同创立,故称五大码或大五码。

甚么是GB 18030?
中国政府为了解决邮政,户籍整理等领域用字的迫切需要,于2000年实行了一个新的汉字编码的国家标准《汉字编码字符集-基本集的扩充》GB 18030-2000,共收录汉字2万7484个,并强制所有在中国售卖的计算机产品,必须支持这个新的国家标准。

甚么是Unicode?
Unicode(统一码、万国码、单一码)是一种由国际组织设计在计算机上使用的字符编码,能容纳全世界语言文字的编码方案,还可满足跨语言、跨平台进行 文本转换、处理的要求。1990年开始研发,1994年正式公布。最新版本的Unicode是2005年3月31日推出的Unicode 4.1.0。另外,5.0Beta版已于2005年12月12日推出,供会员测试评价至今年5月9日为止。

甚么是UTF?
UTF是Unicode Translation Format的简称,是为了在不同的系统平台上转换Unicode格式,常见的有:UTF-8、UTF-7、UTF-16、UTF-32等。
聂受立 2007.10.25
分享到:
评论

相关推荐

    三年级英语上册连词成句专项练习.pdf

    全句中文顺序:你是杨玲吗? 英文句子:Are you Yang Ling? 4. ①not ②I ③am ④No ⑤, ⑥. 这些单词组成的是:"No, I am not." 全句中文顺序:不,我不是。 英文句子:No, I am not. 5、①you ②Would ③...

    Newcastle-OttawaScale(NOS)文献质量评价量表(中文版).pdf

    Newcastle-Ottawa Scale (NOS) 文献质量评价量表(中文版) Newcastle-Ottawa Scale (NOS) 文献质量评价量表(中文版)是评价文献质量的重要工具,主要用于评价病例对照研究和队列研究的质量。该量表由八个方面组成...

    《Beginning C# Objects中文版:概念到代码》

    为了完善《Beginning C# Objects中文版:概念到代码》,我们还写了标题为“下一步”的最后章节,它给出一些建议,让你在读完《Beginning C# Objects中文版:概念到代码》后,懂得如何继续自己的面向对象发现之旅。

    计算机数据表示实验(HUST) 第2关:汉字机内码获取实验

    计算机数据表示实验(HUST) 第2关:汉字机内码获取实验 (1)帮助学生理解汉字机内码、区位码,最终能利用相关工具批量获取一段文字的 GB2312 机内码,并利用简单电路实现 GB2312 编码与区位码的转换; (2)学生了解字形...

    Unicode和中文的相互转换(C++代码)

    Unicode和中文的相互转换——VS2019的C++控制台项目(x64\x86\Debug\Release已编译) 1. bool ChineseToUnicode(CString cstr, string & str); 望断秋高和待雪初平__ChineseToUnicode:\u671b\u65ad\u79cb\u9ad8\u...

    C语言算法精华

    Re: 如何给汉字分界? anya Re: 八皇后算法问题请教? anya Re: 急寻图象压缩算法 anya 游戏中最佳路径的问题 anya 平面点覆盖问题求教 anya Re: 平面点覆盖问题求教 anya Re: 平面点覆盖问题求教 anya Re: ...

    英语口语8000句-外出旅行.docx

    - **实用场景**:询问当地人或旅游信息中心工作人员关于有趣的地方可以帮助你发现一些不为人知的好去处。此外,根据对方的兴趣推荐适合的景点也是一种礼貌且有效的方式。 #### 4. 了解旅行路线 - **关键句型**: -...

    五年级英语下册第五单元复习卷精选.doc

    1. 单词和句子的中文意思: - rabbit:兔子 - kangaroo:袋鼠 - giraffe:长颈鹿 - tiger:老虎 - bird:鸟 - fish:鱼 - mother:妈妈 - baby:婴儿 - Look at the tiger!:看那只老虎! - What is it ...

    客户管理系统

    ● 除了按汉字查找外,程序自带汉字拼音库,可以按照读音找(仅限姓名),这点对于中文数据库很重要,国外同类软件不会有此功能。但在输入数据时会自动加上姓名的拼音索引,增加了文件大小。可以直接输入拼音,汉字...

    Think in Java(中文版)-chm格式

    第1章 对象入门 1.1 抽象的进步 1.2 对象的接口 1.3 实现方案的隐藏 1.4 方案的重复使用 1.5 继承:重新使用接口 1.5.1 改善基础类 1.5.2 等价和类似关系 1.6 多形对象的互换使用 1.6.1 动态绑定 ...

    SystemVue快速使用指导.rar_SystemVue软件仿真雷达信号_systemvue 指导_systemvue教程_脉

    实验内容: ? SystemVue软件环境及使用操作简介 ? 实验一:脉冲信号源 ? 实验二:线性调频脉冲信号及脉冲压缩 ? 实验三:脉冲多普勒雷达系统仿真 ? 实验四:舰载雷达系统仿真 ? 总结

    如何取得汉字的区位码?

    区位码是中国国家标准GB2312-80中定义的一种编码方式,用于表示中文汉字及符号。区位码由两个字节组成,每个字节对应一个十进制数字,范围从16到55(十六进制0x10到0x39)。了解如何获取汉字的区位码对于从事中文...

    OCR中文汉字汇总:20900汉字-近乎全中文

    OCR中文汉字汇总:20900汉字-近乎全中文

    模拟器TCP-ADB完整版模块1.1-修复版-易语言

    新增:文本_发送中文初始化(安装设置发送中文所需的环境) ? ? 新增:输入法_获取列表(获得已开启的或全部输入法列表) ? ? 新增:输入法_控制(开启和关闭输入法)? ? 新增:输入法_切换(切换到指定输入法) ?

    JSP/Servlet 中的汉字编码问题

    -80,GBK,GB18030-2000 汉字字符集及 Encoding 中文转码时’?’、乱码的由来 JSP/Servlet 汉字编码问题及在 WAS 中的解决办法 结束语 参考文章 1. 问题的起源每个国家(或区域)都规定了计算机信息交换用的字符编码...

    Mestrec4999核磁软件使用教程湖北大学版

    3、 傅立叶变换 4、 相位矫正 5、 基线矫正 6、 图谱放大 7、 定标 8、 标注化学位移 9、 积分 10、添加注释 11、图谱叠加 12、添加放大图 13、拷贝到word文档 14、导出ascii码,以便origin画图 二、...

    五年级上册英语句型练习卷(一)精选.doc

    "时,回答应为"Yes, you are.",中文为"是的,你是。" 2. 有用(helpful)的肯定表达:对于"Is your brother helpful at home?",肯定回答是"Yes, he is.",中文为"是的,他有用。" 3. 有用(helpful)的自我评价...

    Opencv图像Mat写入中文汉字

    在OpenCV库中,处理图像时我们经常需要在图片上添加文字信息,这...通过上述步骤,你可以在OpenCV的图像Mat中成功写入中文汉字。在实际应用中,你可以根据需求调整字体样式、颜色、位置等参数,以达到最佳的视觉效果。

    E时空网络购物系统 .rar_md5_md5 asp_python 购物_网络购物系统_购物系统python

    好的购物系统最新版本:: 版本: 1.21 Final 安装包大小: 4.58 MB 程序?写: Cookle 及其他 ?布日期: 7.25.2005 研?状?: 6 - Mature 平台要求: Windows 98/Me/2000/XP/...体中文/繁体(GBK/Big5), 英文 程序?言: Python

    vscode-server离线插件:汉字

    vscode-server离线插件:汉字

Global site tag (gtag.js) - Google Analytics