汉字处理过程

ruowu

浏览: 544684 次
性别:
来自: 广州

最近访客更多访客>>

vicento4

BillDowney

LD_21

18002587157

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

字符集

汉字系统对每个汉字预先规定输入计算机中的代码，即汉字的外部码（例如拼音输入码）。计算机为了识别汉字，要把汉字的外部码转换成内部码（二进制代码）进行存储和处理。输出时，还将汉字的内部码转换成汉字的字形码。计算机处理汉字的总过程如下：

键盘管理程序汉字处理程序外部(输入)码 → 机内码 → 字形(输出)码

(键盘) (计算机存储、传输) (计算机输出汉字)

↑ ↓↑ ↓

汉字信息交换码(国标码) 汉字信息

↓ ↑

其它系统代码

　

交换码用于计算机与其他系统或设备之间进行汉字代码信息交换的标准汉字代码，目前最常使用的是国标码1981年的GB2312-80, 7445; 2000的GB18030-2000,27000

特点

每个汉字(图形符号)用两个字节表示，每个字节只用低7位，即最高位为0的二进制码。

在128种编码表示中，有94种用来表示汉字的编码。此标准的汉字编码表有94行、94列，分别为区号和位号。汉字编码使用的高字节称为区码，低字节称为位码。

汉字分为两级：一级为使用频度高的常用汉字；

二级为次常用的汉字；

　

内部码也称汉字内码或汉字机内码，是计算机对汉字进行存储、运算、传码的实际代码。

特点

是由 0和1组成的二进制代码。一个汉字对应一个机内码，即汉字数目＝机内码数目；

一般用两个字节表示一个汉字的内码且每个字节最高位为 1。还有少数三字节、四字节等内部码最多能表示128×128 = 16384 个汉字和图形符号；

机内码目前虽未完全统一，但已趋于标准化。

内部码与国标码的对应关系:内码=国标码+8080

即国标码每个字节最高位为1 → 内部码。

例如：国标码 3B7A → 00111011 01111010 那么，机内码 BBFA→ 10111011 11111010

　

外部码也叫汉字输入编码，主要是从键盘(语音、手写、光电)输入计算机中的代表汉字的编码。

分享到：

汉字字符集的概念 | 区位码

2010-08-12 10:35
浏览 1858
评论(0)
分类:非技术
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论