from: http://blog.csdn.net/nivana999/archive/2009/06/06/4247844.aspx
UNICODE
汉字数据库
原文:
http://www.unicode.org/Public/5.0.0/ucd/Unihan.html
译文:北大中文论坛
http://www.pkucn.com
译者:韦剑
整理:
nivana999
于
2009-5-31
1.
译序
本文作为对
unicode
汉字数据库文件
unihan.txt
格式的分析和解读,列出并解释了文件中的常用属性,如
kGB0(GB2312-80
的区位码映射
)
,
kMandarin(unicode
编码对应汉字的汉语拼音
)
。
Unihan.txt
文件描述了每个
unicode
编码包含的众多属性,这些属性包括各种字符编码的映射关系、英文释意、字典索引、中文笔画、部首、汉语拼音等等。用户可根据这些属性生成自己的汉字数据库、字符编码映射表、输入法字典映射表等。
以下给出
unihan.txt
中一个
unicode
编码的格式实例,‘
#
‘后为注释:
U+4E00
kBigFive
A440
#big
5
码
U+4E00
kCCCII
213021
#
kCCCII
编码
U+4E00
kCNS1986
1-4421
#
kCNS1986
编码
U+4E00
kCNS1992
1-4421
#kCNS1992
编码
U+4E00
kCangjie
M
#
倉頡输入法编码
U+4E00
kCantonese
jat1
U+4E00
kCihaiT
1.101
U+4E00
kCowles
5133
U+4E00
kDaeJaweon
0129.010
U+4E00
kDefinition
one; a, an; alone
#
英文解释
(
此字意为
1
个
)
U+4E00
kEACC
213021
U+4E00
kFenn
1A
U+4E00
kFennIndex
216.01 217.06 218.01 220.06
U+4E00
kFourCornerCode
1000.0
U+4E00
kFrequency
1
#
使用频度(
1
为最高)
U+4E00
kGB0
5027
#GB2312-80
中的区位码
U+4E00
kGB1
5027
#GB12345-90
中的区位码
U+4E00
kGSR
0394a
U+4E00
kGradeLevel
1
U+4E00
kHDZRadBreak
⼀
[U+2F00]:10001.010
U+4E00
kHKGlyph
0001
U+4E00
kHanYu
10001.010
U+4E00
kHangul
일
U+4E00
kHanyuPinlu
yi1(32747)
#
汉语出现的频率
U+4E00
kIICore
2.1
U+4E00
kIRGDaeJaweon
0129.010
U+4E00
kIRGDaiKanwaZiten
00001
U+4E00
kIRGHanyuDaZidian
10001.010
U+4E00
kIRGKangXi
0075.010
U+4E00
kIRG_GSource
0-523B
U+4E00
kIRG_JSource
0-306C
U+4E00
kIRG_KPSource
KP0-FCD6
U+4E00
kIRG_KSource
0-6C69
U+4E00
kIRG_TSource
1-4421
U+4E00
kIRG_VSource
1-4A21
U+4E00
kJapaneseKun
HITOTSU HITOTABI HAJIME
U+4E00
kJapaneseOn
ICHI ITSU
U+4E00
kJis0
1676
U+4E00
kKPS0
FCD6
U+4E00
kKSC0
7673
U+4E00
kKangXi
0075.010
U+4E00
kKarlgren
175
U+4E00
kKorean
IL
U+4E00
kLau
3341
U+4E00
kMainlandTelegraph
0001
U+4E00
kMandarin
YI1
#
汉语拼音
(yi
的第一声,第二声为
yi2)
U+4E00
kMatthews
3016
U+4E00
kMeyerWempe
3837
U+4E00
kMorohashi
00001
U+4E00
kNelson
0001
U+4E00
kPhonetic
1499
U+4E00
kPrimaryNumeric
1
U+4E00
kRSAdobe_Japan1_6
C+1200+1.1.0
U+4E00
kRSKangXi
1.0
U+4E00
kRSUnicode
1.0
U+4E00
kSBGY
468.40
U+4E00
kSemanticVariant
U+5F0C<kLau,kMatthews,kMeyerWempe U+58F9<kLau,kMatthews,kMeyerWempe
U+4E00
kSpecializedSemanticVariant
U+58F9
U+4E00
kTaiwanTelegraph
0001
U+4E00
kTang
*qit qit
U+4E00
kTotalStrokes
1
#
笔画数
U+4E00
kVietnamese
nhất
U+4E00
kXHC1983
1351.020:yi
̄
1360.040:yí 1368.160:yì
U+4E00
kXerox
241:042
本文分析了Unicode
字符数据库(UCD
)
里的Unihan.txt
文件的格式和内容。
本文和本文中所指的
“
文件
”
属于Unicode
字符数据库的一部分,统一受Unicode
标准资源使用协议(http://www.unicode.org/terms_of_use.html
)的管理。
文末所列的参考资料
提供了有助于理解本文所需的一些相关知识。
注意:
本文所要解释的Unicode
字符属性和作用的用法并不完全都由本文给出,有时可能会要结合Unicode
字符数据库里面其他文件的数据来使用,这种数据链接所需的符号及其定义请参考Unicode
标准
。除非特别说明,本文所提及的
“
字符
”
均来自Unicode
标准5.0
版。
1.
摘要
....
1
2.
关于本文
....
1
3.
目录
....
1
4.
文档结构
....
3
字段
1
数据含义
...
3
字段
2
数据含义
...
3
字段
3
数据含义
...
3
5.
Unihan
属性
....
4
5.1.
Unihan
属性列表(按字母顺序排列)
...
4
5.2.
Unihan
属性分类
...
5
字典索引
...
5
字典素材
...
5
IRG
字源资料
...
5
数值
...
5
与其他编码字符集的映射
...
5
部首/笔画数
...
5
变体
...
6
5.3.
Unihan
属性分级
...
6
常规
...
6
资料
...
6
暂定
...
6
5.4.
属性详解
...
6
kAccountingNumeric
(财会数字)
...
6
kBigFive
(
Big5
编码)
...
7
kCCCII
(
CCCII
编码)
...
7
kCNS1986
(
CNS 11643-1986
编码)
...
8
kCNS1992
(
CNS 11643-1992
编码)
...
8
kCangjie
(仓颉码)
...
8
kCantonese
(广东话读音)
...
9
kCheungBauer
(
CheungBauer
资料)
...
10
kCheungBauerIndex
(
CheungBauer
索引)
...
10
kCihaiT
(《辞海》索引)
...
11
kCompatibilityVariant
(相容变体)
...
11
kCowles
(
Cowles
索引)
...
12
kDaeJaweon
(《大字源》索引)
...
12
kDefinition
(英文释义)
...
13
kEACC
(
EACC
编码)
...
13
kFenn
(
Fenn
资料)
...
14
kFennIndex
(
Fenn
索引)
...
14
kFourCornerCode
(四角号码)
...
15
kFrequency
(频度等级)
...
15
kGB0
(
GB 2312-80
区位码)
...
16
kGB1
(
GB 12345-90
区位码)
...
17
kGB3
(
GB 7589-87
区位码)
...
17
kGB5
(
GB 7590-87
区位码)
...
17
kGB7
(
GB 8565-89
区位码)
...
18
kGB8
(
GB 8565-89
区位码)
...
18
kGSR
(《漢文典(修訂本)》索引)
...
18
margin: 0cm 0cm 0pt 21
分享到:
相关推荐
《UNICODE汉字数据库详解》 Unicode汉字数据库是全球信息技术领域中的一个重要组成部分,它为软件开发提供了统一的字符编码标准,确保不同系统间的信息交换能够准确无误地进行。本文件主要探讨了Unicode字符数据库...
本文作为对unicode汉字数据库文件unihan.txt格式的分析和解读,列出并解释了文件中的常用属性,如kGB0(GB2312-80的区位码映射),kMandarin(unicode编码对应汉字的汉语拼音)。 Unihan.txt文件描述了每个unicode编码...
全文分析了unicode汉字数据库文件Unihan.txt文件的格式和内容。可用此文件来生成编码转换用的编码的映射表,比如:unicode<->gb2312、unicode<->gbk、unicode<->big5 也可生成用作输入法程序的字典映射表,比如:拼音...
本资源“汉字笔画笔顺Unicode和GB码数据库(20902汉字).rar”提供了关于汉字笔画笔顺以及Unicode和GB编码的数据,对于研究汉字信息处理和中文编程有着重要的参考价值。 首先,我们来了解一下汉字的笔画和笔顺。汉字...
中文汉字转 Unicode 工具,正如其名,是一种能够将中文汉字转换为 Unicode 编码的实用程序。这类工具通常有以下功能: 1. **输入转换**:用户可以输入或粘贴包含中文汉字的文本,工具会自动将其转换为相应的 ...
本资源提供的“完整汉字笔画笔顺Unicode和GB码数据库”涵盖了20902个汉字,对于语言学研究、计算机汉字处理、教育等领域具有极高的价值。Unicode和GB码是两种常见的汉字编码标准,它们在数字化汉字中起着关键作用。 ...
总之,汉字转Unicode的工具是实现跨平台、跨语言信息交流的重要辅助手段,它利用Unicode编码的特性,帮助我们解决了中文字符在计算机中的表示和处理问题。通过这个工具,我们可以方便地获取到汉字的Unicode码点,...
《汉字笔画及Unicode数据库(简繁)MySQL详解》 汉字,作为世界上最古老的文字之一,其构造精妙、形态各异,蕴含着丰富的文化内涵。在信息化时代,对汉字的深入研究和利用,尤其是在数据库领域,变得越来越重要。本文...
汉字笔画笔顺Unicode和GB码数据库(20902汉字),可以满足日常的开发应用 每个汉字带有笔顺,可以通过笔顺知道汉字的构造和书写顺序; 可以通过给定一个笔顺,快速知道笔画数,比如笔顺为“34”,则笔画数为2; 可以...
汉字转Unicode编码工具是一款实用的软件,主要用于将汉字转换成其对应的Unicode编码。Unicode是一种国际标准,旨在统一全球各种字符的编码方式,包括了世界上几乎所有的文字系统,从拉丁字母到汉字,再到阿拉伯文和...
Unicode中文互转工具是一款专为处理Unicode编码与中文字符间转换问题而设计的应用程序。Unicode是一种国际标准,它为世界上几乎所有的文字系统提供了一个统一的编码方式,使得跨语言、跨平台的信息处理变得可能。在...
汉字,作为中文的主要书写形式,自然也被纳入Unicode编码之中。每个汉字在Unicode中都有一个唯一的编号,称为码点。通过这个码点,我们可以将Unicode编码转换为汉字,以便在计算机系统中显示和处理。 批量转换...
描述中提到的“汉字笔画数据库,含20902个汉字及其笔画数、笔顺、UNicode、GB”,意味着这个数据库不仅包含了汉字的数量,还提供了每个汉字的详细信息。具体来说: 1. **笔画数**:每个汉字由不同的笔画组成,笔画...
这个压缩包文件提供了关于汉字结构、笔画、笔顺、Unicode编码以及GB码的详细数据库,对于研究汉字、开发汉字处理软件或者进行汉语言教学都有极大的帮助。 首先,我们要理解汉字的基本构造单元——笔画。汉字是由...
通过上述分析,我们可以看出这份Unicode汉字编码表是一个非常有用的资源,不仅对于研究汉字编码的人士来说非常重要,对于软件开发者、数据库管理员以及所有需要处理多语言文本的人来说也极具价值。了解和掌握Unicode...
GBK编码是中国大陆使用的一种多字节编码,它是GB2312编码的扩展,包含了更多的汉字和其他字符,尤其包含了许多繁体字和部分非汉语言文字。Unicode编码则是一个全球统一的字符集,包括世界上几乎所有的文字系统,使用...
汉字UNICODE互换工具是一款专为处理汉字编码转换问题而设计的应用程序,它主要用于在不同的字符编码系统之间进行转换,确保在不同环境下汉字的正确显示和处理。在信息技术领域,尤其是在处理文本数据时,了解汉字...
汉字作为中文的主要表现形式,自然也包含在Unicode字符集中。 Unicode编码系统由Unicode联盟制定,其最新版本包含超过14万个字符,涵盖了全球大部分文字系统。对于汉字,Unicode使用了多个区块来表示,例如基本多...