totoxian

浏览: 1103922 次
性别:
来自: 西安

最近访客更多访客>>

u012363178

chen6485

jingyixiushen

wms763660840

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (1502)

社区版块

存档分类

[转]Unicode 汉字数据库

数据结构 HTML .net Blog

from: http://blog.csdn.net/nivana999/archive/2009/06/06/4247844.aspx

UNICODE 汉字数据库

版本	5.0.0
作者	John Jenkins （井作恆）、Richard Cook （曲理查）
发布日期	2006-07-10
当前版本	http://www.unicode.org/Public/5.0.0/ucd/Unihan.html
上一版本	http://www.unicode.org/Public/4.1.0/ucd/Unihan.html
最新版本	http://www.unicode.org/Public/UNIDATA/Unihan.html

原文： http://www.unicode.org/Public/5.0.0/ucd/Unihan.html

译文：北大中文论坛 http://www.pkucn.com

译者：韦剑

整理： nivana999 于 2009-5-31

1. 译序

本文作为对 unicode 汉字数据库文件 unihan.txt 格式的分析和解读，列出并解释了文件中的常用属性，如 kGB0(GB2312-80 的区位码映射 ) ， kMandarin(unicode 编码对应汉字的汉语拼音 ) 。

Unihan.txt 文件描述了每个 unicode 编码包含的众多属性，这些属性包括各种字符编码的映射关系、英文释意、字典索引、中文笔画、部首、汉语拼音等等。用户可根据这些属性生成自己的汉字数据库、字符编码映射表、输入法字典映射表等。

以下给出 unihan.txt 中一个 unicode 编码的格式实例，‘ # ‘后为注释：

U+4E00 kBigFive A440 #big 5 码

U+4E00 kCCCII 213021 # kCCCII 编码

U+4E00 kCNS1986 1-4421 # kCNS1986 编码

U+4E00 kCNS1992 1-4421 #kCNS1992 编码

U+4E00 kCangjie M # 倉頡输入法编码

U+4E00 kCantonese jat1

U+4E00 kCihaiT 1.101

U+4E00 kCowles 5133

U+4E00 kDaeJaweon 0129.010

U+4E00 kDefinition one; a, an; alone # 英文解释 ( 此字意为 1 个 )

U+4E00 kEACC 213021

U+4E00 kFenn 1A

U+4E00 kFennIndex 216.01 217.06 218.01 220.06

U+4E00 kFourCornerCode 1000.0

U+4E00 kFrequency 1 # 使用频度（ 1 为最高）

U+4E00 kGB0 5027 #GB2312-80 中的区位码

U+4E00 kGB1 5027 #GB12345-90 中的区位码

U+4E00 kGSR 0394a

U+4E00 kGradeLevel 1

U+4E00 kHDZRadBreak ⼀ [U+2F00]:10001.010

U+4E00 kHKGlyph 0001

U+4E00 kHanYu 10001.010

U+4E00 kHangul 일

U+4E00 kHanyuPinlu yi1(32747) # 汉语出现的频率

U+4E00 kIICore 2.1

U+4E00 kIRGDaeJaweon 0129.010

U+4E00 kIRGDaiKanwaZiten 00001

U+4E00 kIRGHanyuDaZidian 10001.010

U+4E00 kIRGKangXi 0075.010

U+4E00 kIRG_GSource 0-523B

U+4E00 kIRG_JSource 0-306C

U+4E00 kIRG_KPSource KP0-FCD6

U+4E00 kIRG_KSource 0-6C69

U+4E00 kIRG_TSource 1-4421

U+4E00 kIRG_VSource 1-4A21

U+4E00 kJapaneseKun HITOTSU HITOTABI HAJIME

U+4E00 kJapaneseOn ICHI ITSU

U+4E00 kJis0 1676

U+4E00 kKPS0 FCD6

U+4E00 kKSC0 7673

U+4E00 kKangXi 0075.010

U+4E00 kKarlgren 175

U+4E00 kKorean IL

U+4E00 kLau 3341

U+4E00 kMainlandTelegraph 0001

U+4E00 kMandarin YI1 # 汉语拼音 (yi 的第一声，第二声为 yi2)

U+4E00 kMatthews 3016

U+4E00 kMeyerWempe 3837

U+4E00 kMorohashi 00001

U+4E00 kNelson 0001

U+4E00 kPhonetic 1499

U+4E00 kPrimaryNumeric 1

U+4E00 kRSAdobe_Japan1_6 C+1200+1.1.0

U+4E00 kRSKangXi 1.0

U+4E00 kRSUnicode 1.0

U+4E00 kSBGY 468.40

U+4E00 kSemanticVariant U+5F0C<kLau,kMatthews,kMeyerWempe U+58F9<kLau,kMatthews,kMeyerWempe

U+4E00 kSpecializedSemanticVariant U+58F9

U+4E00 kTaiwanTelegraph 0001

U+4E00 kTang *qit qit

U+4E00 kTotalStrokes 1 # 笔画数

U+4E00 kVietnamese nhất

U+4E00 kXHC1983 1351.020:yi ̄ 1360.040:yí 1368.160:yì

U+4E00 kXerox 241:042

2. 摘要

本文分析了Unicode 字符数据库（UCD ）里的Unihan.txt 文件的格式和内容。

3. 关于本文

本文和本文中所指的 “ 文件 ” 属于Unicode 字符数据库的一部分，统一受Unicode 标准资源使用协议（http://www.unicode.org/terms_of_use.html ）的管理。

文末所列的参考资料提供了有助于理解本文所需的一些相关知识。

注意： 本文所要解释的Unicode 字符属性和作用的用法并不完全都由本文给出，有时可能会要结合Unicode 字符数据库里面其他文件的数据来使用，这种数据链接所需的符号及其定义请参考Unicode 标准。除非特别说明，本文所提及的 “ 字符 ” 均来自Unicode 标准5.0 版。

4. 目录

5. Unihan 属性 .... 4

5.1. Unihan 属性列表（按字母顺序排列） ... 4

5.2. Unihan 属性分类 ... 5

5.3. Unihan 属性分级 ... 6

kAccountingNumeric （财会数字） ... 6

kBigFive （ Big5 编码） ... 7

kCCCII （ CCCII 编码） ... 7

kCNS1986 （ CNS 11643-1986 编码） ... 8

kCNS1992 （ CNS 11643-1992 编码） ... 8

kCangjie （仓颉码） ... 8

kCantonese （广东话读音） ... 9

kCheungBauer （ CheungBauer 资料） ... 10

kCheungBauerIndex （ CheungBauer 索引） ... 10

kCihaiT （《辞海》索引） ... 11

kCompatibilityVariant （相容变体） ... 11

kCowles （ Cowles 索引） ... 12

kDaeJaweon （《大字源》索引） ... 12

kDefinition （英文释义） ... 13

kEACC （ EACC 编码） ... 13

kFenn （ Fenn 资料） ... 14

kFennIndex （ Fenn 索引） ... 14

kFourCornerCode （四角号码） ... 15

kFrequency （频度等级） ... 15

kGB0 （ GB 2312-80 区位码） ... 16

kGB1 （ GB 12345-90 区位码） ... 17

kGB3 （ GB 7589-87 区位码） ... 17

kGB5 （ GB 7590-87 区位码） ... 17

kGB7 （ GB 8565-89 区位码） ... 18

kGB8 （ GB 8565-89 区位码） ... 18

kGSR （《漢文典（修訂本）》索引） ... 18

margin: 0cm 0cm 0pt 21

分享到：

［译］Windows 古僻汉字输入方法 | [转］一些漢字、字體/字型、内碼、輸入法 ...

2010-02-16 20:42
浏览 1047
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

[转]Unicode 汉字数据库

1. 译序

2. 摘要

3. 关于本文

4. 目录

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

[转]Unicode 汉字数据库

1. 译序

2. 摘要

3. 关于本文

4. 目录

评论

发表评论

相关推荐

最近访客更多访客>>