`
totoxian
  • 浏览: 1074926 次
  • 性别: Icon_minigender_2
  • 来自: 西安
文章分类
社区版块
存档分类
最新评论

[转]Unicode 汉字数据库

阅读更多

from: http://blog.csdn.net/nivana999/archive/2009/06/06/4247844.aspx

UNICODE 汉字数据库

版本

5.0.0

作者

John Jenkins (井作恆)、Richard Cook (曲理查)

发布日期

2006-07-10

当前版本

http://www.unicode.org/Public/5.0.0/ucd/Unihan.html

上一版本

http://www.unicode.org/Public/4.1.0/ucd/Unihan.html

最新版本

http://www.unicode.org/Public/UNIDATA/Unihan.html

原文: http://www.unicode.org/Public/5.0.0/ucd/Unihan.html

译文:北大中文论坛 http://www.pkucn.com

译者:韦剑

整理: nivana999 2009-5-31

1. 译序

本文作为对 unicode 汉字数据库文件 unihan.txt 格式的分析和解读,列出并解释了文件中的常用属性,如 kGB0(GB2312-80 的区位码映射 ) kMandarin(unicode 编码对应汉字的汉语拼音 )

Unihan.txt 文件描述了每个 unicode 编码包含的众多属性,这些属性包括各种字符编码的映射关系、英文释意、字典索引、中文笔画、部首、汉语拼音等等。用户可根据这些属性生成自己的汉字数据库、字符编码映射表、输入法字典映射表等。

以下给出 unihan.txt 中一个 unicode 编码的格式实例,‘ # ‘后为注释:

U+4E00 kBigFive A440 #big 5

U+4E00 kCCCII 213021 # kCCCII 编码

U+4E00 kCNS1986 1-4421 # kCNS1986 编码

U+4E00 kCNS1992 1-4421 #kCNS1992 编码

U+4E00 kCangjie M # 倉頡输入法编码

U+4E00 kCantonese jat1

U+4E00 kCihaiT 1.101

U+4E00 kCowles 5133

U+4E00 kDaeJaweon 0129.010

U+4E00 kDefinition one; a, an; alone # 英文解释 ( 此字意为 1 )

U+4E00 kEACC 213021

U+4E00 kFenn 1A

U+4E00 kFennIndex 216.01 217.06 218.01 220.06

U+4E00 kFourCornerCode 1000.0

U+4E00 kFrequency 1 # 使用频度( 1 为最高)

U+4E00 kGB0 5027 #GB2312-80 中的区位码

U+4E00 kGB1 5027 #GB12345-90 中的区位码

U+4E00 kGSR 0394a

U+4E00 kGradeLevel 1

U+4E00 kHDZRadBreak [U+2F00]:10001.010

U+4E00 kHKGlyph 0001

U+4E00 kHanYu 10001.010

U+4E00 kHangul

U+4E00 kHanyuPinlu yi1(32747) # 汉语出现的频率

U+4E00 kIICore 2.1

U+4E00 kIRGDaeJaweon 0129.010

U+4E00 kIRGDaiKanwaZiten 00001

U+4E00 kIRGHanyuDaZidian 10001.010

U+4E00 kIRGKangXi 0075.010

U+4E00 kIRG_GSource 0-523B

U+4E00 kIRG_JSource 0-306C

U+4E00 kIRG_KPSource KP0-FCD6

U+4E00 kIRG_KSource 0-6C69

U+4E00 kIRG_TSource 1-4421

U+4E00 kIRG_VSource 1-4A21

U+4E00 kJapaneseKun HITOTSU HITOTABI HAJIME

U+4E00 kJapaneseOn ICHI ITSU

U+4E00 kJis0 1676

U+4E00 kKPS0 FCD6

U+4E00 kKSC0 7673

U+4E00 kKangXi 0075.010

U+4E00 kKarlgren 175

U+4E00 kKorean IL

U+4E00 kLau 3341

U+4E00 kMainlandTelegraph 0001

U+4E00 kMandarin YI1 # 汉语拼音 (yi 的第一声,第二声为 yi2)

U+4E00 kMatthews 3016

U+4E00 kMeyerWempe 3837

U+4E00 kMorohashi 00001

U+4E00 kNelson 0001

U+4E00 kPhonetic 1499

U+4E00 kPrimaryNumeric 1

U+4E00 kRSAdobe_Japan1_6 C+1200+1.1.0

U+4E00 kRSKangXi 1.0

U+4E00 kRSUnicode 1.0

U+4E00 kSBGY 468.40

U+4E00 kSemanticVariant U+5F0C<kLau,kMatthews,kMeyerWempe U+58F9<kLau,kMatthews,kMeyerWempe

U+4E00 kSpecializedSemanticVariant U+58F9

U+4E00 kTaiwanTelegraph 0001

U+4E00 kTang *qit qit

U+4E00 kTotalStrokes 1 # 笔画数

U+4E00 kVietnamese nhất

U+4E00 kXHC1983 1351.020:yi ̄ 1360.040:yí 1368.160:yì

U+4E00 kXerox 241:042

2. 摘要

本文分析了Unicode 字符数据库(UCD 里的Unihan.txt 文件的格式和内容。

3. 关于本文

本文和本文中所指的 文件 属于Unicode 字符数据库的一部分,统一受Unicode 标准资源使用协议(http://www.unicode.org/terms_of_use.html )的管理。

文末所列的参考资料 提供了有助于理解本文所需的一些相关知识。

注意: 本文所要解释的Unicode 字符属性和作用的用法并不完全都由本文给出,有时可能会要结合Unicode 字符数据库里面其他文件的数据来使用,这种数据链接所需的符号及其定义请参考Unicode 标准 。除非特别说明,本文所提及的 字符 均来自Unicode 标准5.0 版。

4. 目录

1. 摘要 .... 1

2. 关于本文 .... 1

3. 目录 .... 1

4. 文档结构 .... 3

字段 1 数据含义 ... 3

字段 2 数据含义 ... 3

字段 3 数据含义 ... 3

5. Unihan 属性 .... 4

5.1. Unihan 属性列表(按字母顺序排列) ... 4

5.2. Unihan 属性分类 ... 5

字典索引 ... 5

字典素材 ... 5

IRG 字源资料 ... 5

数值 ... 5

与其他编码字符集的映射 ... 5

部首/笔画数 ... 5

变体 ... 6

5.3. Unihan 属性分级 ... 6

常规 ... 6

资料 ... 6

暂定 ... 6

5.4. 属性详解 ... 6

kAccountingNumeric (财会数字) ... 6

kBigFive Big5 编码) ... 7

kCCCII CCCII 编码) ... 7

kCNS1986 CNS 11643-1986 编码) ... 8

kCNS1992 CNS 11643-1992 编码) ... 8

kCangjie (仓颉码) ... 8

kCantonese (广东话读音) ... 9

kCheungBauer CheungBauer 资料) ... 10

kCheungBauerIndex CheungBauer 索引) ... 10

kCihaiT (《辞海》索引) ... 11

kCompatibilityVariant (相容变体) ... 11

kCowles Cowles 索引) ... 12

kDaeJaweon (《大字源》索引) ... 12

kDefinition (英文释义) ... 13

kEACC EACC 编码) ... 13

kFenn Fenn 资料) ... 14

kFennIndex Fenn 索引) ... 14

kFourCornerCode (四角号码) ... 15

kFrequency (频度等级) ... 15

kGB0 GB 2312-80 区位码) ... 16

kGB1 GB 12345-90 区位码) ... 17

kGB3 GB 7589-87 区位码) ... 17

kGB5 GB 7590-87 区位码) ... 17

kGB7 GB 8565-89 区位码) ... 18

kGB8 GB 8565-89 区位码) ... 18

kGSR (《漢文典(修訂本)》索引) ... 18

margin: 0cm 0cm 0pt 21

分享到:
评论

相关推荐

    UNICODE汉字数据库[收集].pdf

    《UNICODE汉字数据库详解》 Unicode汉字数据库是全球信息技术领域中的一个重要组成部分,它为软件开发提供了统一的字符编码标准,确保不同系统间的信息交换能够准确无误地进行。本文件主要探讨了Unicode字符数据库...

    UNICODE汉字数据库.doc

    本文作为对unicode汉字数据库文件unihan.txt格式的分析和解读,列出并解释了文件中的常用属性,如kGB0(GB2312-80的区位码映射),kMandarin(unicode编码对应汉字的汉语拼音)。 Unihan.txt文件描述了每个unicode编码...

    UNICODE汉字数据库.rar

    全文分析了unicode汉字数据库文件Unihan.txt文件的格式和内容。可用此文件来生成编码转换用的编码的映射表,比如:unicode&lt;-&gt;gb2312、unicode&lt;-&gt;gbk、unicode&lt;-&gt;big5 也可生成用作输入法程序的字典映射表,比如:拼音...

    汉字笔画笔顺Unicode和GB码数据库(20902汉字).rar

    本资源“汉字笔画笔顺Unicode和GB码数据库(20902汉字).rar”提供了关于汉字笔画笔顺以及Unicode和GB编码的数据,对于研究汉字信息处理和中文编程有着重要的参考价值。 首先,我们来了解一下汉字的笔画和笔顺。汉字...

    中文汉字转unicode工具

    中文汉字转 Unicode 工具,正如其名,是一种能够将中文汉字转换为 Unicode 编码的实用程序。这类工具通常有以下功能: 1. **输入转换**:用户可以输入或粘贴包含中文汉字的文本,工具会自动将其转换为相应的 ...

    完整汉字笔画笔顺Unicode和GB码数据库(20902汉字)

    本资源提供的“完整汉字笔画笔顺Unicode和GB码数据库”涵盖了20902个汉字,对于语言学研究、计算机汉字处理、教育等领域具有极高的价值。Unicode和GB码是两种常见的汉字编码标准,它们在数字化汉字中起着关键作用。 ...

    汉字转Unicode

    总之,汉字转Unicode的工具是实现跨平台、跨语言信息交流的重要辅助手段,它利用Unicode编码的特性,帮助我们解决了中文字符在计算机中的表示和处理问题。通过这个工具,我们可以方便地获取到汉字的Unicode码点,...

    汉字笔画及UNicode数据库(简繁)mysql

    《汉字笔画及Unicode数据库(简繁)MySQL详解》 汉字,作为世界上最古老的文字之一,其构造精妙、形态各异,蕴含着丰富的文化内涵。在信息化时代,对汉字的深入研究和利用,尤其是在数据库领域,变得越来越重要。本文...

    汉字笔画笔顺Unicode和GB码数据库(20902汉字)

    汉字笔画笔顺Unicode和GB码数据库(20902汉字),可以满足日常的开发应用 每个汉字带有笔顺,可以通过笔顺知道汉字的构造和书写顺序; 可以通过给定一个笔顺,快速知道笔画数,比如笔顺为“34”,则笔画数为2; 可以...

    汉字转Unicode编码工具

    汉字转Unicode编码工具是一款实用的软件,主要用于将汉字转换成其对应的Unicode编码。Unicode是一种国际标准,旨在统一全球各种字符的编码方式,包括了世界上几乎所有的文字系统,从拉丁字母到汉字,再到阿拉伯文和...

    unicode中文互转工具

    Unicode中文互转工具是一款专为处理Unicode编码与中文字符间转换问题而设计的应用程序。Unicode是一种国际标准,它为世界上几乎所有的文字系统提供了一个统一的编码方式,使得跨语言、跨平台的信息处理变得可能。在...

    unicode至汉字的批量转换

    汉字,作为中文的主要书写形式,自然也被纳入Unicode编码之中。每个汉字在Unicode中都有一个唯一的编号,称为码点。通过这个码点,我们可以将Unicode编码转换为汉字,以便在计算机系统中显示和处理。 批量转换...

    汉字笔顺数据库(mdb格式,20902个汉字)

    描述中提到的“汉字笔画数据库,含20902个汉字及其笔画数、笔顺、UNicode、GB”,意味着这个数据库不仅包含了汉字的数量,还提供了每个汉字的详细信息。具体来说: 1. **笔画数**:每个汉字由不同的笔画组成,笔画...

    汉字结构、笔画、笔顺、Unicode、GB码数据库(20902汉字)

    这个压缩包文件提供了关于汉字结构、笔画、笔顺、Unicode编码以及GB码的详细数据库,对于研究汉字、开发汉字处理软件或者进行汉语言教学都有极大的帮助。 首先,我们要理解汉字的基本构造单元——笔画。汉字是由...

    最全的unicode 汉字编码表

    通过上述分析,我们可以看出这份Unicode汉字编码表是一个非常有用的资源,不仅对于研究汉字编码的人士来说非常重要,对于软件开发者、数据库管理员以及所有需要处理多语言文本的人来说也极具价值。了解和掌握Unicode...

    GBK转UNICODE函数和码表

    GBK编码是中国大陆使用的一种多字节编码,它是GB2312编码的扩展,包含了更多的汉字和其他字符,尤其包含了许多繁体字和部分非汉语言文字。Unicode编码则是一个全球统一的字符集,包括世界上几乎所有的文字系统,使用...

    汉字UNICODE互换工具.exe

    汉字UNICODE互换工具是一款专为处理汉字编码转换问题而设计的应用程序,它主要用于在不同的字符编码系统之间进行转换,确保在不同环境下汉字的正确显示和处理。在信息技术领域,尤其是在处理文本数据时,了解汉字...

    汉字转换成Unicode

    汉字作为中文的主要表现形式,自然也包含在Unicode字符集中。 Unicode编码系统由Unicode联盟制定,其最新版本包含超过14万个字符,涵盖了全球大部分文字系统。对于汉字,Unicode使用了多个区块来表示,例如基本多...

Global site tag (gtag.js) - Google Analytics