ANSI和Unicode中的汉字编码（转) -

liuqzan

浏览: 217686 次
性别:
来自: 深圳

最近访客更多访客>>

zhuangfeng159

hqbzl

q377376701q

himoo

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

ANSI和Unicode中的汉字编码（转)

博客分类：

JAVA

Windows

ANSI:汉字区的内码范围高字节从B0-F7,低字节从A1-FE
Unicode:汉字的Unicode编码范围为\u4E00-\u9FA5 \uF900-\uFA2D,如果不在这个范围内就不是汉字了.

GBK 亦采用双字节表示，总体编码范围为 8140-FEFE，首字节在 81-FE 之间，尾字节在 40-FE 之间，剔除 xx7F 一条线。总计 23940 个码位，共收入 21886 个汉字和图形符号，其中汉字（包括部首和构件）21003 个，图形符号 883 个。

Unicode 汉字内码的汉字区为4E00-9FA5, 共有20902个汉字

BIG5 是台湾计算机界实行的汉字编码字符集。它包含了 420 个图形符号和 13070 个汉字（不包含简化汉字）。编码范围是 0x8140-0xFE7E、0x81A1-0xFEFE，其中 0xA140-0xA17E、0xA1A1-0xA1FE 是图形符号区，0xA440-0xF97E、0xA4A1-0xF9FE 是汉字区。

概况

1993年，Unicode 1.1版本推出，收录了中国大陆、台湾、日本及韩国通用字符集的汉字，总共有20,902个。

中国大陆订定了等同于Unicode 1.1版本的“GB 13000.1-93”“信息技术通用多八位编码字符集（UCS）第一部分：体系结构与基本多文种平面”。

由于GB 2312-80只收录了6763个汉字，有不少汉字，如部分在GB 2312-80推出以后才简化的汉字（如“啰”），部分人名用字（如中国前总理朱镕基的“镕”字），台湾及香港使用的繁体字，日语及朝鲜语汉字等，并未有收录在内。中文电脑开发商，于是利用了GB 2312-80未有使用的编码空间，收录了所有出现在Unicode 1.1及GB 13000.1-93之中的汉字，制定了GBK编码。

根据西方资料，GBK最初是由微软对GB2312的扩展，也就是CP936字码表 (Code Page 936)的扩展（原来的CP936和GB 2312-80一模一样），最初出现于Windows 95简体中文版中，由于Windows产品的流行和在大陆广泛被使用，中华人民共和国国家有关部门将其作为技术规范。注意GBK并非国家正式标准，只是国家技术监督局标准化司、电子工业部科技与质量监督司发布的“技术规范指导性文件”。虽然GBK收录了所有Unicode 1.1及GB 13000.1-93之中的汉字，但是编码方式与Unicode 1.1及GB 13000.1-93不同。仅仅是GB 2312到GB 13000.1-93之间的过渡方案。

中华人民共和国国家标准总局于2000年推出了GB 18030-2000标准，以取代GBK。GB 18030-2000除了保留了全部GBK编码的汉字外，还增加了大约一百个汉字及四位元组编码空间。

unicode码的分布情况

*******************************************************
0000..007F; Basic Latin
0080..00FF; Latin-1 Supplement
0100..017F; Latin Extended-A
0180..024F; Latin Extended-B
0250..02AF; IPA Extensions
02B0..02FF; Spacing Modifier Letters
0300..036F; Combining Diacritical Marks
0370..03FF; Greek
0400..04FF; Cyrillic
0530..058F; Armenian
0590..05FF; Hebrew
0600..06FF; Arabic
0700..074F; Syriac
0780..07BF; Thaana
0900..097F; Devanagari
0980..09FF; Bengali
0A00..0A7F; Gurmukhi
0A80..0AFF; Gujarati
0B00..0B7F; Oriya
0B80..0BFF; Tamil
0C00..0C7F; Telugu
0C80..0CFF; Kannada
0D00..0D7F; Malayalam
0D80..0DFF; Sinhala
0E00..0E7F; Thai
0E80..0EFF; Lao
0F00..0FFF; Tibetan
1000..109F; Myanmar
10A0..10FF; Georgian
1100..11FF; Hangul Jamo
1200..137F; Ethiopic
13A0..13FF; Cherokee
1400..167F; Unified Canadian Aboriginal Syllabics
1680..169F; Ogham
16A0..16FF; Runic
1780..17FF; Khmer
1800..18AF; Mongolian
1E00..1EFF; Latin Extended Additional
1F00..1FFF; Greek Extended
2000..206F; General Punctuation
2070..209F; Superscripts and Subscripts
20A0..20CF; Currency Symbols
20D0..20FF; Combining Marks for Symbols
2100..214F; Letterlike Symbols
2150..218F; Number Forms
2190..21FF; Arrows
2200..22FF; Mathematical Operators
2300..23FF; Miscellaneous Technical
2400..243F; Control Pictures
2440..245F; Optical Character Recognition
2460..24FF; Enclosed Alphanumerics
2500..257F; Box Drawing
2580..259F; Block Elements
25A0..25FF; Geometric Shapes
2600..26FF; Miscellaneous Symbols
2700..27BF; Dingbats
2800..28FF; Braille Patterns
2E80..2EFF; CJK Radicals Supplement
2F00..2FDF; Kangxi Radicals
2FF0..2FFF; Ideographic Description Characters
3000..303F; CJK Symbols and Punctuation
3040..309F; Hiragana
30A0..30FF; Katakana
3100..312F; Bopomofo
3130..318F; Hangul Compatibility Jamo
3190..319F; Kanbun
31A0..31BF; Bopomofo Extended
3200..32FF; Enclosed CJK Letters and Months
3300..33FF; CJK Compatibility
3400..4DB5; CJK Unified Ideographs Extension A
4E00..9FFF; CJK Unified Ideographs
A000..A48F; Yi Syllables
A490..A4CF; Yi Radicals
AC00..D7A3; Hangul Syllables
D800..DB7F; High Surrogates
DB80..DBFF; High Private Use Surrogates
DC00..DFFF; Low Surrogates
E000..F8FF; Private Use
F900..FAFF; CJK Compatibility Ideographs
FB00..FB4F; Alphabetic Presentation Forms
FB50..FDFF; Arabic Presentation Forms-A
FE20..FE2F; Combining Half Marks
FE30..FE4F; CJK Compatibility Forms
FE50..FE6F; Small Form Variants
FE70..FEFE; Arabic Presentation Forms-B
FEFF..FEFF; Specials
FF00..FFEF; Halfwidth and Fullwidth Forms
FFF0..FFFD; Specials
10300..1032F; Old Italic
10330..1034F; Gothic
10400..1044F; Deseret
1D000..1D0FF; Byzantine Musical Symbols
1D100..1D1FF; Musical Symbols
1D400..1D7FF; Mathematical Alphanumeric Symbols
20000..2A6D6; CJK Unified Ideographs Extension B
2F800..2FA1F; CJK Compatibility Ideographs Supplement
E0000..E007F; Tags
F0000..FFFFD; Private Use
100000..10FFFD; Private Use

分享到：

How to re-sign an existing android syste ... | [转]有关UTF-8的一些资料

2010-11-12 20:49
浏览 9738
评论(1)
分类:编程语言
查看更多

1 楼 Stark_Summer 2015-08-09

赞就是感觉过于概念了。还是不能很明白

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

ANSI和Unicode中的汉字编码（转)

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

ANSI和Unicode中的汉字编码 （转)

评论

发表评论

相关推荐

Mac OS X Lion Eclipse JDK JRE Not found problem(Solved)

Oracle 多行转列方法

Using the Spring Security Facelets Tag Library

Don't repeat DAO

GenericDao class

Object to genericty

JAVA专用术语中英文对照

[转]有关UTF-8的一些资料

思考才能有效的解决问题----<WEB应用在捕捉异常并处理时，请不要使用System.exit(1)!!!! >

同步的本质

多线程使用数据库连接池JDCconectionPool造成内存泄露 OutOfMemoryException 原因及解决

内存泄露与溢出区别

向大家强烈推荐 NetBeans Profiler查找内存泄漏

使用多线程完成任务队列造成内存泄露

Java堆.栈和常量池<转>

java 线程Thread.Sleep详解 <转帖>

追MM与Java的23种设计模式

JAVA 单例模式与多线程

MyJxta2.5研究心得 (2009-07-24)

最近访客更多访客>>

ANSI和Unicode中的汉字编码（转)

思考才能有效的解决问题----<WEB应用在捕捉异常并处理时，请不要使用System.exit(1)!!!!　>　

向大家强烈推荐　NetBeans Profiler查找内存泄漏