unicode中文范围 - summerbell - ITeye博客

`

summerbell

浏览: 821240 次
性别:
来自: 武汉

最近访客更多访客>>

wangweihuamy

icnd

wyhappiness

玫瑰步道

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

107x：不错，谢谢！
log4j.properties配置详解
gzklyzf：为啥我解析的PDF文档没有作者、文章题目等信息啊，下面是我的代 ...
Apache Lucene Tika 文件内容提取工具
mervyn1024：解压密码是啥
ictclas4j调整
百卉含英：如果我的文件输出路径是这个log4j.appender.Fil ...
log4j.properties配置详解
lxhxklyy： mark……
log4j.properties配置详解

unicode中文范围

博客分类：

研发技术综合

阅读更多

unicode中文范围

在网上搜索了一下汉字的Unicode范围，普遍给出了“U+4E00..U+9FA5”。但事实上这个范围是不完整的，甚至连基本的全角（中文）标点也未包含在内。根据最新的Unicode 5.0版整理如下：

注：在绝大多数应用场合中，我们可以仅用（1）、（2）、（3）、（4）、（5）的集合作为CJK判断的依据。

1）标准CJK文字

http://www.unicode.org/Public/UNIDATA/Unihan.html

Code point range	Block name	Release
U+3400..U+4DB5	CJK Unified Ideographs Extension A	3.0
U+4E00..U+9FA5	CJK Unified Ideographs	1.1
U+9FA6..U+9FBB	CJK Unified Ideographs	4.1
U+F900..U+FA2D	CJK Compatibility Ideographs	1.1
U+FA30..U+FA6A	CJK Compatibility Ideographs	3.2
U+FA70..U+FAD9	CJK Compatibility Ideographs	4.1
U+20000..U+2A6D6	CJK Unified Ideographs Extension B	3.1
U+2F800..U+2FA1D	CJK Compatibility Supplement	3.1

2）全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母：FF00-FFEF

http://www.unicode.org/charts/PDF/UFF00.pdf

3）CJK部首补充：2E80-2EFF

http://www.unicode.org/charts/PDF/U2E80.pdf

4）CJK标点符号：3000-303F

http://www.unicode.org/charts/PDF/U3000.pdf

5）CJK笔划：31C0-31EF

http://www.unicode.org/charts/PDF/U31C0.pdf

6）康熙部首：2F00-2FDF

http://www.unicode.org/charts/PDF/U2F00.pdf

7）汉字结构描述字符：2FF0-2FFF

http://www.unicode.org/charts/PDF/U2FF0.pdf

8）注音符号：3100-312F

http://www.unicode.org/charts/PDF/U3100.pdf

9）注音符号（闽南语、客家语扩展）：31A0-31BF

http://www.unicode.org/charts/PDF/U31A0.pdf

10）日文平假名：3040-309F

http://www.unicode.org/charts/PDF/U3040.pdf

11）日文片假名：30A0-30FF

http://www.unicode.org/charts/PDF/U30A0.pdf

12）日文片假名拼音扩展：31F0-31FF

http://www.unicode.org/charts/PDF/U31F0.pdf

13）韩文拼音：AC00-D7AF

http://www.unicode.org/charts/PDF/UAC00.pdf

14）韩文字母：1100-11FF

http://www.unicode.org/charts/PDF/U1100.pdf

15）韩文兼容字母：3130-318F

http://www.unicode.org/charts/PDF/U3130.pdf

16）太玄经符号：1D300-1D35F

http://www.unicode.org/charts/PDF/U1D300.pdf

17）易经六十四卦象：4DC0-4DFF

http://www.unicode.org/charts/PDF/U4DC0.pdf

18）彝文音节：A000-A48F

http://www.unicode.org/charts/PDF/UA000.pdf

19）彝文部首：A490-A4CF

http://www.unicode.org/charts/PDF/UA490.pdf

20）盲文符号：2800-28FF

http://www.unicode.org/charts/PDF/U2800.pdf

21）CJK字母及月份：3200-32FF

http://www.unicode.org/charts/PDF/U3200.pdf

22）CJK特殊符号（日期合并）：3300-33FF

http://www.unicode.org/charts/PDF/U3300.pdf

23）装饰符号（非CJK专用）：2700-27BF

http://www.unicode.org/charts/PDF/U2700.pdf

24）杂项符号（非CJK专用）：2600-26FF

http://www.unicode.org/charts/PDF/U2600.pdf

25）中文竖排标点：FE10-FE1F

http://www.unicode.org/charts/PDF/UFE10.pdf

26）CJK兼容符号（竖排变体、下划线、顿号）：FE30-FE4F

http://www.unicode.org/charts/PDF/UFE30.pdf

分享到：

史上最全最强的正则表达式 | IEEE Intelligent Systems, ISSI\-2009\-09 ...

2010-01-05 16:27
浏览 2187
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

各国文字Unicode编码范围: 它由Unicode联盟制定，包括了各种文字系统，如拉丁字母、汉字、日文、韩文、阿拉伯文等。通过Unicode编码，不同的计算机系统可以无缝地交换和处理文本，无论这些文本是何种语言。在Unicode中，每种语言或文字系统...

最全的unicode 汉字编码表: 根据提供的文件内容，我们了解到该文件包含了一段特殊的Unicode编码表示例，范围为`4e00-9fa5`，这部分是Unicode标准中用于表示常用汉字的部分。 ##### 字符范围解析 - **起始码位**：`4e00` - 表示该范围内的第...

Unicode汉字编码表(全): Unicode汉字编码表是全球计算机系统中用于表示汉字的标准编码之一，它在中文信息处理领域扮演着至关重要的角色。Unicode，全称统一码或万国码，是一个为所有字符集提供唯一数字标识的国际标准，旨在解决不同语言字符...

各国文字Unicode编码范围.zip: “各国文字Unicode编码范围.zip”这个压缩包文件包含了关于世界各国文字在Unicode编码体系中的位置和范围的信息。Unicode编码是基于16位的，理论上可以表示65,536个不同的字符，但实际上已经扩展到了21位，能够表示...

Unicode,Unicode汉字编码,Unicode汉字编码表: 在Unicode中，汉字被分配在多个不同的代码块中，其中最常用的是“CJK Unified Ideographs”块，该块覆盖了从U+4E00到U+9FA0的范围，包含了大部分常用汉字。以下是一部分具体的例子： - 汉字“经”的Unicode编码为0x...

Unicode汉字内码表: 总之，Unicode汉字内码表是中文信息化不可或缺的一部分，它不仅为计算机系统提供了处理汉字的标准方法，也为各种与中文相关的应用和服务提供了坚实的基础。通过掌握Unicode编码规则和使用方法，开发者和研究人员可以...

常用的java汉字unicode编码: 在给定的文件中，虽然部分内容难以直接解析为明确的IT知识，但通过其标题“常用的java汉字unicode编码”以及描述“该文档有常用的java汉字unicode编码”，我们可以深入探讨与之相关的知识点。 ### Unicode编码的...

所有中文字Unicode编码区间及常用中文字Unicode编码: 所有中文字Unicode编码区间及常用中文字Unicode编码，在生成随机验证码时可能使用到

unicode汉字编码拼音对照表: unicode汉字和拼音对照表，按照：汉字编码拼音声标拼音声调（声调在字母后）声调在拼音后纯拼音的格式排列。一共是20902个汉字编码范围是 U4e00 ~ U9fa5.

unicode 汉字字符集: ### Unicode汉字字符集...通过了解这些基础概念和技术细节，我们可以更好地理解和应用Unicode汉字字符集，从而有效地处理中文文本和其他多语言数据。这对于软件开发、数据库管理、自然语言处理等领域都有着重要的意义。

汉字UNICODE互换工具.exe: UNICODE覆盖了包括汉字在内的多种语言字符，使得计算机系统能够在全球范围内进行文本处理和交换。在UNICODE中，每个汉字都有一个独一无二的数字代码，通常用十六进制表示，如“汉字”在UNICODE中的编码可能是“6C49...

unicode汉字编码表: Unicode汉字编码表是一种标准，用于在全球范围内统一表示各种语言的文字，包括汉字。这个编码系统的主要目的是消除不同编码方式带来的兼容性问题，确保不同系统间文本数据的无缝交换。目前Unicode最广泛采用的是UCS-...

汉字unicode编码表: 1. **Unicode编码范围**：4E00至9FCF是Unicode为现代中文常用汉字分配的编码区间，共包含约20,902个汉字。这一编码范围覆盖了现代中文日常交流所需的绝大多数汉字，包括常用的简体字和繁体字。 2. **Unicode版本5.1...

汉字与unicode编码(十六进制)对照表: 在Unicode中，汉字通常被分配在BMP的第四区，即所谓的汉文区，范围大致在0x4E00到0x9FFF之间。这个对照表可能就按照这个顺序列出了汉字的一级和二级字库，一级字库包含常用汉字，二级字库则包含较为生僻的汉字。 ...

UNICODE汉字对照表,用access存储: Access数据库支持多种数据类型，对于Unicode码点，通常会使用整数或长整数数据类型来存储，因为Unicode码点的数值范围通常在0至0x10FFFF之间。汉字则可能使用文本数据类型（如Short Text或Long Text），因为每个汉字...

unicode和汉字转换: Unicode 包含了大量的汉字，确保了在国际化的软件和网络中，中文字符能够被正确识别和处理。汉字转换则涉及到将汉字编码为其他格式，如GBK、GB2312等，这些是中国大陆早期广泛使用的简体汉字编码。这些编码标准的...

中文汉字转unicode工具: 例如，在编写网页时，使用 Unicode 编码可以确保浏览器在全球范围内正确显示中文汉字。在编程中，程序员可以利用这些工具处理字符串，确保代码在不同系统下的一致性。压缩包中的“中文汉字转unicode工具”很可能是...

java 中文Unicode转换: 每个`char`变量可以存储一个Unicode码点，但需要注意的是，对于超出BMP范围的字符，Java使用代理对（Surrogate Pair）来存储。一个代理对由两个`char`组成，它们共同表示一个码点。将中文字符转换为Unicode编码，...

unicode至汉字的批量转换: 汉字，作为中文的主要书写形式，自然也被纳入Unicode编码之中。每个汉字在Unicode中都有一个唯一的编号，称为码点。通过这个码点，我们可以将Unicode编码转换为汉字，以便在计算机系统中显示和处理。批量转换...

最全的常用汉字Unicode码表: 对于中文用户而言，Unicode的重要性不言而喻，它不仅确保了中文字符能在全球范围内被正确地显示和处理，还极大地促进了中文信息在互联网上的传播。 #### 常用汉字Unicode码表概述本文提供的“最全的常用汉字...

Global site tag (gtag.js) - Google Analytics