`
kfcman
  • 浏览: 395581 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

unicode字符编码区间表

 
阅读更多

因为我也没有找到更适合的参考资料,因此只能自己生成一份编码表,然后从中找出这些特征,不过大部份来说都是准确的,有些个别的外语,我也不知道是什么。(文 IT柏拉图)

    至于这个表是干吗的,如果你想对用户输入的一些东西进行过滤或尝试识别乱码,或编码具于utf-8编码的分词系统,那么这些参考资料是很有意义的。

一、中文汉字区:

(1)生冷字:

0x3400--0x4DB5

(2)普通:

0x4E00--0x9FA5

(3)其它:

0xF900--0xFA2C

二、韩文区:

(1)韩文音标字符区

0x1100--0x11F9

0x3130--0x318E

(2)韩文:

0xAC00--0xD7A3

三、符号表情:

(1)分段字符(如:① ⑴ ⒈ )

0x2460--0x24E9

(2)制表附助、特殊字符等(┊┌┍ ▃ ▄ ▅)

0x2500--0x25FF

(3)实物体字符

0x2600--0x2671

0x2700--0x27FF

(4)全角括号(《》「」『』【】〔〕〖〗等)

0x3007--0x301A

(5)特殊序号或单位元素区(㈠  ㎎ ㎏ ㎡ 等)

0x3200--0x33FF

(6)与ANSI对应的全角字符

0xFF00--0xFF5E

对应: 0x0020--0xFF7E (即 ! -- ~ 的区间)

(7)其它特殊符号

0x2000--0x22FF

四、日本字符或假名符号区:

0x3041--0x30FF

0x3104--0x312A

0xFF66--0xFF9E

其中平假名:0x3041--0x3094

    片假名:0x30A1--0x30FA

五、其它字条或音标区:

(1)罗马音标

0x00C0--0x0232

(2)类罗马音标或欧洲字符

0x0386--0x04F3

0x1E00--0x1EFF

0x1F00--0x1FFF

(3)阿拉伯语

0x0620--0x06FF

(4)佛教混合梵语

0x0904--0x0970

0x0A00--0x0AEF

0x0E00--0x0E32

 

六、unicode编码与UTF-8编码转换:

Unicode符号范围           | UTF-8编码方式

u0000 0000 - u0000 007F   | 0xxxxxxx

u0000 0080 - u0000 07FF   | 110xxxxx 10xxxxxx

u0000 0800 - u0000 FFFF   | 1110xxxx 10xxxxxx 10xxxxxx

分享到:
评论

相关推荐

    通过对字符的unicode编码进行判断来确定字符是否为中文

    Unicode是一种多字节字符编码标准,旨在支持世界上几乎所有语言的字符表示。它通过为每个字符分配一个唯一的数字(称为代码点)来实现这一目标。对于中文字符而言,它们主要集中在Unicode的基本多文种平面(BMP)的...

    各国文字Unicode编码范围.zip

    Unicode编码是一种全球统一的字符编码标准,旨在为世界上所有的字符提供一个唯一的数字标识。这个标准由Unicode联盟制定,包括了各种书写系统中的字母、符号、表情等,从拉丁文到汉字,再到阿拉伯文和印度文等,...

    unicode中文编码表

    这些十六进制数字代表了Unicode中的代码点位置,而字符则表示该位置上对应的Unicode字符。 例如,`4e00`对应的是第一个基本汉字“一”,`4e01`是“丁”,依此类推。 #### 三、示例分析 根据给定的部分内容,我们...

    各国文字Unicode编码范围

    Unicode编码是一种全球统一的字符编码标准,旨在为世界上所有语言的字符提供唯一的数字标识。它由Unicode联盟制定,包括了各种文字系统,如拉丁字母、汉字、日文、韩文、阿拉伯文等。通过Unicode编码,不同的计算机...

    字符编码文档

    ### 字符编码与Unicode...通过以上分析,我们可以看到,《字符编码文档》不仅是一份关于字符编码的技术文档,更是Unicode标准精神的体现——即在全球化背景下,促进语言多样性的同时,确保信息的无缝流通和准确传达。

    UNICODE编码表,方便查找对应关系

    Unicode编码表是开发人员和用户查找和理解不同字符编码关系的重要工具。在Unicode中,每个字符都对应一个唯一的码点,比如汉字“汉”,它的Unicode编码是U+6C49。由于字符集非常庞大,Unicode也分为多个部分或区段,...

    编码表字库编码表GBK

    GBK的编码表使用起来相对简单,因为其基于GB2312的框架,仅在特定的编码区间做了扩展。 GBK编码表还包含了Unicode编码表中的一些扩充字符。Unicode编码是一种国际标准,旨在为世界上所有的字符提供一个唯一的数字...

    UNICODE编码表

    综上所述,Unicode作为一种全球通用的字符编码标准,不仅解决了字符编码混乱的问题,还极大地促进了信息技术的发展和文化交流。在未来,随着新字符的不断加入和Unicode标准的持续更新,其在全球信息化进程中的作用将...

    unicode编码对照

    Unicode编码是一种标准化的字符编码方式,旨在为世界上所有语言提供一个统一的字符集。它的主要目标是解决不同编码系统间的兼容性问题,确保文本在不同的计算机系统和平台间能够无损传输。 Unicode编码表,目前最...

    常见汉字unicode编码

    在计算机科学与软件开发领域,字符编码是一项至关重要的技术。随着全球化的推进,如何有效地处理多种语言文本成为了一个重要议题。Unicode作为国际上广泛接受的标准之一,在解决多语言支持问题上扮演着核心角色。...

    GB2312简体中文编码表

    如今,Unicode编码体系下的UTF-8、UTF-16等编码格式成为了全球范围内字符编码的主流标准,能够支持几乎所有的书写系统,包括各种复杂度的汉字,满足了全球化信息交流的需求。 综上所述,GB2312编码标准虽有其历史...

    UTF-8中文字符表

    UTF-8是Unicode的一种变长字符编码,支持世界上几乎所有的字符集。本文将对“UTF-8中文字符表”进行详细解读,帮助读者更好地理解这一编码机制,并掌握如何在实际应用中使用这些字符。 #### 二、UTF-8简介 UTF-8是...

    unicode编码转换

    Unicode是一种国际化的字符编码标准,它旨在为世界上所有的文字提供统一的编码方案。Unicode标准由Unicode联盟制定,并且得到了广泛的认可和支持。在计算机科学领域,Unicode的重要性不言而喻,它解决了传统ASCII码...

    Unicode汉字内码表

    **Unicode** 是一种国际标准字符编码方案,旨在为世界上所有书写系统提供统一且唯一的数字编码。它支持全球范围内多种语言文字的处理与显示,包括但不限于汉语、英语、日语等。通过使用Unicode编码,可以在计算机上...

    汉字编码常识

    Unicode 编码有两套标准,一套叫 UCS-2(Unicode-16),用 2 个字节为字符编码,另一套叫 UCS-4(Unicode-32),用 4 个字节为字符编码。UCS-2 可以表示的字符数为 2^16=65535,基本上可以容纳所有的欧美字符和绝大...

    汉字区间(16进制)

    Unicode是一种国际化的字符编码标准,旨在为世界上所有的字符提供统一的编码方案。其中,汉字作为一个庞大的字符集,其在Unicode中的编码范围尤为广泛。通常所说的“汉字区间(16进制)”,指的是Unicode编码中用于...

    Unicode编码表

    Unicode是一种国际化的字符编码标准,旨在为所有书写语言中的每个字符提供一个唯一的数字(代码点)。通过这种方式,Unicode能够支持全球范围内多种语言和文字系统的处理与交流。Unicode编码表是该标准的核心组成...

Global site tag (gtag.js) - Google Analytics