`
kfcman
  • 浏览: 402285 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

unicode字符编码区间表

 
阅读更多

因为我也没有找到更适合的参考资料,因此只能自己生成一份编码表,然后从中找出这些特征,不过大部份来说都是准确的,有些个别的外语,我也不知道是什么。(文 IT柏拉图)

    至于这个表是干吗的,如果你想对用户输入的一些东西进行过滤或尝试识别乱码,或编码具于utf-8编码的分词系统,那么这些参考资料是很有意义的。

一、中文汉字区:

(1)生冷字:

0x3400--0x4DB5

(2)普通:

0x4E00--0x9FA5

(3)其它:

0xF900--0xFA2C

二、韩文区:

(1)韩文音标字符区

0x1100--0x11F9

0x3130--0x318E

(2)韩文:

0xAC00--0xD7A3

三、符号表情:

(1)分段字符(如:① ⑴ ⒈ )

0x2460--0x24E9

(2)制表附助、特殊字符等(┊┌┍ ▃ ▄ ▅)

0x2500--0x25FF

(3)实物体字符

0x2600--0x2671

0x2700--0x27FF

(4)全角括号(《》「」『』【】〔〕〖〗等)

0x3007--0x301A

(5)特殊序号或单位元素区(㈠  ㎎ ㎏ ㎡ 等)

0x3200--0x33FF

(6)与ANSI对应的全角字符

0xFF00--0xFF5E

对应: 0x0020--0xFF7E (即 ! -- ~ 的区间)

(7)其它特殊符号

0x2000--0x22FF

四、日本字符或假名符号区:

0x3041--0x30FF

0x3104--0x312A

0xFF66--0xFF9E

其中平假名:0x3041--0x3094

    片假名:0x30A1--0x30FA

五、其它字条或音标区:

(1)罗马音标

0x00C0--0x0232

(2)类罗马音标或欧洲字符

0x0386--0x04F3

0x1E00--0x1EFF

0x1F00--0x1FFF

(3)阿拉伯语

0x0620--0x06FF

(4)佛教混合梵语

0x0904--0x0970

0x0A00--0x0AEF

0x0E00--0x0E32

 

六、unicode编码与UTF-8编码转换:

Unicode符号范围           | UTF-8编码方式

u0000 0000 - u0000 007F   | 0xxxxxxx

u0000 0080 - u0000 07FF   | 110xxxxx 10xxxxxx

u0000 0800 - u0000 FFFF   | 1110xxxx 10xxxxxx 10xxxxxx

分享到:
评论

相关推荐

    Unicode 字符编码表

    Unicode字符编码表是计算机科学领域中的一个重要概念,它不仅代表着一种技术标准,更是全球信息交流统一化的基石。随着信息技术的飞速发展,全球各地的语言、文化和符号需要一种统一的方式来在计算机系统和网络中...

    维吾尔文字符集unicode编码表

    ### 维吾尔文字符集Unicode编码表 #### 概述 本文档提供了一份详细的现代维吾尔文字符集的Unicode编码表。这份表格对于理解、处理和展示维吾尔语文字具有重要意义。通过这份表格,我们可以清晰地看到每一个维吾尔文...

    维吾尔文unicode编码表

    **维吾尔文Unicode编码表**是针对现代维吾尔文中使用的字母、标点符号等字符制定的一种标准化编码方案。该编码表遵循Unicode国际标准,确保了维吾尔文在数字设备上的统一表示与兼容性。 #### 描述:标准的Unicode...

    通过对字符的unicode编码进行判断来确定字符是否为中文

    Unicode是一种多字节字符编码标准,旨在支持世界上几乎所有语言的字符表示。它通过为每个字符分配一个唯一的数字(称为代码点)来实现这一目标。对于中文字符而言,它们主要集中在Unicode的基本多文种平面(BMP)的...

    各国文字Unicode编码范围.zip

    Unicode编码是一种全球统一的字符编码标准,旨在为世界上所有的字符提供一个唯一的数字标识。这个标准由Unicode联盟制定,包括了各种书写系统中的字母、符号、表情等,从拉丁文到汉字,再到阿拉伯文和印度文等,...

    unicode中文编码表

    这些十六进制数字代表了Unicode中的代码点位置,而字符则表示该位置上对应的Unicode字符。 例如,`4e00`对应的是第一个基本汉字“一”,`4e01`是“丁”,依此类推。 #### 三、示例分析 根据给定的部分内容,我们...

    汉字unicode编码表

    2. **Unicode版本5.1**:文档中提到的内容摘自Unicode标准5.1版的字符编码表和字符名称列表。Unicode标准不断更新以适应新的需求和技术发展,5.1版本发布于2008年,是Unicode发展过程中的一个重要里程碑。 3. **...

    各国文字Unicode编码范围

    Unicode编码是一种全球统一的字符编码标准,旨在为世界上所有语言的字符提供唯一的数字标识。它由Unicode联盟制定,包括了各种文字系统,如拉丁字母、汉字、日文、韩文、阿拉伯文等。通过Unicode编码,不同的计算机...

    字符编码文档

    ### 字符编码与Unicode...通过以上分析,我们可以看到,《字符编码文档》不仅是一份关于字符编码的技术文档,更是Unicode标准精神的体现——即在全球化背景下,促进语言多样性的同时,确保信息的无缝流通和准确传达。

    UNICODE编码表(汉字,规律排列)

    - **在线资源**:Unicode联盟提供了多种在线资源,包括字符编码表、字符名称列表等,以便于用户查阅和使用。 - **技术报告**:为了全面理解Unicode标准及其应用,用户还需要参考Unicode Standard Annexes、其他技术...

    UNICODE编码表,方便查找对应关系

    Unicode编码表是开发人员和用户查找和理解不同字符编码关系的重要工具。在Unicode中,每个字符都对应一个唯一的码点,比如汉字“汉”,它的Unicode编码是U+6C49。由于字符集非常庞大,Unicode也分为多个部分或区段,...

    编码表字库编码表GBK

    GBK的编码表使用起来相对简单,因为其基于GB2312的框架,仅在特定的编码区间做了扩展。 GBK编码表还包含了Unicode编码表中的一些扩充字符。Unicode编码是一种国际标准,旨在为世界上所有的字符提供一个唯一的数字...

    UNICODE编码表

    综上所述,Unicode作为一种全球通用的字符编码标准,不仅解决了字符编码混乱的问题,还极大地促进了信息技术的发展和文化交流。在未来,随着新字符的不断加入和Unicode标准的持续更新,其在全球信息化进程中的作用将...

    unicode编码对照

    Unicode编码是一种标准化的字符编码方式,旨在为世界上所有语言提供一个统一的字符集。它的主要目标是解决不同编码系统间的兼容性问题,确保文本在不同的计算机系统和平台间能够无损传输。 Unicode编码表,目前最...

    常见汉字unicode编码

    在计算机科学与软件开发领域,字符编码是一项至关重要的技术。随着全球化的推进,如何有效地处理多种语言文本成为了一个重要议题。Unicode作为国际上广泛接受的标准之一,在解决多语言支持问题上扮演着核心角色。...

    GB2312简体中文编码表

    如今,Unicode编码体系下的UTF-8、UTF-16等编码格式成为了全球范围内字符编码的主流标准,能够支持几乎所有的书写系统,包括各种复杂度的汉字,满足了全球化信息交流的需求。 综上所述,GB2312编码标准虽有其历史...

    UTF-8中文字符表

    UTF-8是Unicode的一种变长字符编码,支持世界上几乎所有的字符集。本文将对“UTF-8中文字符表”进行详细解读,帮助读者更好地理解这一编码机制,并掌握如何在实际应用中使用这些字符。 #### 二、UTF-8简介 UTF-8是...

    unicode编码转换

    Unicode是一种国际化的字符编码标准,它旨在为世界上所有的文字提供统一的编码方案。Unicode标准由Unicode联盟制定,并且得到了广泛的认可和支持。在计算机科学领域,Unicode的重要性不言而喻,它解决了传统ASCII码...

    Unicode汉字内码表

    **Unicode** 是一种国际标准字符编码方案,旨在为世界上所有书写系统提供统一且唯一的数字编码。它支持全球范围内多种语言文字的处理与显示,包括但不限于汉语、英语、日语等。通过使用Unicode编码,可以在计算机上...

    Unicode全球分区

    Unicode的全球分区,即将Unicode字符集细分为不同的区域,是为了方便管理、使用和标准化。下面,我们就来详细了解一下Unicode的全球分区相关知识点。 ### Unicode编码基础 Unicode采用十六进制进行编码,基本的...

Global site tag (gtag.js) - Google Analytics