因为我也没有找到更适合的参考资料,因此只能自己生成一份编码表,然后从中找出这些特征,不过大部份来说都是准确的,有些个别的外语,我也不知道是什么。(文 IT柏拉图)
至于这个表是干吗的,如果你想对用户输入的一些东西进行过滤或尝试识别乱码,或编码具于utf-8编码的分词系统,那么这些参考资料是很有意义的。
一、中文汉字区:
(1)生冷字:
0x3400--0x4DB5
(2)普通:
0x4E00--0x9FA5
(3)其它:
0xF900--0xFA2C
二、韩文区:
(1)韩文音标字符区
0x1100--0x11F9
0x3130--0x318E
(2)韩文:
0xAC00--0xD7A3
三、符号表情:
(1)分段字符(如:① ⑴ ⒈ )
0x2460--0x24E9
(2)制表附助、特殊字符等(┊┌┍ ▃ ▄ ▅)
0x2500--0x25FF
(3)实物体字符
0x2600--0x2671
0x2700--0x27FF
(4)全角括号(《》「」『』【】〔〕〖〗等)
0x3007--0x301A
(5)特殊序号或单位元素区(㈠ ㎎ ㎏ ㎡ 等)
0x3200--0x33FF
(6)与ANSI对应的全角字符
0xFF00--0xFF5E
对应: 0x0020--0xFF7E (即 ! -- ~ 的区间)
(7)其它特殊符号
0x2000--0x22FF
四、日本字符或假名符号区:
0x3041--0x30FF
0x3104--0x312A
0xFF66--0xFF9E
其中平假名:0x3041--0x3094
片假名:0x30A1--0x30FA
五、其它字条或音标区:
(1)罗马音标
0x00C0--0x0232
(2)类罗马音标或欧洲字符
0x0386--0x04F3
0x1E00--0x1EFF
0x1F00--0x1FFF
(3)阿拉伯语
0x0620--0x06FF
(4)佛教混合梵语
0x0904--0x0970
0x0A00--0x0AEF
0x0E00--0x0E32
六、unicode编码与UTF-8编码转换:
Unicode符号范围 | UTF-8编码方式
u0000 0000 - u0000 007F | 0xxxxxxx
u0000 0080 - u0000 07FF | 110xxxxx 10xxxxxx
u0000 0800 - u0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
相关推荐
Unicode是一种多字节字符编码标准,旨在支持世界上几乎所有语言的字符表示。它通过为每个字符分配一个唯一的数字(称为代码点)来实现这一目标。对于中文字符而言,它们主要集中在Unicode的基本多文种平面(BMP)的...
Unicode编码是一种全球统一的字符编码标准,旨在为世界上所有的字符提供一个唯一的数字标识。这个标准由Unicode联盟制定,包括了各种书写系统中的字母、符号、表情等,从拉丁文到汉字,再到阿拉伯文和印度文等,...
这些十六进制数字代表了Unicode中的代码点位置,而字符则表示该位置上对应的Unicode字符。 例如,`4e00`对应的是第一个基本汉字“一”,`4e01`是“丁”,依此类推。 #### 三、示例分析 根据给定的部分内容,我们...
Unicode编码是一种全球统一的字符编码标准,旨在为世界上所有语言的字符提供唯一的数字标识。它由Unicode联盟制定,包括了各种文字系统,如拉丁字母、汉字、日文、韩文、阿拉伯文等。通过Unicode编码,不同的计算机...
### 字符编码与Unicode...通过以上分析,我们可以看到,《字符编码文档》不仅是一份关于字符编码的技术文档,更是Unicode标准精神的体现——即在全球化背景下,促进语言多样性的同时,确保信息的无缝流通和准确传达。
Unicode编码表是开发人员和用户查找和理解不同字符编码关系的重要工具。在Unicode中,每个字符都对应一个唯一的码点,比如汉字“汉”,它的Unicode编码是U+6C49。由于字符集非常庞大,Unicode也分为多个部分或区段,...
GBK的编码表使用起来相对简单,因为其基于GB2312的框架,仅在特定的编码区间做了扩展。 GBK编码表还包含了Unicode编码表中的一些扩充字符。Unicode编码是一种国际标准,旨在为世界上所有的字符提供一个唯一的数字...
综上所述,Unicode作为一种全球通用的字符编码标准,不仅解决了字符编码混乱的问题,还极大地促进了信息技术的发展和文化交流。在未来,随着新字符的不断加入和Unicode标准的持续更新,其在全球信息化进程中的作用将...
Unicode编码是一种标准化的字符编码方式,旨在为世界上所有语言提供一个统一的字符集。它的主要目标是解决不同编码系统间的兼容性问题,确保文本在不同的计算机系统和平台间能够无损传输。 Unicode编码表,目前最...
在计算机科学与软件开发领域,字符编码是一项至关重要的技术。随着全球化的推进,如何有效地处理多种语言文本成为了一个重要议题。Unicode作为国际上广泛接受的标准之一,在解决多语言支持问题上扮演着核心角色。...
如今,Unicode编码体系下的UTF-8、UTF-16等编码格式成为了全球范围内字符编码的主流标准,能够支持几乎所有的书写系统,包括各种复杂度的汉字,满足了全球化信息交流的需求。 综上所述,GB2312编码标准虽有其历史...
UTF-8是Unicode的一种变长字符编码,支持世界上几乎所有的字符集。本文将对“UTF-8中文字符表”进行详细解读,帮助读者更好地理解这一编码机制,并掌握如何在实际应用中使用这些字符。 #### 二、UTF-8简介 UTF-8是...
Unicode是一种国际化的字符编码标准,它旨在为世界上所有的文字提供统一的编码方案。Unicode标准由Unicode联盟制定,并且得到了广泛的认可和支持。在计算机科学领域,Unicode的重要性不言而喻,它解决了传统ASCII码...
**Unicode** 是一种国际标准字符编码方案,旨在为世界上所有书写系统提供统一且唯一的数字编码。它支持全球范围内多种语言文字的处理与显示,包括但不限于汉语、英语、日语等。通过使用Unicode编码,可以在计算机上...
Unicode 编码有两套标准,一套叫 UCS-2(Unicode-16),用 2 个字节为字符编码,另一套叫 UCS-4(Unicode-32),用 4 个字节为字符编码。UCS-2 可以表示的字符数为 2^16=65535,基本上可以容纳所有的欧美字符和绝大...
Unicode是一种国际化的字符编码标准,旨在为世界上所有的字符提供统一的编码方案。其中,汉字作为一个庞大的字符集,其在Unicode中的编码范围尤为广泛。通常所说的“汉字区间(16进制)”,指的是Unicode编码中用于...
Unicode是一种国际化的字符编码标准,旨在为所有书写语言中的每个字符提供一个唯一的数字(代码点)。通过这种方式,Unicode能够支持全球范围内多种语言和文字系统的处理与交流。Unicode编码表是该标准的核心组成...