`

关于unicode编码的研究

 
阅读更多

以前写过一篇贴子是写中文在unicode中的编码范围 unicode中文范围,但写的不是很详细,今天再次研究了下unicode,并给出详细的unicode取值范围。

 

本次研究的unicode对象是unicode 5.2.0版本。现在最新的是6.0版

对于这次研究的unicode把编码分为以下几个平面(英文中是plane,可以认为就是不同的区位)

Unicode可以逻辑分为17平面(Plane),每个平面拥有65536( = 216)个代码点,虽然目前只有少数平面被使用。

平面0 (0000–FFFF): 基本多文种平面(Basic Multilingual Plane, BMP).
平面1 (10000–1FFFF): 多文种补充平面(Supplementary Multilingual Plane, SMP).
平面2 (20000–2FFFF): 表意文字补充平面(Supplementary Ideographic Plane, SIP).
平面3 (30000–3FFFF): 表意文字第三平面(Tertiary Ideographic Plane, TIP).
平面4 to 13 (40000–DFFFF)尚未使用
平面14 (E0000–EFFFF): 特别用途补充平面(Supplementary Special-purpose Plane, SSP)
平面15 (F0000–FFFFF)保留作为私人使用区(Private Use Area, PUA)
平面16 (100000–10FFFF),保留作为私人使用区(Private Use Area, PUA)

 

最有用的当然就是BMP平面0了编码从U+0000至U+FFFF。那里包含了几乎全部的常用字符。
unicode基本平面区的编码区间含义


为鉴于Unicode原有的16位空间不足以应用,于是从Unicode 3.1版本开始,设立了16个扩展字码空间,称为辅助平面,
使 Unicode 的可使用空间由6万多字增至约100万字。辅助平面字符要用上4字节来存储。
unicode中的几大区间

 

最后小结下:

1、现在网上大多数用于判断中文字符的是 U+4E00..U+9FA5 这个范围是只是“中日韩统一表意文字”这个区间,但这不是全部,如果要全部包含,则还要他们的扩展集、部首、象形字、注间字母等等;

2E80-A4CF 加上 F900-FAFF 加上 FE30-FE4F

其中 

2E80-A4CF 

包含了中日朝部首补充、康熙部首、表意文字描述符、中日朝符号和标点、日文平假名、日文片假名、注音字母、谚文兼容字母、象形字注释标志、注音字母扩展、中日朝笔画、日文片假名语音扩展、带圈中日朝字母和月份、中日朝兼容、中日朝统一表意文字扩展A、易经六十四卦符号、中日韩统一表意文字、彝文音节、彝文字根

 F900-FAFF

中日朝兼容表意文字

FE30-FE4F

中日朝兼容形式

所以,一般用4E00-9FA5已经可以,如果要更广,则用2E80-A4CF  ||   F900-FAFF || FE30-FE4F

 

2、全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母:FF00-FFEF

3、不要太关心简繁中文的区别,如果要明确非要简体中文可参考unicode中简体中文编码

分享到:
评论

相关推荐

    Unicode汉字编码表(全)

    这些PDF文件为研究者、开发者和对汉字编码感兴趣的人员提供了详细的汉字Unicode编码信息。通过查阅这些文档,你可以找到每个汉字对应的Unicode码点,这对于编程、字体设计、文本处理软件开发等工作具有很高的实用...

    最全的unicode 汉字编码表

    根据提供的文件内容,我们了解到该文件包含了一段特殊的Unicode编码表示例,范围为`4e00-9fa5`,这部分是Unicode标准中用于表示常用汉字的部分。 ##### 字符范围解析 - **起始码位**:`4e00` - 表示该范围内的第...

    Unicode编码表.zip

    Unicode编码表是一个重要的标准,它在全球范围内统一了字符的表示方式,使得各种语言的文字能够被计算机系统正确地处理和显示。Unicode,也被称为万国码或统一码,是由Unicode联盟制定的一种字符编码标准,旨在解决...

    Unicode编码和双向算法(bidi)详解.pdf

    "Unicode编码和双向算法(bidi)详解" 本文对 Unicode 编码和双向算法(bidi)进行了详细的讲解,涵盖了 Unicode 编码的基本概念、UTF-8 和 UTF-16 编码方式、双向算法的基本规则和实现细节等内容。 Unicode 编码是...

    完整UNICODE编码表

    ### 完整Unicode编码表解析 #### Unicode简介 Unicode是一种国际化的字符编码标准,它采用双字节(16位)进行编号,可以容纳65,536个字符,几乎覆盖了世界上所有语言的字符集。这使得Unicode成为全球范围内广泛...

    Unicode汉字内码表

    根据提供的信息,我们可以了解到这是一份关于Unicode汉字内码表的内容。下面将对这份文档中的信息进行详细...通过掌握Unicode编码规则和使用方法,开发者和研究人员可以更好地利用这一资源,推动信息技术的发展和应用。

    unicode转gb18030编码

    最常用的Unicode编码方式是UTF-8,它是一种变长编码,能够高效地表示英文和中文等不同语言的字符。 **GB18030** 是中国国家标准的汉字编码,全称为“信息技术—多字节编码字符集—GBK扩展A”,它是GBK编码的升级版...

    谈谈Unicode编码,

    最后,《Waris'%20Dissertation[1].pdf》可能是一位研究者关于Unicode编码或相关领域的博士论文,提供了更深入的理论和实践研究。 总之,Unicode编码是现代计算机处理文本的关键技术,它的存在使得全球化的信息交流...

    所有UNICODE字符的编码表

    Unicode编码表的文档,如《Unicode编码表.doc》,通常会详细列出每一个码点对应的字符,以及字符的相关信息,如字符名称、所属区块、图形表示等。这对于开发者、语言学家和研究人员来说是非常宝贵的参考资料。通过...

    Unicode Book 码表对应手册

    这个手册不仅全面覆盖了Unicode编码体系,还提供了直观的点阵图,使得字符的视觉呈现更加直观易懂。 Unicode码表是一个庞大的字符集合,包含了从古代象形文字到现代符号的所有字符。每个字符在Unicode中都有一个...

    易语言源码易语言unicode编码到GBK源码.rar

    在这个"易语言源码易语言unicode编码到GBK源码.rar"压缩包中,包含的源码是关于如何在易语言中处理字符编码转换的,特别是从Unicode编码转换到GBK编码的过程。 Unicode是一种广泛使用的字符编码标准,它包含了世界...

    UNICODE编码表

    ### UNICODE编码表:深入解析与理解 #### 一、引言 在计算机科学与信息技术领域,字符编码系统扮演着至关重要的角色,确保了全球范围内文本数据的统一处理和传输。Unicode,作为国际标准的字符编码方案,旨在为...

    Unicode编码查询工具

    Unicode编码系统基于码点,码点是分配给每个字符的唯一整数。这个系统使用16位或32位的数字来表示每一个字符,确保了全球范围内的字符都能被准确地表示。在16位编码中,Unicode覆盖了0到65535个码点,这被称为基本多...

    emoji图片资源和表情unicode编码

    例如,不同的设备和浏览器可能对某些Unicode编码的支持程度不一,因此需要了解哪些码点是广泛兼容的。此外,由于emoji的图形化展示依赖于操作系统或浏览器的字体库,有时在某些环境中,某些emoji可能会显示为简单的...

    常用汉字的unicode编码

    在计算机科学领域,字符编码是将文字转换为二进制数字表示的过程,使得计算机能够处理和存储文本。...因此,无论是在学术研究还是实际工作中,理解和应用Unicode编码都是现代信息技术领域不可或缺的一部分。

    汉字笔画笔顺Unicode和GB码数据库(20902汉字).rar

    本资源“汉字笔画笔顺Unicode和GB码数据库(20902汉字).rar”提供了关于汉字笔画笔顺以及Unicode和GB编码的数据,对于研究汉字信息处理和中文编程有着重要的参考价值。 首先,我们来了解一下汉字的笔画和笔顺。汉字...

    GB18030编码研究以及GBK,GB2312,GB18030与Unicode的映射,乱码解决

    ### GB18030编码研究以及GBK,GB2312,GB18030与Unicode的映射,乱码解决 #### 1. GBK与GB2312的关系 - **GB2312**:该标准包含了682个图形符号,并将它们放置在1区。它是中国大陆最早制定的汉字编码标准之一,主要...

    Unicode转换工具实现文字转换Unicode码

    Unicode转换工具是一种实用的软件或在线服务,它能够帮助用户将文字内容转化为Unicode编码,同时也能将Unicode编码还原为可读的文字。Unicode是一种国际标准,旨在统一世界上各种语言的文字编码,确保不同语言的文字...

    汉字unicode码.txt

    通过对汉字Unicode编码的深入研究,我们不仅了解了这一编码方式的基本概念和原理,还掌握了如何查询和理解汉字的Unicode编码。这对于从事自然语言处理、编程开发以及相关领域的专业人士来说,是非常有用的知识点。...

Global site tag (gtag.js) - Google Analytics