Java中的字符集编码入门——Java中的增补字符

bjzhkuang

浏览: 176333 次
性别:
来自: 北京

最近访客更多访客>>

尼欧-张

fendo

ms143014

haining128

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

字符集

java 字符集

Java号称对Unicode提供天然的支持，这话在很久很久以前就已经是假的了（不过曾经是真的），实际上，到JDK5.0为止，Java才算刚刚跟上Unicode的脚步，开始提供对增补字符的支持。
现在的Unicode码空间为U+0000到U+10FFFF，一共1114112个码位，其中只有1,112,064 个码位是合法的（我来替你做算术，有2048个码位不合法），但并不是说现在的Unicode就有这么多个字符了，实际上其中很多码位还是空闲的，到Unicode 4.0 规范为止，只有96,382个码位被分配了字符（但无论如何，仍比很多人认为的65536个字符要多得多了）。其中U+0000 到U+FFFF的部分被称为基本多语言面（Basic Multilingual Plane，BMP）。U+10000及以上的字符称为补充字符。在Java中（Java1.5之后），补充字符使用两个char型变量来表示，这两个char型变量就组成了所谓的surrogate pair（在底层实际上是使用一个int进行表示的）。第一个char型变量的范围称为“高代理部分”（high-surrogates range,从"uD800到"uDBFF，共1024个码位）, 第二个char型变量的范围称为low-surrogates range（从"uDC00到"uDFFF，共1024个码位），这样使用surrogate pair可以表示的字符数一共是1024的平方计1048576个，加上BMP的65536个码位，去掉2048个非法的码位，正好是1,112,064个码位。

关于Unicode的码空间实际上有一些稍不小心就会让人犯错的地方。比如我们都知道从U+0000到U+FFFF的部分被称为基本多语言面（Basic Multilingual Plane，BMP），这个范围内的字符在使用UTF-16编码时，只需要一个char型变量就可以保存。仔细看看这个范围，应该有65536这么大，因此你会说单字节的UTF-16编码能够表示65536个字符，你也会说Unicode的基本多语言面包含65536个字符，但是再想想刚才说过的surrogate pair，一个UTF-16表示的增补字符（再一次的，需要两个char型变量才能表示的字符）怎样才能被正确的识别为增补字符，而不是两个普通的字符呢？答案你也知道，就是通过看它的第一个char是不是在高代理范围内，第二个char是不是在低代理范围内来决定，这也意味着，高代理和低代理所占的共2048个码位（从0xD800到0xDFFF）是不能分配给其他字符的。
但这是对UTF-16这种编码方法而言，而对Unicode这样的字符集呢？在Unicode的编号中，U+D800到U+DFFF是否有字符分配？答案是也没有！这是典型的字符集为方便编码方法而做的安排（你问他们这么做的目的？当然是希望基本多语言面中的字符和一个char型的UTF-16编码的字符能够一一对应，少些麻烦，从中我们也能看出UTF-16与Unicode间很深的渊源与结合）。也就是说，无论Unicode还是UTF-16编码后的字符，在0x0000至0xFFFF这个范围内，只有63488个字符。这就好比最初的CPU被勉强拿来做多媒体应用，用得多了，CPU就不得不修正自己从硬件上对多媒体应用提供支持了。

尽管不情愿，但说到这里总还得扯扯相关的概念：代码点和代码单元。
代码点（Code Point）就是指Unicode中为字符分配的编号，一个字符只占一个代码点，例如我们说到字符“汉”，它的代码点是U+6C49。
代码单元（Code Unit）则是针对编码方法而言，它指的是编码方法中对一个字符编码以后所占的最小存储单元。例如UTF-8中，代码单元是一个字节，因为一个字符可以被编码为1个，2个或者3个4个字节；在UTF-16中，代码单元变成了两个字节（就是一个char），因为一个字符可以被编码为1个或2个char（你找不到比一个char还小的UTF-16编码的字符，嘿嘿）。说得再罗嗦一点，一个字符，仅仅对应一个代码点，但却可能有多个代码单元（即可能被编码为2个char）。
以上概念绝非学术化的绕口令，这意味着当你想以一种统一的方式指定自己使用什么字符的时候，使用代码点（即你告诉你的程序，你要用Unicode中的第几个字符）总是比使用代码单元更好（因为这样做的话你还得区分情况，有时候提供一个16进制数字，有时候要提供两个）。
例如我们有一个增补字符？？？（哈哈，你看到了三个问号对吧？因为我的系统显示不出这个字符），它在Unicode中的编号是U+2F81A，当在程序中需要使用这个字符的时候，就可以这样来写：

String s=String.valueOf(Character.toChars(0x2F81A));
char[]chars=s.toCharArray();
for(char c:chars){
System.out.format("%x",(short)c);
}

后面的for循环把这个字符的UTF-16编码打印了出来，结果是
d87edc1a
注意到了吗？这个字符变成了两个char型变量，其中0xd87e就是高代理部分的值，0xdc1a就是低代理的值。

分享到：

【转】SVM入门（一）至（三）Refresh | Java中的字符集编码入门——Java代码中的字 ...

2013-07-07 16:49
浏览 987
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

FLAC3D隧道台阶法施工模拟：命令操作与支护结构一体化构建: 内容概要：本文详细介绍了利用FLAC3D进行隧道台阶法施工模拟的方法和技术细节。首先解释了隧道台阶法施工的基本流程，重点在于开挖命令的应用，如'zone cmodel assign'和'zone remove'用于改变区域本构模型并执行开挖操作。接着阐述了支护结构的设置方法，包括超前加固体、初衬、二衬、锚杆和锁脚锚杆的具体配置方式。此外，还讲解了如何通过'mesh'命令直接在FLAC3D中生成符合实际工程需求的网格模型。最后展示了模拟后的围岩体位移云图和应力云图，验证了计算结果的有效性，强调了这些数据对优化施工方案的重要性。适合人群：从事岩土工程、隧道工程及相关领域的工程师和技术人员。使用场景及目标：适用于需要进行隧道施工模拟的专业人士，旨在提升他们对FLAC3D的理解和应用能力，确保隧道施工的安全性和高效性。其他说明：文中提供的实例和命令操作均基于真实项目经验，有助于读者更好地理解和掌握FLAC3D的实际应用技巧。

纤维骨料细观尺度混凝土模型：基于多有限元软件的网格划分与应用: 内容概要：本文介绍了纤维骨料细观尺度混凝土模型的设计与应用，重点在于如何通过控制骨料尺寸和体积率，在不同有限元软件（如Abaqus、Ansys、Ls-Dyna、Flac3d）中进行有效的四面体网格划分和六面体网格投影。文中提供了生成随机骨料位置和直径的Python代码片段，并详细解释了网格划分过程中需要注意的技术细节，如碰撞检测、网格转换公式以及材料属性设置。此外，还讨论了模型验证的方法及其在实际工程项目中的应用价值。适合人群：从事土木工程、材料科学领域的研究人员和技术人员，尤其是那些需要利用有限元方法进行混凝土结构分析的专业人士。使用场景及目标：①帮助工程师更好地理解和预测纤维混凝土的行为特性；②为实际工程项目提供理论支持和技术指导，从而优化纤维混凝土的应用；③提高仿真精度，减少实验成本和时间。其他说明：文中提到的一些具体操作步骤和技术细节对于初学者来说可能具有一定挑战性，建议读者在实践中逐步掌握相关技能并积累经验。同时，正确设置物理量单位非常重要，错误的单位可能导致计算结果严重偏离预期。

嵌入式八股文面试题库资料知识宝典-c++个人笔记总结.zip: 嵌入式八股文面试题库资料知识宝典-c++个人笔记总结.zip

工业自动化领域西门子S7-1200 PLC模块、板卡及多协议通讯详解: 内容概要：本文详细介绍了西门子S7-1200 PLC在工业自动化领域的应用，重点讲解了其模块、板卡和通讯方式。首先概述了PLC模块和板卡作为基本单元的作用，接着深入探讨了支持的多种通讯协议，包括Modbus-RTU、S7通讯、Modbus-TCP和TCP/IP等。每种协议都配有具体的代码分析和调试方法。最后，介绍了博途V16编程软件的使用体验，强调了其对S7-1200 PLC编程的支持。适合人群：从事工业自动化领域的工程师和技术人员，尤其是对西门子S7-1200 PLC有初步了解或希望深入了解的人群。使用场景及目标：适用于需要掌握PLC模块化设计、不同通讯协议的应用场景，旨在帮助读者理解PLC的工作原理，提高编程和调试能力，从而更好地应用于实际项目中。其他说明：文中提供的实例和代码分析有助于读者快速上手，同时推荐使用博途V16及以上版本的编程软件进行实践操作。

Comsol仿真无模型等离子体空气反应框架：多气体反应及关键参数求解: 内容概要：本文介绍了Comsol仿真软件在等离子体空气反应领域的应用，重点探讨了其无模型反应框架的功能。该框架能模拟超过40种气体（如氧气、氮气、氦气）的详细反应过程，提供碰撞截面数据、迁移率扩散系数、速率系数和汤森系数的查询与求解功能，并通过bosig+模块实现自定义反应路径的选择。此外，文中强调了代码分析与实践应用的重要性，以及这些功能如何提升等离子体反应研究的效率和准确性。适合人群：从事等离子体物理、化学反应动力学及相关领域研究的专业人士和技术人员。使用场景及目标：适用于需要精确模拟复杂等离子体环境中气体反应的研究项目，旨在提高对等离子体反应机制的理解，优化实验设计，预测反应行为。其他说明：Comsol仿真软件凭借其强大的计算能力，在等离子体研究中扮演着重要角色。随着技术的发展，该框架有望进一步推动相关领域的创新和发展。

嵌入式八股文面试题库资料知识宝典-同方万维硬件测试工程师.zip: 嵌入式八股文面试题库资料知识宝典-同方万维硬件测试工程师.zip

嵌入式八股文面试题库资料知识宝典-c,c++笔试.zip: 嵌入式八股文面试题库资料知识宝典-c,c++笔试.zip

少儿编程scratch项目源代码文件案例素材-激光连接.zip: 少儿编程scratch项目源代码文件案例素材-激光连接.zip

嵌入式八股文面试题库资料知识宝典-奔图电子-软件笔试试题v1.1(C,C++工程师).zip: 嵌入式八股文面试题库资料知识宝典-奔图电子-软件笔试试题v1.1(C,C++工程师).zip

嵌入式八股文面试题库资料知识宝典-国科环宇有限公司.zip: 嵌入式八股文面试题库资料知识宝典-国科环宇有限公司.zip

基于LDA主题模型对AIGC的影响力分析.pdf: 基于LDA主题模型对AIGC的影响力分析.pdf

HG2543C1EPON天翼网关(4口单频)rootfsA: 可以自己添加应用和功能版，在/opt/upt/apps/下面添加ubin目录和ulib目录，把你想用的程序添加到ubin,支持模块添加到ulib中，就可以运行，具体刷机操作，请看《》

遗传算法在冷链物流与多配送中心VRP车辆路径优化中的应用及改进: 内容概要：本文探讨了遗传算法在车辆路径优化问题（VRP）中的应用及其改进，特别是在冷链物流、软时间窗和多配送中心场景下的路径优化策略。文中介绍了遗传算法通过模拟自然界进化过程来寻找最优路径解决方案的能力，并详细讨论了其在冷链物流中的重要性，即确保产品运输过程中的温度稳定和时效性。此外，还提到了软时间窗概念的应用，以平衡客户满意度和运输成本。在多配送中心场景下，遗传算法能有效处理复杂路径规划问题，如外卖配送路径优化和充电桩电车车辆路径优化。除了遗传算法，蚁群算法、模拟退火算法和粒子群算法也在不同类型的路径优化问题上得到广泛应用，如旅行商问题（TSP）、容量约束的车辆路径规划（CVRP）和带距离、容量和时间窗约束的车辆路径规划（VRPTW）。最后，文章强调了遗传算法改进的研究方向，旨在提高运算速度和精度，从而提升物流效率和客户满意度。适合人群：从事物流与运输领域的研究人员和技术人员，对车辆路径优化感兴趣的学者和从业者。使用场景及目标：适用于冷链物流、外卖配送、充电桩电车等多种实际应用场景，旨在优化路径规划，降低运输成本，提高客户满意度。其他说明：本文不仅介绍了现有算法的应用情况，还指出了未来可能的研究方向和发展趋势。

物流车辆路径优化研究：基于MATLAB的VRP、VRPTW及冷链物流与充电桩优化算法: 内容概要：本文详细介绍了物流领域的车辆路径优化（VRP）及其扩展问题——带时间窗的车辆路径优化（VRPTW），并探讨了冷链物流车辆路径优化（考虑充电桩需求）。文中通过MATLAB实现了遗传算法解决这些问题的具体步骤，包括参数设置、种群初始化、适应度函数计算、遗传算法循环等。此外，还讨论了多配送中心场景下的路径优化挑战和其他优化算法（如蚁群算法、粒子群算法、节约算法和模拟退火算法）的应用。最后，针对冷链物流和电动汽车路径优化提出了具体的解决方案和技术细节。适合人群：从事物流管理、运筹学、算法设计的研究人员和工程师，尤其是对MATLAB有一定基础的技术人员。使用场景及目标：适用于需要优化物流配送路径的企业和个人，旨在提高配送效率、降低成本、提升服务质量。具体应用场景包括但不限于城市配送、冷链运输、电动车辆调度等。其他说明：文中提供了完整的MATLAB代码示例，帮助读者更好地理解和实践各种优化算法。同时，强调了不同算法的特点和适用条件，便于读者根据实际情况选择最合适的算法。

嵌入式八股文面试题库资料知识宝典-文思创新面试题2.zip: 嵌入式八股文面试题库资料知识宝典-文思创新面试题2.zip

嵌入式八股文面试题库资料知识宝典-网络编程.zip: 嵌入式八股文面试题库资料知识宝典-网络编程.zip

少儿编程scratch项目源代码文件案例素材-火柴人防御.zip: 少儿编程scratch项目源代码文件案例素材-火柴人防御.zip

AI数字形象制作口播视频: AI数字形象制作口播视频

少儿编程scratch项目源代码文件案例素材-绝地武士冲刺.zip: 少儿编程scratch项目源代码文件案例素材-绝地武士冲刺.zip

基于多尺度特征提取与融合的单幅图像去雾算法.pdf: 基于多尺度特征提取与融合的单幅图像去雾算法.pdf

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论