深入剖析JSP和Servlet对中文的处理过程-2(转)

hwhhyh25

浏览: 39846 次
来自: ...

最近访客更多访客>>

hmilyld

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Java

JSP Servlet IE 浏览器

Class：输出字符串

上文说过，字符串在内存中表现为Unicode编码。至于这种Unicode编码表示了什么，那要看它是从哪种字符集映射过来的，也就是说要看它的祖先。这好比在托运行李时，外观都是纸箱子，里面装了什么就要看寄邮件的人实际邮了什么东西。

看看上面的例子，如果给一串Unicode编码“00D6 00D0 00CE 00C4”，如果不作转换，直接用Unicode码表来对照它时，是四个字符（而且是特殊字符）；假如把它与“ISO8859-1”进行映射，则直接去掉前面的“00”即可得到“D6 D0 CE C4”，这是ASCII码表中的四个字符；而假如把它当作GB2312来进行映射，得到的结果很可能是一大堆乱码，因为在GB2312中有可能没有（也有可能有）字符与00D6等字符对应（如果对应不上，将得到0x3f，也就是问号，如果对应上了，由于00D6等字符太靠前，估计也是一些特殊符号，真正的汉字在 Unicode中的编码从4E00开始）。

各位看到了，同样的Unicode字符，可以解释成不同的样子。当然，这其中有一种是我们期望的结果。以上例而论，“D6 D0 CE C4”应该是我们所想要的，当把“D6 D0 CE C4”输出到IE中时，用“简体中文00D6 00D0 00CE 00C4”本来就是由ISO8859-1转化过去的。”方式查看，就能看到清楚的“中文”两个字了。（当然了，如果你一定要用“西欧字符”来看，那也没办法，你将得不到任何有何时何地的东西）为什么呢？因为“

给出如下结论：

在Class输出字符串前，会将Unicode的字符串按照某一种内码重新生成字节流，然后把字节流输入，相当于进行了一步“String.getBytes(???)”操作。???代表某一种字符集。

如果是Servlet，那么，这种内码就是在HttpServletResponse.setContentType()方法中指定的内码，也就是上文定义的<Servlet-charset。>

如果是JSP，那么，这种内码就是在<%@ page contentType=""%>中指定的内码，也就是上文定义的<Jsp-charset。>

如果是Java程序，那么，这种内码就是file.encoding中指定的内码，默认为ISO8859-1。

当输出对象是浏览器时

以流行的浏览器IE为例。IE支持多种内码。假如IE接收到了一个字节流“D6 D0 CE C4”，你可以尝试用各种内码去查看。你会发现用“简体中文”时能得到正确的结果。因为“D6 D0 CE C4”本来就是简体中文中“中文”两个字的编码。

OK，完整地看一遍。

JSP：源文件为GB2312格式的文本文件，且JSP源文件中有“中文”这两个汉字

如果指定了<Jsp-charset为GB2312，转化过程如下表。>

表4　Jsp-charset = GB2312时的变化过程

序号	步骤说明	结果
1	编写JSP源文件，且存为GB2312格式	D6 D0 CE C4 （D6D0=中 CEC4=文）
2	jspc把JSP源文件转化为临时JAVA文件，并把字符串按照GB2312映射到Unicode，并用UTF格式写入JAVA文件中	E4 B8 AD E6 96 87
3	把临时JAVA文件编译成CLASS文件	E4 B8 AD E6 96 87
4	运行时，先从CLASS文件中用readUTF读出字符串，在内存中的是Unicode编码	4E 2D 65 87（在Unicode中4E2D=中 6587=文）
5	根据Jsp-charset=GB2312把Unicode转化为字节流	D6 D0 CE C4
6	把字节流输出到IE中，并设置IE的编码为GB2312（作者按：这个信息隐藏在HTTP头中）	D6 D0 CE C4
7	IE用“简体中文”查看结果	“中文”（正确显示）

如果指定了<Jsp-charset为ISO8859-1，转化过程如下表。>

表5　Jsp-charset = ISO8859-1时的变化过程

序号	步骤说明	结果
1	编写JSP源文件，且存为GB2312格式	D6 D0 CE C4 （D6D0=中 CEC4=文）
2	jspc把JSP源文件转化为临时JAVA文件，并把字符串按照ISO8859-1映射到Unicode，并用UTF格式写入JAVA文件中	C3 96 C3 90 C3 8E C3 84
3	把临时JAVA文件编译成CLASS文件	C3 96 C3 90 C3 8E C3 84
4	运行时，先从CLASS文件中用readUTF读出字符串，在内存中的是Unicode编码	00 D6 00 D0 00 CE 00 C4 （啥都不是！！！）
5	根据Jsp-charset=ISO8859-1把Unicode转化为字节流	D6 D0 CE C4
6	把字节流输出到IE中，并设置IE的编码为ISO8859-1（作者按：这个信息隐藏在HTTP头中）	D6 D0 CE C4
7	IE用“西欧字符”查看结果	乱码，其实是四个ASCII字符，但由于大于128，所以显示出来的怪模怪样
8	改变IE的页面编码为“简体中文”	“中文”（正确显示）

奇怪了！为什么把<Jsp-charset设成GB2312和ISO8859-1是一个样的，都能正确显示？因为表4表5中的第2步和第5步互逆，是相互“抵消”的。只不过当指定为ISO8859-1时，要增加第8步操作，殊为不便。>

再看看不指定<Jsp-charset> 时的情况。

表6　未指定Jsp-charset 时的变化过程

序号	步骤说明	结果
1	编写JSP源文件，且存为GB2312格式	D6 D0 CE C4 （D6D0=中 CEC4=文）
2	jspc把JSP源文件转化为临时JAVA文件，并把字符串按照ISO8859-1映射到Unicode，并用UTF格式写入JAVA文件中	C3 96 C3 90 C3 8E C3 84
3	把临时JAVA文件编译成CLASS文件	C3 96 C3 90 C3 8E C3 84
4	运行时，先从CLASS文件中用readUTF读出字符串，在内存中的是Unicode编码	00 D6 00 D0 00 CE 00 C4 （啥都不是！！！）
5	根据Jsp-charset=ISO8859-1把Unicode转化为字节流	D6 D0 CE C4
6	把字节流输出到IE中	D6 D0 CE C4
7	IE用发出请求时的页面的编码查看结果	视情况而定。如果是简体中文，则能正确显示，否则，需执行表5中的第8步

Servlet：源文件为JAVA文件，格式是GB2312，源文件中含有“中文”这两个汉字

如果<Compile-charset>＝GB2312，<Servlet-charset>=GB2312

表7　Compile-charset=Servlet-charset=GB2312 时的变化过程

序号	步骤说明	结果
1	编写Servlet源文件，且存为GB2312格式	D6 D0 CE C4 （D6D0=中 CEC4=文）
2	用javac –encoding GB2312把JAVA源文件编译成CLASS文件	E4 B8 AD E6 96 87　（UTF）
3	运行时，先从CLASS文件中用readUTF读出字符串，在内存中的是Unicode编码	4E 2D 65 87 (Unicode)
4	根据Servlet-charset=GB2312把Unicode转化为字节流	D6 D0 CE C4 (GB2312)
5	把字节流输出到IE中并设置IE的编码属性为Servlet-charset=GB2312	D6 D0 CE C4 (GB2312)
6	IE用“简体中文”查看结果	“中文”（正确显示）

如果<Compile-charset>＝ISO8859-1，<Servlet-charset>=ISO8859-1

表8　Compile-charset=Servlet-charset=ISO8859-1时的变化过程

序号	步骤说明	结果
1	编写Servlet源文件，且存为GB2312格式	D6 D0 CE C4 （D6D0=中 CEC4=文）
2	用javac –encoding ISO8859-1把JAVA源文件编译成CLASS文件	C3 96 C3 90 C3 8E C3 84　（UTF）
3	运行时，先从CLASS文件中用readUTF读出字符串，在内存中的是Unicode编码	00 D6 00 D0 00 CE 00 C4 (啥都不是!!!)
4	根据Servlet-charset=ISO8859-1把Unicode转化为字节流	D6 D0 CE C4
5	把字节流输出到IE中并设置IE的编码属性为Servlet-charset=ISO8859-1	D6 D0 CE C4 (GB2312)
6	IE用“西欧字符”查看结果	乱码（原因同表5）
7	改变IE的页面编码为“简体中文”	“中文”（正确显示）

如果不指定Compile-charset或Servlet-charset，其默认值均为ISO8859-1。

当Compile-charset=Servlet-charset时，第2步和第4步能互逆，“抵消”，显示结果均能正确。读者可试着写一下Compile-charset<>Servlet-charset时的情况，肯定是不正确的。

分享到：

深入剖析JSP和Servlet对中文的处理过程-3 ... | 深入剖析JSP和Servlet对中文的处理过程-1 ...

2008-01-18 15:36
浏览 849
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

铅笔头识别数据集，1692张原始训练图，640*640分辨率，91.1%的正确识别率，标注支持coco json格式: 铅笔头识别数据集，1692张原始训练图，640*640分辨率，91.1%的正确识别率，标注支持coco json格式

高校网络教学的体系规划与创建.docx: 高校网络教学的体系规划与创建.docx

SpringBoot的学生心理咨询评估系统，你看这篇就够了(附源码): SpringBoot的学生心理咨询评估系统，你看这篇就够了(附源码)

遗传算法优化BP神经网络提升交通流量预测精度的技术实现与应用: 内容概要：本文详细介绍了如何使用遗传算法优化BP神经网络，以提高交通流量预测的准确性。文中首先解释了BP神经网络的基本结构及其局限性，即容易陷入局部最优解的问题。随后，作者展示了遗传算法的工作原理，并将其应用于优化BP神经网络的权重和偏置。通过定义适应度函数、选择、交叉和变异等步骤，实现了对BP神经网络的有效改进。实验结果显示，优化后的BP神经网络在交通流量预测中的精度显著高于传统的BP神经网络，特别是在处理复杂的非线性问题时表现出色。适用人群：对机器学习、深度学习以及交通流量预测感兴趣的科研人员和技术开发者。使用场景及目标：适用于需要进行精确交通流量预测的应用场景，如智能交通系统、城市规划等领域。主要目标是通过遗传算法优化BP神经网络，解决其易陷入局部最优的问题，从而提高预测精度和稳定性。其他说明：文中提供了详细的Python代码实现，帮助读者更好地理解和实践这一优化方法。同时，强调了遗传算法在全局搜索方面的优势，以及其与BP神经网络结合所带来的性能提升。此外，还讨论了一些具体的实施技巧，如适应度函数的设计、交叉和变异操作的选择等。标签1,标签2,标签3,标签4,标签5

H5U PLC与触摸屏集成框架：总线伺服控制及跨平台移植的最佳实践: 内容概要：本文详细介绍了H5U框架在PLC与触摸屏集成方面的应用，特别是在总线伺服控制和跨平台移植方面。文章首先解析了伺服控制的核心代码，如使能模块和绝对定位指令，强调了标准化控制流程的优势。接着讨论了触摸屏交互，通过直接映射PLC的DB块地址简化了数据处理。然后介绍了总线配置，尤其是EtherCAT总线初始化及其容错设计。此外，文章还探讨了框架的移植性和报警处理设计，展示了其在不同PLC品牌间的易用性和高效的故障恢复能力。适合人群：从事工业自动化领域的工程师和技术人员，特别是有PLC编程经验和需要进行伺服控制系统开发的人群。使用场景及目标：①快速搭建和调试基于PLC和触摸屏的自动化控制系统；②提高多轴设备的调试效率；③实现跨平台的无缝移植；④优化报警管理和故障恢复机制。其他说明：该框架不仅提供了详细的代码示例和注释，还包含了丰富的实战经验和最佳实践，使得新手能够快速上手，而资深工程师可以在此基础上进一步创新。

游戏开发UE5引擎核心技术解析与应用：涵盖安装配置、项目创建及蓝图编辑器详解文档的主要内容: 内容概要：本文档《UE5开发.txt》全面介绍了Unreal Engine 5（UE5）的基本概念、安装配置、项目创建、文件结构及常用功能。UE5是一款强大的游戏引擎，支持实时渲染、蓝图创作、C++编程等功能。文档详细描述了UE5的安装步骤，包括硬件要求和环境配置；项目创建过程，涵盖项目模板选择、质量预设、光线追踪等设置；文件结构解析，重点介绍了Config、Content和.uproject文件的重要性。此外，文档深入讲解了蓝图编辑器的使用，包括变量、数组、集合、字典等数据类型的操作，以及事件、函数、宏和事件分发器的应用。蓝图作为一种可视化脚本工具，使开发者无需编写C++代码即可快速创建逻辑，适用于快速开发和迭代。适合人群：具备一定编程基础的游戏开发者、设计师和对游戏开发感兴趣的初学者，尤其是希望深入了解UE5引擎及其蓝图系

餐馆点菜系统概要设计说明书.doc: 餐馆点菜系统概要设计说明书.doc

5+1档轿车手动变速箱设计说明书.doc: 5+1档轿车手动变速箱设计说明书.doc

1万吨自来水厂详细设计说明书.doc: 1万吨自来水厂详细设计说明书.doc

wordpress外贸电商企业产品主题: wordpress外贸电商企业产品主题页面展示图https://i-blink.csdnimg.cn/direct/e45b2e2e8e27423eb79bda5f4c1216d7.png

低效林改造作业设计说明书.doc: 低效林改造作业设计说明书.doc

西门子200smart编程软件V2.8.2.1: 西门子200smart编程软件V2.8.2.1

135调速器操纵手柄设计说明书.doc: 135调速器操纵手柄设计说明书.doc

蓝桥杯全国软件和信息技术专业人才竞赛指导文档.pdf: 内容概要：本文档为蓝桥杯全国软件和信息技术专业人才竞赛提供了全面的指导，涵盖竞赛概述、流程与规则、核心考点与备赛策略、实战技巧与避坑指南以及备赛资源推荐。蓝桥杯竞赛由工信部人才交流中心主办，涉及算法设计、软件开发、嵌入式系统、电子设计等领域。文档详细介绍了参赛流程（报名、省赛、国赛、国际赛），并针对软件类和电子类竞赛分别阐述了高频考点和备赛建议。对于软件类，强调了算法与数据结构的重要性，如排序、动态规划、图论等；对于电子类，则侧重于硬件基础和开发工具的使用。此外，还提供了详细的答题策略、常见陷阱规避方法及工具调试技巧。; 适合人群：高校本专科生、研究生，尤其是对算法设计、软件开发、嵌入式系统等领域感兴趣的计算机科学及相关专业的学生。; 使用场景及目标：①帮助参赛选手熟悉竞赛流程和规则，明确各阶段任务；②提供系统的备赛策略，包括高频考点的学习和专项突破；③指导选手掌握实战技巧，避免常见错误，提高答题效率和准确性。; 阅读建议：此文档不仅提供了理论知识，还包含了大量实战经验和备赛资源推荐，建议读者结合自身情况制定个性化的备赛计划，充分利用提供的资源进行练习和准备。

基于行块抽取正文内容的java版本的改进算法.zip: 基于行块抽取正文内容的java版本的改进算法.zip

基于S7-200 PLC和MCGS的快递分拣系统设计与实现：硬件配置、梯形图编程及组态应用: 内容概要：本文详细介绍了基于西门子S7-200 PLC和MCGS组态软件的快递分拣系统的设计与实现方法。首先阐述了硬件配置的关键要点，包括IO分配表的具体设置以及传感器和执行机构的连接方式。接着深入解析了PLC程序中的梯形图逻辑，涵盖主传送带的连锁保护、机械臂动作的自保持逻辑和安全复位机制等核心部分。同时探讨了MCGS组态画面的应用，展示了如何通过脚本实现动态效果和数据统计功能。此外，文中还分享了一些调试经验和常见问题的解决方案，如防止传感器抖动、优化数据传输效率等。适合人群：从事工业自动化领域的工程师和技术人员，尤其是对PLC编程和组态软件有一定了解的人群。使用场景及目标：适用于需要构建高效可靠的快递分拣系统的物流企业或相关项目开发者。目标是帮助读者掌握从硬件选型到软件编程的一整套实施流程，确保系统能够稳定运行并达到预期性能指标。其他说明：文章不仅提供了理论指导，还结合实际案例进行了详细的步骤讲解，有助于读者更好地理解和应用于实践中。

joblib-0.12.5-py2.py3-none-any.whl: 该资源为joblib-0.12.5-py2.py3-none-any.whl，欢迎下载使用哦！

机器学习分类算法实战：基于sklearn的决策树、随机森林与KNN Python实现: 内容概要：本文详细介绍了三种经典的机器学习分类算法——决策树、随机森林和KNN分类器，在Python的sklearn库中的具体实现方法。首先，通过加载鸢尾花数据集进行数据准备，并将其划分为训练集和测试集。接着分别实现了决策树、随机森林和KNN分类器，展示了每种算法的关键参数配置及其对模型性能的影响。对于决策树，重点讨论了max_depth参数的作用以及如何通过可视化工具理解其分裂过程；随机森林部分强调了n_estimators参数的选择和特征重要性的评估；而KNN分类器则着重于特征标准化的重要性和n_neighbors参数的优化。此外，文中还提供了关于模型选择的指导，帮助读者根据不同应用场景选择合适的算法。适合人群：对机器学习感兴趣的初学者和有一定编程基础的研发人员。使用场景及目标：①理解并掌握决策树、随机森林和KNN分类器的工作原理；②学会使用sklearn库快速构建和评估分类模型；③能够根据具体问题特点选择最适合的分类算法。其他说明：本文不仅提供了详细的代码示例，还分享了许多实践经验，如参数调优技巧、模型评估方法等，有助于读者更好地理解和应用这些算法。

带式输送机传动装置设计课程设计说明书.doc: 带式输送机传动装置设计课程设计说明书.doc

gh毕业论文伦潭水利枢纽工程土石坝设计说明书.doc: gh毕业论文伦潭水利枢纽工程土石坝设计说明书.doc

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论