【tomcat+nutch+jdk】“中文乱码”的原理和解决方法

carus

浏览: 30900 次
性别:
来自: 北京

最近访客更多访客>>

予亦亦

xylinmy

xinbindanzi

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

nutch

java tomcat

【tomcat 乱码的解决】

在 Nutch 的搜索框中输入中文，点击“搜索”按钮之后，可以看到搜索框中的关键字是乱码，搜索结果也为空。网上有很多文章都谈到了这个现象，这不是 Nutch 的问题，而是 Tomcat 没有对 uri 做编码造成的。

【Java中文问题的由来】

　　Java 的内核和 class 文件是基于 unicode 的，这使 Java 程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。

原因主要有两方面：

------------------------------------------------------------------------------------------------------------------------------------

①Java 和 JSP文件本身编译时产生的乱码问题；

　　首先 Java（包括 JSP）源文件中很可能包含有中文，而 Java 和 JSP 源文件的保存方式是基于字节流的，如果 Java 和 JSP 编译成 class 文件过程中，使用的编码方式与源文件的编码不一致，就会出现乱码。基于这种乱码，建议在 Java 文件中尽量不要写中文（注释部分不参与编译，写中文没关系），如果必须写的话，尽量手动带参数 -ecoding GBK 或 -ecoding gb2312 编译；对于 JSP，在文件头加上<%@ page contentType="text/html;charset=GBK"%>或<%@ page contentType="text/html;charset=gb2312"%>基本上就能解决这类乱码问题。

------------------------------------------------------------------------------------------------------------------------------------

②Java程序于其他媒介交互产生的乱码问题。

　　本文要重点讨论的是第二类乱码，即 Java 程序与其他存储媒介交互时产生的乱码。

　　很多存储媒介，如数据库，文件，流等的存储方式都是基于字节流的，Java 程序与这些媒介交互时就会发生字符(char)与字节(byte)之间的转换，例如从页面提交表单中提交的数据在 Java 程序里显示乱码等情况。

　　如果在以上转换过程中使用的编码方式与字节原有的编码不一致，很可能就会出现乱码。

===================================================================================

【解决方法】

　　对于流行的 Tomcat 来说，有以下两种解决方法：

　　1) 更改 /tomcat/conf/server.xml，指定浏览器的编码格式为“简体中文”：

vi /qu6zhi/tomcat/conf/server.xml

在“Connector port=”8080″”那一节添加

在文件的最下面添加 URIEncoding="UTF-8" useBodyEncodingForURI="true" 即可。否则搜索栏输入的字符默认编码将不能正确解析。

　　可以这样验证你的更改是否成功：在更改前，在你出现乱码的页面的浏览器，点击菜单“查看｜编码”，会发现“西欧(ISO)”处于选中状态。而更改后，点击菜单“查看｜编码”，会发现“简体中文(GB2312)”处于选中状态。

------------------------------------------------------------------------------------------------------------------------------------

　　2)更改 Java 程序，我的程序是这样的：

public class ThreeParams extends HttpServlet {
public void doGet(HttpServletRequest request, HttpServletResponse response)
   throws ServletException, IOException {
      response.setContentType("text/html; charset=GBK");
      ...
}
}

　　粗体字是必需要有的，它的作用是让浏览器把Unicode字符转换为GBK字符。这样页面的内容和浏览器的显示模式都设成了GBK，就不会乱码了。

===================================================================================

【nutch 配置文件乱码的解决】

缓存乱码的解决：修改 search.jsp 中的代码行。
增加格式化搜索字符的函数，同时对 queryString 进行处理。

vi /qu6zhi/tomcat/webapps/search/search.jsp

将
String queryString = request.getParameter("query")
改成
String queryString = new String(request.getParameter("query").getBytes("ISO-8859-1"),"UTF-8");

注意:经过以上处理，部分 UTF-8 的页面依然会出现乱码。要想彻底解决，需要将 Content 内容先做判断，如果 Meta 标签中有 charset="utf-8"标志，则

Content =new String(bean.getContent(details),"utf-8");

经过以上处理，基本上不会有乱码的缓存页面存在。

参考：
http://www.williamlong.info/archives/469.html
http://jerry.bloghome.cn/posts/25151.html
http://blog.csdn.net/boybluesky/archive/2009/02/04/3861548.aspx
http://www.myispace.cn/clips/014a970d45714f259733570546ad2261.htm

分享到：

VS2008 快捷键大全[转帖] | Googler

2011-11-15 16:17
浏览 1256
评论(0)
分类:行业应用
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

实验报告(利用Nutch和IKanalyzer构造中文分词搜索引擎): 同时，针对中文乱码问题，分别在server.xml和cached.jsp中调整编码设置，确保中文能正确显示。接下来，注意到Nutch的默认分词器是以单字为基础，且未处理停用词。通过Luke工具查看索引文件，确认了这一现象。为了...

Linux下Nutch单机配置: ### Linux下Nutch单机配置...总之，在Linux环境下配置Nutch涉及到多个步骤，包括环境搭建、JDK和Apache Tomcat的安装与配置，以及Nutch本身的配置和应用。通过以上详细的步骤，可以顺利完成Nutch在Linux下的单机配置。

Nutch使用入门: 1. **中文乱码** - 如果搜索结果显示中文乱码，可能需要修改Tomcat的配置文件 `server.xml`，添加 `URIEncoding` 和 `useBodyEncodingForURI` 属性，设置为 `UTF-8`。 2. **网页快照乱码** - 对于网页快照的乱码问题...

Nutch全文搜索学习笔记: 为了处理中文乱码问题，需要在Tomcat的`server.xml`文件中配置`URIEncoding`属性： ```xml ``` #### 二、Nutch核心组件介绍 **1. Fetcher（网页抓取器）** Fetcher负责根据URL列表抓取网页内容，并更新抓取状态...

ABB常用机器人技术参数.pdf: ABB常用机器人技术参数.pdf

西门子1200 PLC FB284功能块实现多设备控制：V90伺服、相机角度调整及FANUC机器人DP通讯: 内容概要：本文详细介绍了如何利用西门子1200 PLC及其FB284功能块实现对3台V90伺服电机、相机角度调整以及FANUC机器人的控制。主要内容涵盖FB284功能块的基础参数设置、多台伺服电机的具体控制方法、相机角度调整的实现、DP通讯配置FANUC机器人控制，以及PLC程序注解和触摸屏程序的设计。通过具体代码示例和实际操作步骤，帮助读者理解和掌握这一系列控制技术。适合人群：具备一定PLC基础知识的工控初学者和技术人员。使用场景及目标：① 学习并掌握FB284功能块的使用方法；② 实现多台V90伺服电机的协同控制；③ 掌握相机角度调整的技术细节；④ 完成FANUC机器人通过DP通讯的控制配置；⑤ 提高PLC程序的可读性和易维护性。其他说明：文中提供了丰富的代码片段和配置示例，便于读者实践操作。此外，还分享了一些实际项目中的经验和技巧，有助于提高项目的稳定性和效率。

《计算机常用工具软件(第3版)》第6章--图形图像工具.ppt: 《计算机常用工具软件(第3版)》第6章--图形图像工具.ppt

未来产业全球未来产业新赛道布局与发展策略分析：涵盖人工智能、量子科技、氢能等关键技术领域: 内容概要：本文由《未来产业新赛道研究报告》整理而成，涵盖了未来产业在全球范围内的发展态势和竞争形势。报告指出，引领型国家通过全方位体制机制创新，在先进制造、人工智能、量子科技、新一代通信等领域建立了全面领先优势。文中引用了麦肯锡和GVR的数据，预测了人工智能和人形机器人等未来产业的巨大经济潜力。报告还详细介绍了国外和国内对未来产业赛道的重点布局，如量子科技、人工智能、先进网络和通信技术、氢能与储能、生物技术等。此外，报告列举了中国重点省市如北京、上海等的具体发展方向，以及知名研究机构对未来产业热点的分析。最后，报告提出了构建我国未来产业重点赛道目录的建议，包括通用人工智能、高级别自动驾驶、商业航天、人形机器人、新型储能、低空经济、清洁氢、算力芯片、细胞与基因治疗和元宇宙等十大重点赛道。适用人群：对科技趋势和未来产业发展感兴趣的政策制定者、投资者、企业家和研究人员。使用场景及目标：①帮助政策制定者了解全球未来产业发展动态，为政策制定提供参考；②为企业提供未来产业布局的方向和重点领域；③为投资者提供投资决策依据，识别未来的投资机会；④为研究人员提供未来科技发展趋势的全景图。其他说明：报告强调了未来产业在全球经济中的重要性，指出了中国在未来产业布局中的战略定位和发展路径。同时，报告呼吁加强国家顶层设计和行业系统谋划，探索建立未来产业技术预见机制，深化央地联动，推动未来产业高质量发展。

《网络设备安装与调试(神码版)》2交换机的配置.pptx: 《网络设备安装与调试(神码版)》2交换机的配置.pptx

自动驾驶路径规划:Lattice算法中的参考线、Frenet坐标系及多项式拟合的Matlab与C++实现: 内容概要：本文详细介绍了自动驾驶路径规划中Lattice算法的基础部分，主要包括三个关键概念和技术实现：参考线生成、Frenet坐标系转换和五次多项式拟合。首先解释了参考线的作用及其生成方法，如三次样条插值和平滑曲线生成。其次探讨了Frenet坐标系的优势，展示了如何将笛卡尔坐标系下的车辆位置投影到参考线上，从而简化路径规划问题。最后讨论了五次多项式的应用，强调其能够确保轨迹的光滑性和舒适性，并提供了详细的Matlab和C++代码实现。适合人群：对自动驾驶技术感兴趣的开发者、研究人员以及有一定编程基础并希望深入了解路径规划算法的人群。使用场景及目标：适用于研究和开发自动驾驶系统，特别是进行路径规划模块的设计与实现。主要目标是帮助读者掌握Lattice规划的基本原理和技术细节，以便应用于实际工程项目中。其他说明：文中不仅有理论讲解，还附带了大量的代码实例，便于读者理解和实践。此外，作者提醒了一些常见的陷阱和注意事项，如避免过拟合、选择合适的插值算法等。

《网络操作系统(Linux)》项目4-磁盘管理.pptx: 《网络操作系统(Linux)》项目4-磁盘管理.pptx

《计算机应用基础实训指导》实训十八-PowerPoint-2010的动画和切换.pptx: 《计算机应用基础实训指导》实训十八-PowerPoint-2010的动画和切换.pptx

安川机器人DX100使用说明书.1.pdf: 安川机器人DX100使用说明书.1.pdf

《计算机专业英语》Unit-3-What-is-Hardware.ppt: 《计算机专业英语》Unit-3-What-is-Hardware.ppt

汇川H5U-A16自动贴布网胶机的PLC与威纶通触摸屏集成及优化: 内容概要：本文详细介绍了汇川H5U-A16自动贴布网胶机的PLC控制系统及其与威纶通触摸屏的集成方法。主要内容涵盖伺服轴控制、气缸动作、矩阵托盘管理、OEE统计等方面的编程技巧和优化措施。文中展示了如何将复杂的硬件动作抽象为可复用的功能块（FB），并通过参数配置实现灵活的系统控制。此外，还讨论了如何利用威纶通触摸屏进行实时监控和数据分析，以及如何通过合理的IO表管理和注释提高系统的可维护性和扩展性。适合人群：从事工业自动化领域的工程师和技术人员，尤其是熟悉PLC编程和触摸屏应用的专业人士。使用场景及目标：适用于需要开发或优化自动贴布网胶机及其他类似自动化设备的企业。主要目标是提升设备的可靠性和效率，降低维护成本，缩短开发周期。其他说明：本文不仅提供了具体的编程示例，还分享了许多实战经验和技巧，如如何避免常见的错误和陷阱，如何应对特定硬件特性的挑战等。这些内容对于理解和掌握工业自动化系统的开发非常有价值。

电力系统暂态稳定性分析：基于Matlab/Simulink的故障仿真与优化: 内容概要：本文详细介绍了利用Matlab和Simulink进行电力系统暂态稳定性分析的方法和技术。首先构建了一个单机无穷大系统的仿真模型，涵盖了同步电机、无穷大电网、输电线路等基础模块的搭建。接着深入探讨了不同类型故障（如短路、断线）的配置方法及其对系统稳定性的影响。针对常见的暂态问题，提出了多种解决方案，包括并联补偿器的应用、自动重合闸的设计以及仿真加速技巧。同时，通过具体案例展示了如何调整关键参数来优化系统性能，确保暂态过程中系统的稳定性和可靠性。适合人群：从事电力系统研究与开发的技术人员，尤其是对电力系统暂态稳定性感兴趣的工程师和研究人员。使用场景及目标：适用于需要评估电力系统在突发故障情况下的稳定性的场合，帮助用户掌握故障仿真技术，优化系统设计，提高电力系统的可靠性和安全性。其他说明：文中提供的代码片段和仿真技巧均经过实际验证，能够显著提升仿真的效率和准确性。建议读者结合自己的项目需求灵活应用相关技术和方法。

FPGA电机控制：基于Verilog与Nios2的永磁同步电机SVPWM控制系统设计: 内容概要：本文详细介绍了利用FPGA实现永磁同步电机(SPM)的SVPWM控制系统的具体实现方法。系统采用Verilog进行底层硬件时序控制，包括SVPWM模块中的扇区判断、PWM生成以及死区时间控制等；Nios2软核处理器则用于执行控制算法，如磁场定向控制（FOC）、Clarke变换和PID调节器。两者通过Avalon总线连接，实现高效的软硬件协同工作。此外，文中还讨论了一些常见的调试技巧和优化方法，如定点数运算、硬件CRC校验模块的应用等。适合人群：具备一定FPGA开发经验和电机控制理论基础的技术人员，尤其是从事嵌入式系统开发、自动化控制领域的工程师。使用场景及目标：适用于需要高精度、高性能电机控制的应用场合，如工业自动化设备、机器人关节控制等。目标是通过软硬件协同设计提高系统的实时性和可靠性，降低电流谐波失真，增强抗干扰能力。其他说明：文中提供了完整的工程源码和技术细节，有助于读者深入理解和实践。同时，作者分享了许多实用的经验教训，帮助读者避开常见陷阱，提高开发效率。

《移动商务网页设计与制作》第11章--Web-Worker-处理线程.ppt: 《移动商务网页设计与制作》第11章--Web-Worker-处理线程.ppt

chromedriver-win64-135.0.7049.114.zip: chromedriver-win64-135.0.7049.114.zip

《计算机系统维护》第14章--硬盘分区的调整.ppt: 《计算机系统维护》第14章--硬盘分区的调整.ppt

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论