nutch-乱码解决

deepfuture

浏览: 4400703 次
性别:
来自: 湛江

最近访客更多访客>>

linxl2011

mars36

jccz_zys

zkm0309

博主相关

博客

微博

相册

留言

关于我

博客专栏

: SQLite源码剖析
浏览量：80078

: WIN32汇编语言学习应用...
浏览量：70058

: 神奇的perl
浏览量：103363

: lucene等搜索引擎解析...
浏览量：285833

: 深入lucene3.5源码...
浏览量：15015

: VB.NET并行与分布式编...
浏览量：67578

: silverlight 5...
浏览量：32155

: 算法下午茶系列
浏览量：45993

文章分类

社区版块

存档分类

博客分类：

搜索引擎

Bean Tomcat JSP CentOS Windows

在Nutch的搜索框中输入中文，点击“搜索”按钮之后，可以看到搜索框中的关键字是乱码，搜索结果也为空。网上有很多文章都谈到了这个现象，这不是Nutch的问题，而是Tomcat没有对uri做编码造成的。解决的办法也很简单，在Tomcat的安装目录下找到”conf/server.xml”文件，在"Connector port=”8080″ ”那一节添加URIEncoding="UTF-8" useBodyEncodingForURI="true"可以了。完整的配置可能是下面这个样子：

<Connector port="8080" protocol="HTTP/1.1"

connectionTimeout="20000"

redirectPort="8443"

URIEncoding="UTF-8"

useBodyEncodingForURI="true"/>

修改这个文件时要特别注意，把代码复制过去后，因为字符集的问题，可能要把空格和"重新输入，否则会造成tomcat无法启动

解决方法：修改cached.jsp

+++ cached.jsp.patched 2009-02-18 12:43:26.000000000 -0500
@@ -40,6 +40,7 @@
.getLocale().getLanguage();

Metadata metaData = bean.getParseData(details).getContentMeta();
+ Metadata parseMetaData = bean.getParseData(details).getParseMeta();

String content = null;
String contentType = (String) metaData.get(Metadata.CONTENT_TYPE);
@@ -49,7 +50,7 @@
// but I don't know how to emit 'byte sequence' in JSP.
// out.getOutputStream().write(bean.getContent(details)) may work,
// but I'm not sure.
- String encoding = (String) metaData.get("CharEncodingForConversion");
+ String encoding = (String) parseMetaData.get("CharEncodingForConversion");
if (encoding != null) {
try {
content = new String(bean.getContent(details), encoding);

Debug过程：

在Tomcat下查看Nutch抓取的页面的缓存时，发现非英语系的页面缓存显示为乱码，例如中文gb2312编码的网页

1. 首先先想dump一下segment看看是否保存了正确的raw data。

在CentOS 5.2下dump segment (bin/nutch readseg -dump crawl/segments/2009* outputdir)的时候，发现如果是缺省的locale(en_US.UTF-8)，则dump的结果Content域显示乱码；如果locale是zh_CN，则dump的结果Content域显示正常，这说明segment保存了正确的raw data。

2. 查看某dump的结果片断

Parse Metadata: CharEncodingForConversion=GB2312 OriginalCharEncoding=GB2312

发现CharEncodingForConversion=GB2312 OriginalCharEncoding=GB2312都已正确设置

3. 查看cached.jsp的源代码

Metadata metaData = bean.getParseData(details).getContentMeta();

String content = null;
String contentType = (String) metaData.get(Metadata.CONTENT_TYPE);
if (contentType.startsWith("text/html")) {
// FIXME : it's better to emit the original 'byte' sequence
// with 'charset' set to the value of 'CharEncoding',
// but I don't know how to emit 'byte sequence' in JSP.
// out.getOutputStream().write(bean.getContent(details)) may work,
// but I'm not sure.
String encoding = (String) metaData.get("CharEncodingForConversion");
if (encoding != null) {
try {
content = new String(bean.getContent(details), encoding);
}
catch (UnsupportedEncodingException e) {
// fallback to windows-1252
content = new String(bean.getContent(details), "windows-1252");
}
}
else
content = new String(bean.getContent(details));
}发现其去Content Metadata中找”CharEncodingForConversion”，显然找不到，于是作了最上面（解决办法之中）的修改，使之去Parse Metadata中读取”CharEncodingForConversion”，然后解码，这时候发现缓存页面显示正确了，乱码消失了

1
顶

0
踩

分享到：

ubuntu下nutch-1.0的安装和配置错误排除 | nutch-JE分词

2009-12-23 19:50
浏览 2373
评论(1)
分类:编程语言
查看更多

1 楼 damoo 2010-09-09

按你的做法，解决问题了。多谢了。

发表评论

您还没有登录,请您登录后再发表评论