`

nutch 乱码 解决方案

阅读更多

nutch对中文的支持还不完善,需要修改tomcat 文件夹下
conf/server.xml文件
 [root@localhost tomcat]#vi conf/server.xml
    增加两句,修改为
<Connector port="8080"
    maxThreads="150" minSpareThreads="25"  maxSpareThreads="75"
    enableLookups="false"  redirectPort="8443"  acceptCount="100"
    connectionTimeout="20000"  disableUploadTimeout="true" 
    URIEncoding="UTF-8"  useBodyEncodingForURI="true" />

 

1.网页快照乱码问题

Nutch的网页快照是乱码,解决办法是修改tomcat/webapps/nutch目录下的cached.jsp文件,修改其中的第63行。

原来的代码是:content = new String(bean.getContent(details);

修改后的代码是:content = new String(bean.getContent(details),"gb2312");

2.搜索结果高亮显示

Nutch默认的搜索结果是没有高亮的,解决办法是在关键词中加入html颜色标签。

将 org.apache.nutch.searcher.Summary 第107行 代码 修改为:

public String toString() {
    StringBuffer buffer = new StringBuffer();
    for (int i = 0; i < fragments.size(); i++) {
      buffer.append(fragments.get(i));
    }
    return "<span style='color:red'>" + buffer.toString()+ "</span>";
}

3.抓取页面大小

Nutch默认只抓取一个页面的前65k的内容,在我抓取bbs的时候,会出现只能抓取前几个回帖的内容,所以想抓取整个页面的内容,就要解除65k的限制。解决方法是修改nutch/conf中的nutch-site.xml文件,在文件最后添加以下内容:

<property>
<name>http.content.limit</name>
<value>-1</value>
<description>The length limit for downloaded content, in bytes.
If this value is nonnegative (>=0), content longer than it will be truncated;
otherwise, no truncation at all.
</description>
</property>

分享到:
评论

相关推荐

    nutch乱码BUG修正

    如果提供的压缩包文件“nutch乱码BUG修正”包含了具体的代码和说明,可以按照其中的指示进行操作,以更精确地解决问题。记住,始终关注每个阶段的数据编码,确保在整个流程中的一致性,是避免乱码的关键。

    nutch部分网页乱码BUG修正

    总的来说,解决Nutch的网页乱码问题需要深入理解字符编码原理,以及Nutch内部的处理流程。通过优化URL解码、HTTP头解析、字符集探测和转换逻辑,我们可以有效地避免或修复乱码问题,从而提高Nutch的抓取质量和用户...

    解决Nutch摘要问题

    本文将深入探讨Nutch在摘要生成过程中可能遇到的问题以及解决方案。 首先,我们要明白Nutch的摘要生成机制。Nutch采用了一种基于TF-IDF(词频-逆文档频率)的算法来生成摘要,该算法考虑了关键词在文档中的重要性。...

    nutch使用&Nutch;入门教程

    Nutch的设计目标是提供一种灵活、可扩展的搜索解决方案,可以作为企业内部搜索引擎或者构建大型分布式搜索引擎的基础。 二、Nutch工作流程 1. 抓取(Crawling):Nutch通过配置的种子URL开始,逐页抓取网页,并将...

    nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据

    Nutch 是一个开源的Web爬虫项目,由Apache软件基金会维护。它被设计用来抓取互联网上的网页,并对其进行索引,以便进行后续的搜索和分析。Nutch 的爬虫数据通常包括了它在抓取过程中收集到的网页URL、网页内容、元...

    nutch

    Nutch 提供了一套完整的解决方案,包括爬虫、索引器和搜索引擎,使得开发者可以轻松构建自己的网络爬虫系统。 **Nutch 的架构** Nutch 的架构基于分治思想,整个抓取过程被分为多个步骤,包括种子页面生成、页面...

    eclipse配置nutch,eclipse配置nutch

    在IT领域,Apache Nutch是一款开源的Web爬虫项目,用于抓取网页并进行索引。而Eclipse作为一款流行的集成开发环境(IDE),被广泛应用...记住,配置过程中遇到任何问题,都可以查阅官方文档或社区论坛,寻求解决方案。

    nutch中文分词

    nutch应用,nutch中文分词,nutch中文乱码

    nutch2.2.1安装步骤.docx

    确保 Solr 已经启动并且配置了适合 Nutch 的索引方案。这通常涉及创建一个 Solr 配置集合,与 Nutch 的 `conf/solr-server.xml` 文件中的配置匹配。 总的来说,Nutch 2.2.1 的安装和配置涉及到多个组件的集成,包括...

    nutch的源码解读和nutch入门

    Nutch 是一个开源的全文搜索引擎项目,它基于 Lucene 构建,旨在提供类似 Google 的搜索引擎服务。Nutch 的核心特点在于其分布式处理能力,它利用 Hadoop 平台进行大规模的数据处理,使得搜索引擎能够处理海量的网页...

    Nutch 0.8笔记NUTCHNUTCH

    Nutch 是一个开源的、基于 Lucene 的网络搜索引擎项目,它提供了一套完整的搜索引擎解决方案,包括网页抓取、索引和搜索功能。Nutch 0.8 版本尤其值得关注,因为它完全使用 Hadoop 进行了重写,从而充分利用了 ...

    Nutch2.3.1 环境搭建

    Nutch2.3.1是Apache Nutch的一个稳定版本,它是一个开源的网络爬虫框架,主要用于抓取、解析和索引互联网上的网页...同时,文档`Nutch环境搭建.docx`和`配置文件`将提供更具体的指导,帮助你在遇到问题时找到解决方案。

    搭建nutch开发环境步骤

    在实际操作过程中,可能会遇到各种问题,如依赖冲突、配置错误等,这时可以查阅官方文档或社区资源寻求解决方案。同时,提供的图片文件(如`搭建开发环境X.png`)可能包含更具体的界面截图或操作指南,可以帮助理解...

    windows下安装nutch

    9. **测试Nutch**:在配置完成后,可以运行Nutch的测试命令,如`bin/nutch test`,来验证Nutch是否能正常工作。这将执行一系列检查,确保所有必需的服务和组件都已就绪。 通过以上步骤,你就可以在Windows环境下...

    nutch的插件机制

    Nutch 插件机制是其核心功能之一,它允许开发者轻松地扩展Nutch的功能,以适应不同的数据处理需求。Nutch 是一个开源的网络爬虫...无论是解析特殊格式的文档,还是优化索引和查询过程,插件都能提供有效的解决方案。

    Windows下配置nutch

    因此,Nutch 可以看作是 Lucene 的一个应用,提供了一个完整的搜索引擎解决方案。如果你已经有数据源,只需要搜索功能,可以直接使用 Lucene。而当你需要从网上抓取数据并进行搜索时,Nutch 就是更好的选择。 4. **...

    nutch09版本亲测好用

    总之,Nutch 0.9 是一个功能强大且灵活的搜索引擎解决方案,它在网页抓取和数据分析领域有着广泛的应用。虽然现在有更新的版本如 Nutch 2.x,但 Nutch 0.9 对于学习搜索引擎原理和早期的 Hadoop 应用仍具有很高的...

    nutch10配置(解决代理问题)

    ### nutch10配置(解决代理问题) #### 知识点概述 在处理网络爬虫时,遇到代理问题是非常常见的。对于Nutch这样的开源爬虫框架来说,正确配置代理是确保能够顺利抓取互联网资源的关键步骤之一。本文将详细介绍...

    Nutch在Tomcat下的部署.doc

    在本文中,我们将深入探讨如何在Tomcat环境下部署Nutch以及解决相关问题。 首先,部署Nutch到Tomcat涉及到以下步骤: 1. **准备Nutch的WAR包**:你需要下载Nutch的源代码或预编译的WAR文件。这里以Nutch 0.9为例,...

    Nutch相关框架视频教程

    资源名称:Nutch相关框架视频教程资源目录:【】Nutch相关框架视频教程1_杨尚川【】Nutch相关框架视频教程2_杨尚川【】Nutch相关框架视频教程3_杨尚川【】Nutch相关框架视频教程4_杨尚川【】Nutch相关框架视频教程5_...

Global site tag (gtag.js) - Google Analytics