`

nutch 乱码 解决方案

阅读更多

nutch对中文的支持还不完善,需要修改tomcat 文件夹下
conf/server.xml文件
 [root@localhost tomcat]#vi conf/server.xml
    增加两句,修改为
<Connector port="8080"
    maxThreads="150" minSpareThreads="25"  maxSpareThreads="75"
    enableLookups="false"  redirectPort="8443"  acceptCount="100"
    connectionTimeout="20000"  disableUploadTimeout="true" 
    URIEncoding="UTF-8"  useBodyEncodingForURI="true" />

 

1.网页快照乱码问题

Nutch的网页快照是乱码,解决办法是修改tomcat/webapps/nutch目录下的cached.jsp文件,修改其中的第63行。

原来的代码是:content = new String(bean.getContent(details);

修改后的代码是:content = new String(bean.getContent(details),"gb2312");

2.搜索结果高亮显示

Nutch默认的搜索结果是没有高亮的,解决办法是在关键词中加入html颜色标签。

将 org.apache.nutch.searcher.Summary 第107行 代码 修改为:

public String toString() {
    StringBuffer buffer = new StringBuffer();
    for (int i = 0; i < fragments.size(); i++) {
      buffer.append(fragments.get(i));
    }
    return "<span style='color:red'>" + buffer.toString()+ "</span>";
}

3.抓取页面大小

Nutch默认只抓取一个页面的前65k的内容,在我抓取bbs的时候,会出现只能抓取前几个回帖的内容,所以想抓取整个页面的内容,就要解除65k的限制。解决方法是修改nutch/conf中的nutch-site.xml文件,在文件最后添加以下内容:

<property>
<name>http.content.limit</name>
<value>-1</value>
<description>The length limit for downloaded content, in bytes.
If this value is nonnegative (>=0), content longer than it will be truncated;
otherwise, no truncation at all.
</description>
</property>

分享到:
评论

相关推荐

    nutch乱码BUG修正

    如果提供的压缩包文件“nutch乱码BUG修正”包含了具体的代码和说明,可以按照其中的指示进行操作,以更精确地解决问题。记住,始终关注每个阶段的数据编码,确保在整个流程中的一致性,是避免乱码的关键。

    nutch部分网页乱码BUG修正

    总的来说,解决Nutch的网页乱码问题需要深入理解字符编码原理,以及Nutch内部的处理流程。通过优化URL解码、HTTP头解析、字符集探测和转换逻辑,我们可以有效地避免或修复乱码问题,从而提高Nutch的抓取质量和用户...

    解决Nutch摘要问题

    本文将深入探讨Nutch在摘要生成过程中可能遇到的问题以及解决方案。 首先,我们要明白Nutch的摘要生成机制。Nutch采用了一种基于TF-IDF(词频-逆文档频率)的算法来生成摘要,该算法考虑了关键词在文档中的重要性。...

    nutch使用&Nutch;入门教程

    Nutch的设计目标是提供一种灵活、可扩展的搜索解决方案,可以作为企业内部搜索引擎或者构建大型分布式搜索引擎的基础。 二、Nutch工作流程 1. 抓取(Crawling):Nutch通过配置的种子URL开始,逐页抓取网页,并将...

    nutch

    Nutch 提供了一套完整的解决方案,包括爬虫、索引器和搜索引擎,使得开发者可以轻松构建自己的网络爬虫系统。 **Nutch 的架构** Nutch 的架构基于分治思想,整个抓取过程被分为多个步骤,包括种子页面生成、页面...

    eclipse配置nutch,eclipse配置nutch

    在IT领域,Apache Nutch是一款开源的Web爬虫项目,用于抓取网页并进行索引。而Eclipse作为一款流行的集成开发环境(IDE),被广泛应用...记住,配置过程中遇到任何问题,都可以查阅官方文档或社区论坛,寻求解决方案。

    Nutch 0.8笔记NUTCHNUTCH

    Nutch 是一个开源的、基于 Lucene 的网络搜索引擎项目,它提供了一套完整的搜索引擎解决方案,包括网页抓取、索引和搜索功能。Nutch 0.8 版本尤其值得关注,因为它完全使用 Hadoop 进行了重写,从而充分利用了 ...

    nutch中文分词

    nutch应用,nutch中文分词,nutch中文乱码

    nutch2.2.1安装步骤.docx

    确保 Solr 已经启动并且配置了适合 Nutch 的索引方案。这通常涉及创建一个 Solr 配置集合,与 Nutch 的 `conf/solr-server.xml` 文件中的配置匹配。 总的来说,Nutch 2.2.1 的安装和配置涉及到多个组件的集成,包括...

    nutch帮助文档;nutch学习 入门

    Nutch最初设计的目标是创建一个与商业搜索引擎相媲美的开放源代码搜索解决方案,用于企业内部或特定领域的信息检索。 2. **Nutch的功能** - **网页抓取**:Nutch使用爬虫技术,通过种子URL开始,遍历互联网上的...

    Nutch2.3.1 环境搭建

    Nutch2.3.1是Apache Nutch的一个稳定版本,它是一个开源的网络爬虫框架,主要用于抓取、解析和索引互联网上的网页...同时,文档`Nutch环境搭建.docx`和`配置文件`将提供更具体的指导,帮助你在遇到问题时找到解决方案。

    搭建nutch开发环境步骤

    在实际操作过程中,可能会遇到各种问题,如依赖冲突、配置错误等,这时可以查阅官方文档或社区资源寻求解决方案。同时,提供的图片文件(如`搭建开发环境X.png`)可能包含更具体的界面截图或操作指南,可以帮助理解...

    nutch的插件机制

    Nutch 插件机制是其核心功能之一,它允许开发者轻松地扩展Nutch的功能,以适应不同的数据处理需求。Nutch 是一个开源的网络爬虫...无论是解析特殊格式的文档,还是优化索引和查询过程,插件都能提供有效的解决方案。

    Windows下配置nutch

    因此,Nutch 可以看作是 Lucene 的一个应用,提供了一个完整的搜索引擎解决方案。如果你已经有数据源,只需要搜索功能,可以直接使用 Lucene。而当你需要从网上抓取数据并进行搜索时,Nutch 就是更好的选择。 4. **...

    nutch09版本亲测好用

    总之,Nutch 0.9 是一个功能强大且灵活的搜索引擎解决方案,它在网页抓取和数据分析领域有着广泛的应用。虽然现在有更新的版本如 Nutch 2.x,但 Nutch 0.9 对于学习搜索引擎原理和早期的 Hadoop 应用仍具有很高的...

    nutch10配置(解决代理问题)

    ### nutch10配置(解决代理问题) #### 知识点概述 在处理网络爬虫时,遇到代理问题是非常常见的。对于Nutch这样的开源爬虫框架来说,正确配置代理是确保能够顺利抓取互联网资源的关键步骤之一。本文将详细介绍...

    Nutch在Tomcat下的部署.doc

    在本文中,我们将深入探讨如何在Tomcat环境下部署Nutch以及解决相关问题。 首先,部署Nutch到Tomcat涉及到以下步骤: 1. **准备Nutch的WAR包**:你需要下载Nutch的源代码或预编译的WAR文件。这里以Nutch 0.9为例,...

    nutch-1.9 源码

    此外,Nutch还支持其他数据存储解决方案,如Cassandra或MongoDB。 7. **索引与搜索**:Nutch不仅抓取网页,还会将抓取的数据进行索引,以便于后续的搜索操作。它集成了Lucene库,提供高效的全文检索功能。 8. **...

Global site tag (gtag.js) - Google Analytics