`
cocoIT
  • 浏览: 51020 次
  • 性别: Icon_minigender_1
  • 来自: 福建
文章分类
社区版块
存档分类
最新评论

Nutch中的一些小的问题解决

 
阅读更多

今天主要解决了Nutch中的一些小的问题,下面分别简述一下。

1.网页快照乱码问题

Nutch的网页快照是乱码,解决办法是修改tomcat/webapps/nutch目录下的cached.jsp文件,修改其中的第63行。

原来的代码是:content = new String(bean.getContent(details);

修改后的代码是:content = new String(bean.getContent(details),"gb2312");

2.搜索结果高亮显示

Nutch默认的搜索结果是没有高亮的,解决办法是在关键词中加入html颜色标签。

将 org.apache.nutch.searcher.Summary 第107行 代码 修改为:

public String toString() {
StringBuffer buffer = new StringBuffer();
for (int i = 0; i < fragments.size(); i++) {
buffer.append(fragments.get(i));
}
return "<span style='color:red'>" + buffer.toString()+ "</span>";
}

3.抓取页面大小

Nutch默认只抓取一个页面的前65k的内容,在我抓取bbs的时候,会出现只能抓取前几个回帖的内容,所以想抓取整个页面的内容,就要解除65k的限制。解决方法是修改nutch/conf中的nutch-site.xml文件,在文件最后添加以下内容:

<property>
<name>http.content.limit</name>
<value>-1</value>
<description>The length limit for downloaded content, in bytes.
If this value is nonnegative (>=0), content longer than it will be truncated;
otherwise, no truncation at all.
</description>
</property>

分享到:
评论

相关推荐

    解决Nutch摘要问题

    本文将深入探讨Nutch在摘要生成过程中可能遇到的问题以及解决方案。 首先,我们要明白Nutch的摘要生成机制。Nutch采用了一种基于TF-IDF(词频-逆文档频率)的算法来生成摘要,该算法考虑了关键词在文档中的重要性。...

    nutch10配置(解决代理问题)

    本文将详细介绍如何在Nutch 10版本中配置代理,并解决在配置过程中可能遇到的问题。 #### 配置文件说明 Nutch 10配置文件主要分为几个部分: 1. **Crawling Configuration**:爬虫配置文件,包括`conf/crawl-...

    Nutch中文分词插件的编写与配置

    Nutch中文分词插件的编写与配置,由于Internet的迅猛发展,使得用户查找信息犹如大海捞针,而搜索引擎则能帮用户很好的解决这个问题。 Nutch是用java语言开发的,基于Lucene的完整的网络搜索引擎,并采用插件机制进行...

    nutch无法下载中文文件的问题

    要解决这个问题,你需要在 Nutch 的配置文件(如 `conf/nutch-site.xml`)中设置正确的编码方式: ```xml &lt;name&gt;url.normalizers.charset.default &lt;value&gt;UTF-8 &lt;name&gt;fetcher.server.charset &lt;value&gt;UTF-8 ...

    Eclipse中编译Nutch-1.0

    ### Eclipse中编译Nutch-1.0:...它帮助开发者掌握跨平台的项目构建技巧,同时也提供了学习如何解决开源项目中常见问题的经验。这对于任何希望在IT行业特别是大数据和Web开发领域发展的人员来说,都是一笔宝贵的财富。

    eclipse配置nutch,eclipse配置nutch

    由于Nutch使用了一些外部库,如MP3和RTF格式的解析库,你需要手动将这些库添加到项目的Classpath中。可以通过以下步骤实现: 1. 访问Nutch的源码库,找到相应的库文件: - MP3解析库:`...

    nutch-0.9 环境搭建所需最小cygwin

    6. **测试Nutch**:为了验证Nutch是否正常工作,你可以先让Nutch抓取一些简单的网页,然后使用Nutch生成的索引文件在本地Lucene搜索服务中搜索内容,查看是否能正确返回结果。 在实际操作中,可能会遇到一些问题,...

    nutch

    Nutch 提供了一套完整的解决方案,包括爬虫、索引器和搜索引擎,使得开发者可以轻松构建自己的网络爬虫系统。 **Nutch 的架构** Nutch 的架构基于分治思想,整个抓取过程被分为多个步骤,包括种子页面生成、页面...

    解决nutch在window系统安装问题

    解决nutch在window系统安装报错问题Exception in thread "main" java.io.IOException: Failed to set permissions of path: \tmp\hadoop-tom\mapred\staging\tom1698089073\.staging to 0700,替换jar包OK!

    nutch乱码BUG修正

    通过以上步骤,一般可以解决Nutch在处理网页内容时的乱码问题。在实践中,遇到的具体问题可能有所不同,因此可能需要对上述步骤进行适当的调整。如果提供的压缩包文件“nutch乱码BUG修正”包含了具体的代码和说明,...

    nutch解决搜索结果高亮和网页快照链接无效及网页变形

    下面将详细讨论如何使用 Nutch 解决这些问题。 1. **搜索结果高亮**:高亮搜索结果中的关键词是提高用户体验的重要一环。Nutch 提供了内置的高亮功能,可以通过修改或扩展其源代码来实现。例如,`HeightLighter....

    nutch帮助文档;nutch学习 入门

    - **实践项目**:尝试建立自己的小规模搜索引擎项目,应用Nutch解决实际问题。 5. **参考资料** - 官方文档:Apache Nutch官网提供了详细的使用指南和API文档。 - 社区资源:参与Nutch的邮件列表、论坛讨论,...

    实验报告(利用Nutch和IKanalyzer构造中文分词搜索引擎)

    在运行过程中,发现因jsp文件中的转义字符缺失导致错误,通过对search.jsp、cached.jsp等文件进行修正,解决了这些问题。同时,针对中文乱码问题,分别在server.xml和cached.jsp中调整编码设置,确保中文能正确显示...

    nutch安装开发环境的配置

    最后,记住在配置过程中保持耐心,因为调试这些问题可能需要一些时间。每个错误信息都是解决路径的一个线索,仔细阅读并理解这些信息是解决问题的关键。当你成功配置好 Nutch 环境后,就可以开始使用 Nutch 进行网页...

    Windows下配置nutch

    【Nutch 知识点详解】 Nutch 是一个开源的 Java 搜索引擎,它提供了从爬虫到搜索的全套工具,使用户能够...不过需要注意,由于 Nutch 主要设计在 Linux 环境下,Windows 上可能遇到兼容性问题,需要仔细调试和解决。

    nutch1.2 java project

    8. **监控与调试**:在运行过程中,你可以通过日志文件来监控 Nutch 的运行状态,以及通过修改配置文件来解决遇到的问题。 由于缺少插件,你可能需要自行下载并配置适合你的场景的插件,例如解析 PDF、XML 等非 ...

    nutch部分网页乱码BUG修正

    然而,在实际使用过程中,由于编码问题,Nutch可能会出现部分网页乱码的情况。本篇文章将深入探讨这个问题,并提供具体的代码修复方案。 网页乱码通常是由于字符编码不匹配导致的。在Nutch中,当它抓取到不同编码...

    nutch_1.4配置

    解决方法是在Cygwin安装目录下的`.bashrc`文件中,将`LANG`和`LC_ALL`变量值设为`en_US.GBK`,重启Cygwin或直接在终端中输入相应命令,即可避免该错误。 #### 六、Solr验证与配置 解压Solr包后,使用Cygwin进入其`...

    Nutch开源搜索引擎增量索引recrawl的终极解决办法续

    在前一篇文章中,我们探讨了Nutch开源搜索引擎在进行增量索引更新(recrawl)时遇到的问题及其初步解决方案。然而,在实际操作过程中发现,尽管解决了基本的增量更新逻辑,但在执行`indexmerge`命令后,新旧索引合并...

Global site tag (gtag.js) - Google Analytics