`
isiqi
  • 浏览: 16704508 次
  • 性别: Icon_minigender_1
  • 来自: 济南
社区版块
存档分类
最新评论

nutch recrawl中出现的问题及解决

阅读更多

昨天在recrawl的时候经常出现

错误1

java.lang.ArrayIndexOutOfBoundsException: -1

at org.apache.lucene.index.MultiReader.isDeleted(MultiReader.java:113)

at org.apache.nutch.indexer.DeleteDuplicates$InputFormat$DDRecordReader.next(DeleteDuplicates.java:176)

at org.apache.hadoop.mapred.MapTask$1.next(MapTask.java:157)

at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:46)

at org.apache.hadoop.mapred.MapTask.run(MapTask.java:175)

at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:126)

发现这个错误经常是由下面的情况导致

2009-06-28 16:28:34,522 WARN crawl.Generator (Generator.java:generate(425)) - Generator: 0 records selected for fetching, exiting …

网上发现 Generator: 0...这个是由于分布式环境造成的,但我目前还是单机,而且这个是在recrawl时才出现,后来发现所有的crawldb都被过滤掉了,为什么crawl的时候没有这种情况?

原来crawl的时候调用的crawl类,crawl类多加载了一个配置文件即crawl-tool.xml,此配置文件将urlfilter.regex.file指定为crawl-urlfilter.txt,覆盖了nutch-default(默认urlfilter.regex.file指定为regex-urlfilter.txt),recrawl直接调用generator类,这个类没有加载crawl-tool.xml,于是出现问题了,前者使用的是改过的crawl-urlfilter.txt,后者使用的是regex-urlfilter.txt,两者不一致,导致crawl-urlfilter.txt配置的过滤项在regex-0urlfilter.txt不成立,于是全被过滤掉,所以generator0,从而进一步导致错误1

暂时的解决办法是同步crawl-tool.xml和nutch-default.xml

分享到:
评论

相关推荐

    nutch_recrawl_mergecrawl.rar_nutch_nutch recrawl_recrawl

    Nutch 是一个强大的开源搜索引擎项目,它为网络爬虫、索引和搜索提供了一整套解决方案。这个名为 "nutch_recrawl_mergecrawl.rar" 的压缩包包含两个关键组件:`recrawl` 和 `mergecrawl`,它们分别针对索引更新和多...

    Nutch开源搜索引擎增量索引recrawl的终极解决办法

    ### Nutch开源搜索引擎增量索引recrawl的终极解决办法 #### 知识点解析: **Nutch与Hadoop集成下的recrawl策略** Nutch是一款基于Java的开源搜索引擎框架,能够爬取网页、提取数据并建立索引。它利用Apache ...

    Nutch开源搜索引擎增量索引recrawl的终极解决办法续

    在前一篇文章中,我们探讨了Nutch开源搜索引擎在进行增量索引更新(recrawl)时遇到的问题及其初步解决方案。然而,在实际操作过程中发现,尽管解决了基本的增量更新逻辑,但在执行`indexmerge`命令后,新旧索引合并...

    解决Nutch摘要问题

    本文将深入探讨Nutch在摘要生成过程中可能遇到的问题以及解决方案。 首先,我们要明白Nutch的摘要生成机制。Nutch采用了一种基于TF-IDF(词频-逆文档频率)的算法来生成摘要,该算法考虑了关键词在文档中的重要性。...

    nutch常见问题归总(原创)

    nutch常见问题归总,对初学nutch的一些问题做出的整理

    nutch10配置(解决代理问题)

    本文将详细介绍如何在Nutch 10版本中配置代理,并解决在配置过程中可能遇到的问题。 #### 配置文件说明 Nutch 10配置文件主要分为几个部分: 1. **Crawling Configuration**:爬虫配置文件,包括`conf/crawl-...

    Nutch中文教程nutcher.zip

    nutcher 是 Apache Nutch 的中文教程,在github上托管。nutch社区目前缺少教程和文档,而且教程对应版本号较为落后。nutcher致力于为nutch提供一个较新的中文教程和文档,供开发者学习。 github地址: ...

    nutch无法下载中文文件的问题

    要解决这个问题,你需要在 Nutch 的配置文件(如 `conf/nutch-site.xml`)中设置正确的编码方式: ```xml <name>url.normalizers.charset.default <value>UTF-8 <name>fetcher.server.charset <value>UTF-8 ...

    nutch解决搜索结果高亮和网页快照链接无效及网页变形

    下面将详细讨论如何使用 Nutch 解决这些问题。 1. **搜索结果高亮**:高亮搜索结果中的关键词是提高用户体验的重要一环。Nutch 提供了内置的高亮功能,可以通过修改或扩展其源代码来实现。例如,`HeightLighter....

    Nutch中文分词插件的编写与配置

    Nutch中文分词插件的编写与配置,由于Internet的迅猛发展,使得用户查找信息犹如大海捞针,而搜索引擎则能帮用户很好的解决这个问题。 Nutch是用java语言开发的,基于Lucene的完整的网络搜索引擎,并采用插件机制进行...

    nutch 初学文档教材

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 目 录 1. nutch简介...1 1.1什么是nutch..1 1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2....

    nutch中文分词

    nutch应用,nutch中文分词,nutch中文乱码

    eclipse配置nutch,eclipse配置nutch

    因此,利用Eclipse作为开发工具,可以简化Nutch的配置流程,提供一个友好的图形界面来管理项目和代码,同时利用其强大的调试功能,帮助开发者快速定位和解决问题。 ### 二、Eclipse配置Nutch的步骤详解 #### 步骤1...

    nutch乱码BUG修正

    如果提供的压缩包文件“nutch乱码BUG修正”包含了具体的代码和说明,可以按照其中的指示进行操作,以更精确地解决问题。记住,始终关注每个阶段的数据编码,确保在整个流程中的一致性,是避免乱码的关键。

    Eclipse中编译Nutch-1.0

    ### Eclipse中编译Nutch-1.0:...它帮助开发者掌握跨平台的项目构建技巧,同时也提供了学习如何解决开源项目中常见问题的经验。这对于任何希望在IT行业特别是大数据和Web开发领域发展的人员来说,都是一笔宝贵的财富。

    nutch

    Nutch 提供了一套完整的解决方案,包括爬虫、索引器和搜索引擎,使得开发者可以轻松构建自己的网络爬虫系统。 **Nutch 的架构** Nutch 的架构基于分治思想,整个抓取过程被分为多个步骤,包括种子页面生成、页面...

    实验报告(利用Nutch和IKanalyzer构造中文分词搜索引擎)

    在运行过程中,发现因jsp文件中的转义字符缺失导致错误,通过对search.jsp、cached.jsp等文件进行修正,解决了这些问题。同时,针对中文乱码问题,分别在server.xml和cached.jsp中调整编码设置,确保中文能正确显示...

    nutch使用&Nutch;入门教程

    Nutch的设计目标是提供一种灵活、可扩展的搜索解决方案,可以作为企业内部搜索引擎或者构建大型分布式搜索引擎的基础。 二、Nutch工作流程 1. 抓取(Crawling):Nutch通过配置的种子URL开始,逐页抓取网页,并将...

    nutch部分网页乱码BUG修正

    然而,在实际使用过程中,由于编码问题,Nutch可能会出现部分网页乱码的情况。本篇文章将深入探讨这个问题,并提供具体的代码修复方案。 网页乱码通常是由于字符编码不匹配导致的。在Nutch中,当它抓取到不同编码...

Global site tag (gtag.js) - Google Analytics