nutch recrawl中出现的问题及解决 - 编程资料大全 - ITeye博客

`

isiqi

浏览: 16865685 次
性别:
来自: 济南

最近访客更多访客>>

qq85609655

yuxiatongzhi

nison

hellohank

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

2012-07 ( 335)
2012-06 ( 252)
2012-05 ( 362)
更多存档...

最新评论

wu1236： ef0793cd94337324b6fefc4c9474af5 ...
Android ApiDemos示例解析(87):Media->MediaPlayer
77219634： 0127bf2236bee4dd1f632ce430f1af1 ...
本博客文章都为转载，没有任何版权！
77219634： 0127bf2236bee4dd1f632ce430f1af1 ...
VPLEX - EMC的RAC
77219634： 0127bf2236bee4dd1f632ce430f1af1 ...
qTip2 Show
77219634： 0127bf2236bee4dd1f632ce430f1af1 ...
SecureCRT中文乱码、复制粘贴乱码解决办法(修改版)

nutch recrawl中出现的问题及解决

Hadoop Java Apache lucene XML

阅读更多

昨天在recrawl的时候经常出现

错误1）

java.lang.ArrayIndexOutOfBoundsException: -1

at org.apache.lucene.index.MultiReader.isDeleted(MultiReader.java:113)

at org.apache.nutch.indexer.DeleteDuplicates$InputFormat$DDRecordReader.next(DeleteDuplicates.java:176)

at org.apache.hadoop.mapred.MapTask$1.next(MapTask.java:157)

at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:46)

at org.apache.hadoop.mapred.MapTask.run(MapTask.java:175)

at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:126)

发现这个错误经常是由下面的情况导致

2009-06-28 16:28:34,522 WARN crawl.Generator (Generator.java:generate(425)) - Generator: 0 records selected for fetching, exiting …

网上发现 Generator: 0...这个是由于分布式环境造成的，但我目前还是单机，而且这个是在recrawl时才出现，后来发现所有的crawldb都被过滤掉了，为什么crawl的时候没有这种情况？

原来crawl的时候调用的crawl类，crawl类多加载了一个配置文件即crawl-tool.xml，此配置文件将urlfilter.regex.file指定为crawl-urlfilter.txt，覆盖了nutch-default(默认urlfilter.regex.file指定为regex-urlfilter.txt),recrawl直接调用generator类，这个类没有加载crawl-tool.xml，于是出现问题了，前者使用的是改过的crawl-urlfilter.txt，后者使用的是regex-urlfilter.txt，两者不一致，导致crawl-urlfilter.txt配置的过滤项在regex-0urlfilter.txt不成立，于是全被过滤掉，所以generator为0，从而进一步导致错误1）

暂时的解决办法是同步crawl-tool.xml和nutch-default.xml

分享到：

在formpanel中设置label为右对齐 | C#中的全局变量及其一点延伸

2009-06-29 23:33
浏览 819
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

nutch_recrawl_mergecrawl.rar_nutch_nutch recrawl_recrawl: Nutch 是一个强大的开源搜索引擎项目，它为网络爬虫、索引和搜索提供了一整套解决方案。这个名为 "nutch_recrawl_mergecrawl.rar" 的压缩包包含两个关键组件：`recrawl` 和 `mergecrawl`，它们分别针对索引更新和多...

Nutch开源搜索引擎增量索引recrawl的终极解决办法: ### Nutch开源搜索引擎增量索引recrawl的终极解决办法 #### 知识点解析： **Nutch与Hadoop集成下的recrawl策略** Nutch是一款基于Java的开源搜索引擎框架，能够爬取网页、提取数据并建立索引。它利用Apache ...

Nutch开源搜索引擎增量索引recrawl的终极解决办法续: 在前一篇文章中，我们探讨了Nutch开源搜索引擎在进行增量索引更新（recrawl）时遇到的问题及其初步解决方案。然而，在实际操作过程中发现，尽管解决了基本的增量更新逻辑，但在执行`indexmerge`命令后，新旧索引合并...

nutch入门实例教程.pdf: ### Nutch 入门实例教程知识点总结 #### 1. Nutch 简介 ...无论是对于希望深入了解搜索引擎内部运作的技术人员，还是对于希望构建自定义搜索解决方案的企业来说，Nutch 都是一个值得探索的选择。

nutch入门学习: Nutch 需要在 Java 运行环境中运行，因此首先需要安装 JDK（Java Development Kit）。JDK 的安装步骤通常包括下载、解压和配置环境变量等过程。需要注意的是，JDK 版本应与 Nutch 的版本兼容。 ##### 2.2 Nutch 的...

Global site tag (gtag.js) - Google Analytics