运行nutch提示：0 records selected for fetching, exiting

yangshangchuan

浏览: 2483759 次
性别:
来自: 北京

最近访客更多访客>>

wangyy

akingde

feilafei123

wf_chn

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

网络爬虫

nutch hadoop 网络爬虫大数据搜索引擎

运行Nutch的时候提示Generator: 0 records selected for fetching, exiting ...然后程序退出，怎么回事呢？

原因多种多样，归根结底就是CrawlDB中的URL经过爬虫抓取调度器（默认是org.apache.nutch.crawl.DefaultFetchSchedule）判断，断定都不应该去抓，所以，Stop The World。

我们使用命令如下命令来查看CrawlDB的统计信息：

bin/nutch readdb data/crawldb -stats

结果如下：

CrawlDb statistics start: data/crawldb
Statistics for CrawlDb: data/crawldb
TOTAL urls:     347457
retry 0:        346506
retry 1:        951
min score:      0.0
avg score:      6.605134E-6
max score:      1.0
status 1 (db_unfetched):        951
status 2 (db_fetched):  337818
status 3 (db_gone):     3637
status 4 (db_redir_temp):       5006
status 5 (db_redir_perm):       45
CrawlDb statistics: done

我们发现db_unfetched状态的URL还有951个，怎么不抓了呀？呵呵，别急，继续看，发现retry 1的URL也有951个，retry 1是什么东东呢？就是抓取失败了，等待1天（默认）后再次去抓的URL，哦，现在明白了吧，这些db_unfetched状态的URL其实都已经抓过了，不过都抓取失败了，因为只有抓取成功的URL的状态才会变为非db_unfetched的其他状态。

弄明白了为什么爬虫退出的原因之后，还有疑问吗？对这些抓取失败的URL是什么原因导致的失败不感兴趣吗？

我们把CrawlDB中db_unfetched状态的URL导出为文本文件，看看到底是些什么URL，失败的原因都是些什么，用如下命令：

bin/nutch readdb data/crawldb -dump crawldb_dump -format normal -status

命令执行完毕我们就可以看这个导出的文本文件里面的内容了，文件位于当前路径下crawldb_dump/part-00000。

我们要确认一下导出的文本文件的db_unfetched状态的URL的数目是否为951，用如下命令：

cat crawldb_dump/* | grep db_unfetched | wc

结果如下：

    951    2853   23775

数目没问题。然后使用如下命令找到抓取失败的信息：

cat crawldb_dump/* | grep exception | wc

结果如下：

    951    7300   91535

数目也是951，这就说明了状态为db_unfetched的951条URL都抓过了，不幸的是都失败了。

接着我们要从这951条失败信息中提取出抓取失败的类型，使用如下命令去除重复的失败信息：

cat crawldb_dump/* | grep exception | sort | uniq | wc

结果如下：

     35     242    4034

去重之后只剩下35条了，太好了，人眼可以识别了呀，呵呵，我们进一步去除以:隔开的前三个字段，这3个字段每条数据都相同，使用以下命令：

cat crawldb_dump/* | grep exception | sort | uniq | awk -F ":" '{print $4 $5}' | uniq | more

结果如下：

Http code=403, url=http//bgt.mof.gov.cn/mofhome/mof/1557/
Http code=403, url=http//bgt.mof.gov.cn/mofhome/mof/zhengwuxinxi/tianbanli/2006tabl/rdjydf/
Http code=403, url=http//bgt.mof.gov.cn/mofhome/mof/zhengwuxinxi/tianbanli/2006tabl/zs/
Http code=403, url=http//bgt.mof.gov.cn/mofhome/mof/zhengwuxinxi/tianbanli/2006tabl/zxtadf/
Http code=403, url=http//bgt.mof.gov.cn/mofhome/mof/zhuantihuigu/czgg0000_1/spjl/
Http code=403, url=http//gjs.mof.gov.cn/mofhome/mof/1557/
Http code=403, url=http//gjs.mof.gov.cn/mofhome/mof/zhengwuxinxi/tianbanli/2006tabl/rdjydf/
Http code=403, url=http//gjs.mof.gov.cn/mofhome/mof/zhengwuxinxi/tianbanli/2006tabl/zs/
Http code=403, url=http//gjs.mof.gov.cn/mofhome/mof/zhengwuxinxi/tianbanli/2006tabl/zxtadf/
Http code=403, url=http//gjs.mof.gov.cn/mofhome/mof/zhuantihuigu/czgg0000_1/spjl/
Http code=403, url=http//gjs.mof.gov.cn/pindaoliebiao/dhjz/qqhzjz/20Ghy/czyhhzhy/5156/
Http code=403, url=http//gjs.mof.gov.cn/pindaoliebiao/zcyd/dhjz/20Ghy/czyhhzhy/5156/
Http code=403, url=http//kjhx.mof.gov.cn/gongzhongcanyu/
Http code=403, url=http//sn.mof.gov.cn/lanmudaohang/zixz/
Http code=403, url=http//wjb.mof.gov.cn/pindaoliebiao/
Http code=403, url=http//www.mof.gov.cn/1557/
Http code=403, url=http//www.mof.gov.cn/zhengwuxinxi/tianbanli/2006tabl/rdjydf/
Http code=403, url=http//www.mof.gov.cn/zhengwuxinxi/tianbanli/2006tabl/zs/
Http code=403, url=http//www.mof.gov.cn/zhengwuxinxi/tianbanli/2006tabl/zxtadf/
Http code=403, url=http//www.mof.gov.cn/zhuantihuigu/czgg0000_1/spjl/
Http code=403, url=http//xxzx.mof.gov.cn/zaixianfuwuxxzx/
Http code=403, url=http//xxzx.mof.gov.cn/zhuantilanmuxxzx/
Http code=403, url=http//zcpg.mof.gov.cn/skzd/skjs/
Http code=403, url=http//zcpg.mof.gov.cn/zywk/pgll/
Http code=403, url=http//zhs.mof.gov.cn/zhuantilanmu/
Http code=500, url=http//zcgl.mof.gov.cn/
java.net.ConnectException Connection refused
java.net.SocketException Connection reset
java.net.SocketTimeoutException connect timed out
java.net.SocketTimeoutException Read timed out
java.net.UnknownHostException czxh.mof.gov.cn
java.net.UnknownHostException docsvr.mof.gov.cn
java.net.UnknownHostException shdk.mof.gov.cn
java.net.UnknownHostException www.hn.mof.gov.cn
java.net.UnknownHostException ysyj.mof.gov.cn

经过人工分析（自动分析不奏效了）发现了7种不同类型的抓取错误（注意：你的系统中跟我的可能不同）：

Http code=403
Http code=500
Connection refused
Connection reset
connect timed out
Read timed out
java.net.UnknownHostException

分别使用这7种不同的抓取错误类型重新从导出的文件中进行统计，结果仍然是951。

cat crawldb_dump/* | grep "connect timed out" | wc
cat crawldb_dump/* | grep "Read timed out" | wc
cat crawldb_dump/* | grep 'Http code=403' | wc
cat crawldb_dump/* | grep 'Connection refused' | wc
cat crawldb_dump/* | grep "Connection reset" | wc
cat crawldb_dump/* | grep java.net.UnknownHostException | wc
cat crawldb_dump/* | grep 'Http code=500' | wc

好了，分析完毕，贴一张更直观完整的图来结束文章：