nutch爬行中的depth（层数，深度？）

javaeyes

浏览: 30138 次
来自: ...

最近访客更多访客>>

zhangenli

bliztwing

infoflow

RRobinson

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

lucene/nutch

HTML C C++C#Tomcat

一直搞不清楚nutch中的depth是什么意思，就照着字面意思理解，认为是指html文件所在文件夹的相对于网站的深度。今天做了个小实验，证明并不是这样，下面来看看

先在Tomcat里面建一个示例网站Test，网站根目录下建四个网页index.html, a.thml, b.html, c.html.建一个文件夹1，内有1.html，在文件夹1中建文件夹2，建2.html。它们的链接关系：index.html中有a.html和1.html的链接，a.html中有b和c的链接，1.html中有2.html的链接。这个示例网站是按我原来的意思建的：第一层有四个文件，且包含了蜘蛛能访问到的链接，第二层有一个文件1.html,第三层为2.html。这是一个以文件夹为深度的例子。

启动nutch的爬虫爬行网站（配置可以网上查，很多）。

cmd代码

nutch crawl urls -dir c:\Test -threads 5 -depth 1

先爬行一层，如果是以文件夹为深度，那么第一层的4个文件都将爬到。让我看下结果：

cmd 代码

F:\code\nutch\bin>nutch readdb c:\Test\db -dumppageurl
061127 150112 parsing jar:file:/F:/code/nutch/nutch.jar!/nutch-default.xml
061127 150112 parsing jar:file:/F:/code/nutch/nutch.jar!/nutch-site.xml
061127 150112 No FS indicated, using default:local
org.apache.nutch.db.WebDBReader@13f5d07
Page 1: Version: 4
URL: http://localhost:8080/Test/
ID: 59ba405710e0b0a631562a040e30865c
Next fetch: Wed Dec 27 14:55:52 CST 2006
Retries since fetch: 0
Retry interval: 30 days
Num outlinks: 2
Score: 1.0
NextScore: 1.0
Page 2: Version: 4
URL: http://localhost:8080/Test/1/1.html
ID: 2c6dadf23768abaca03c8f7135b99436
Next fetch: Mon Nov 27 14:55:52 CST 2006
Retries since fetch: 0
Retry interval: 30 days
Num outlinks: 0
Score: 1.0
NextScore: 1.0
Page 3: Version: 4
URL: http://localhost:8080/Test/a.html
ID: a588737b7cd966929644a731445dffeb
Next fetch: Mon Nov 27 14:55:52 CST 2006
Retries since fetch: 0
Retry interval: 30 days
Num outlinks: 0
Score: 1.0
NextScore: 1.0

事实是只有三个网页被抓到了：index.html,1.html,a.html。b和c都没有抓进来。可以说nutch爬行深度是依据网页上的链接的，也就是说nutch把爬行的第一个页面上的链接当作第一层，依次类推第一层页面上的链接是第二层。还可以看三个数据的Num outlinks。index的有两个，1和a明明设了链接的值却为零。可见nutch爬虫在扫描页面链接的时候就把设定层外的链接给丢弃了。

把index中1的链接改成2的链接更可以验证nutch的深度是依据链接的。这样设计的爬虫容易控制。

分享到：

一个比较偏的问题，java序列化 | 北京杂念

2006-11-27 15:18
浏览 4960
评论(2)
论坛回复 / 浏览 (2 / 6748)
查看更多

2 楼 javaeyes 2006-11-29

文件夹目录是虚拟的，但可以把“/”分隔的路径看成文件夹呀

1 楼 shaucle 2006-11-28

想倒过来问，难道还可以按目录来爬？
服务器上的目录是虚拟的，而且有权限设置的，怎么爬？

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论