浏览 6742 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2006-11-27
一直搞不清楚nutch中的depth是什么意思,就照着字面意思理解,认为是指html文件所在文件夹的相对于网站的深度。今天做了个小实验,证明并不是这样,下面来看看 先在Tomcat里面建一个示例网站Test,网站根目录下建四个网页index.html, a.thml, b.html, c.html.建一个文件夹1,内有1.html,在文件夹1中建文件夹2,建2.html。它们的链接关系:index.html中有a.html和1.html的链接,a.html中有b和c的链接,1.html中有2.html的链接。这个示例网站是按我原来的意思建的:第一层有四个文件,且包含了蜘蛛能访问到的链接,第二层有一个文件1.html,第三层为2.html。这是一个以文件夹为深度的例子。 启动nutch的爬虫爬行网站(配置可以网上查,很多)。 cmd代码
先爬行一层,如果是以文件夹为深度,那么第一层的4个文件都将爬到。让我看下结果: cmd 代码
事实是只有三个网页被抓到了:index.html,1.html,a.html。b和c都没有抓进来。可以说nutch爬行深度是依据网页上的链接的,也就是说nutch把爬行的第一个页面上的链接当作第一层,依次类推第一层页面上的链接是第二层。还可以看三个数据的Num outlinks。index的有两个,1和a明明设了链接的值却为零。可见nutch爬虫在扫描页面链接的时候就把设定层外的链接给丢弃了。 把index中1的链接改成2的链接更可以验证nutch的深度是依据链接的。这样设计的爬虫容易控制。
声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |
发表时间:2006-11-28
想倒过来问,难道还可以按目录来爬?
服务器上的目录是虚拟的,而且有权限设置的,怎么爬? |
|
返回顶楼 | |
发表时间:2006-11-29
文件夹目录是虚拟的,但可以把“/”分隔的路径看成文件夹呀
|
|
返回顶楼 | |