Heritrix中的SURT和SurtPrefixedDecideRule -

wangwei3

浏览: 123432 次
性别:
来自: 北京

最近访客更多访客>>

jeffkuang

蔚蓝之天空

whut0503

lincolnlee1982

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Heritrix中的SURT和SurtPrefixedDecideRule

博客分类：

heritrix

Scheme .net Blog

在Heritrix中，如果我们需要抓取指定host的网页，需要用到SurtPrefixedDecideRule这个规则。

这里根据Heritrix的文档，解释一下SURT。

SURT全称是Sort-friendly URI Reordering Transform。

目的是将一个URL转换成更方便的格式进行处理。

....

SURT类可以将下面这种形式的URL：

scheme://userinfo@domain.tld:port/path?query#fragment

转换成：

scheme://(tld,domain,:port@userinfo)/path?query#fragment

转换后的格式就称为SURT格式。例如，http://www.baidu.com的SURT格式是http://(com,baidu,www,)

这里()中的内容就是转换的内容。

同时，为了不引起URL的冲突，将"."改成了","。

这样做可以方便处理。

因为，原始的URL的host的层次与人们的常规思维相反。

例如，http://www.ccer.pku.edu.cn。"www","ccer","pku","edu","cn"的范围是从小到大的关系。

而变成SURT格式后是，http://(cn,edu,pku,ccer,www,)，范围从大到小。

这样可以帮助我们对URL排序，将同一个范围内的URL聚集到一起（通常只需要对SURT格式的字符串进行比较就可以了）。

最后一个注意点，由于URL的大小写影响不大，所以SURT默认将所有字母全部转换成小写。

SurtPrefixedDecideRule就是用来判断一个URL的SURT格式是否以某个前缀开头（这些前缀一般是由种子产生的，也可以自己指定前缀的文件）。

SurtPrefixedDecideRule首先根据来源生成一个保存SURT的Set。

然后对每个爬取的URL，先转换成SURT格式，判断是否以Set中的某个SURT开头，根据结果做出accept，pass或reject。

感兴趣的可以自己看看源代码。

（为什么不能发图？？）

这里有几个设置属性，默认情况下是从seed直接生成用来判断前缀的Set。

decision: accept或reject，如果不明白的话得了解一下DecideRule的机制。

surts-source-file: 可以指定生成surt Set的URL来源。

seeds-as-surt-prefixes: 是否把种子中的URL作为surt的Set。

surts-dump-file:将用来比较的SURT dump到文件中，主要是调试的时候看一下是否有错误。

also-check-via:是否检查URL的来源。默认为false。

例如。http://blog.csdn.net/是从http://www.csdn.net/上面链接过来的，

就说http://www.csdn.net/是http://blog.csdn.net/的via，就是这里提到的“来源”的意思。

即，如果为true，那么在检查http://blog.csdn.net/的时候，还要检查从http://www.csdn.net/。

rebuild-on-reconfig:在重新配置的时候是否重新生成set。

举几个例子：

假设我们的decision是accept。

1.如果只指定了http://www.foo.org/，那么将会accept所有http://www.foo.org/的URL。但是对于http://foo.org/的页面将会pass。

2.如果指定了http://www.foo.org/和http://foo.org/，那么将会accept所有http://www.foo.org/和http://foo.org/的URL。

3.如果指定了http://foo.org（注意这里没有斜杠，有什么区别大家仔细想一下），那么将会accept所有http://foo.org/和foo.org下的子域名的URL（如，http://www.foo.org/和http://ex.foo.org/)。

分享到：

eclipse部署配置nutch1.3 | heritrix设计详解(一) 总述

2010-11-17 16:31
浏览 1099
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Heritrix中的SURT和SurtPrefixedDecideRule

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Heritrix中的SURT和SurtPrefixedDecideRule

评论

发表评论

相关推荐

出售分布式网络爬虫程序

heritrix设计详解(一) 总述

spider技术综述

Heritrix源码之 处理链

Heritrix源码分析(十三) Heritrix的控制中心(大脑)CrawlController(二)

爬虫基本原理及概念

heritrix 下载不通过服务器缓存

转 互联网反爬虫策略

爬虫被封原因

网站防爬虫

Heritrix 学习笔记1.Heritrix defined codes

Heritrix去重

heritrix无法抓取中文URL的问题解决方案

heritrix 多个job合并的方案

继续抓取的一些问题及解决方案

heritrix在原有基础上抓取

job配置经验分享

elfhash多线程抓取

heritrix入门及配置

最近访客更多访客>>

Heritrix源码之处理链

转互联网反爬虫策略