提供以下几种抓取的范围
1、BroadScope
BroadScope可以限制抓取的链接数,但不强加给主机,域,或URI路径中的任何限制抓取。
简单的说:什么路径都可以抓
2、SurtPrefixScope
一个高度灵活和公正高效的范围内可以根据配置定义抓取域,个别主机或主机路径的特定区域,或这些混合物,这个我看的不是很明白
3、FilterScope
高度可配置范围,通过添加不同的过滤器组合成这个范围,可以配置提供各种各样的行为。选择了这个filter,你必须要从这里的过滤标签添加你想要运行的抓取范围的标签
如果想抓取 'www.archive.org' ,过滤器规则可以像这样^(?:http|dns)www.archve.org/\.*
注意:Be careful you don't rule out prerequisites such as dns or robots.txt when specifying your scope filter
4、DomainScope
如果抓取的种子是 'archive.org', a domain scope 将会抓取 'audio.archive.org', 'movies.archive.org', etc. 它将会抓取所有的在 'archive.org'域中的URI
5、HostScope
只限制seed提供的uri
比如种子是www.archive.org,只会抓取该种子下的内容,不会抓取audio.archive.org或movies.archive.org
6、PathScope
这个范围,进一步限制对主机的种子定义的URI来发现路径
还是看官方原文吧
This scope goes yet further and limits the discovered URIs to a section of paths on hosts defined by the seeds. Of course any host that has a seed pointing at its root (i.e. www.sample.com/index.html) will be included in full where as a host whose only seed is www.sample2.com/path/index.html will be limited to URIs under /path/.
分享到:
相关推荐
- 选择Crawl Scope,将默认的替换为`org.archive.crawler.scope.BroadScope`,避免异常。 - 选择URI Frontier,选择`org.archive.crawler.frontier.BdbFrontier`。 - 选择Pre Processors,依次选择`org.archive....
在Heritrix中,抓取指定网站如http://www.ccer.pku.edu.cn时,你可以通过调整Crawl Scope来限制抓取范围。具体步骤包括选择Deciding Scope模块,使用正则表达式定义URL匹配规则,以确保只抓取符合规则的页面。此外,...
- 抓取任务(Crawl job)定义了抓取的起始点和范围。 - 配置文件(Profile)则包含了抓取过程中的参数设置。 5. 配置任务和配置文件:这包括模块(Scope, Frontier 和 Processors)、子模块、设置、覆盖项...
- **范围部件(CrawlScope)**:负责按照预设规则确定哪些URL应该被抓取。 - **边界部件(Frontier)**:管理待处理的URL队列,记录哪些URL已被抓取。 - **处理器链(Processor Chain)**:一系列处理器协同工作,完成从...
2. **CrawlScope**:决定了抓取的范围,控制哪些URL会被抓取。 3. **ProcessorChainList**:处理器链,包含一系列处理器,如PreProcessor、Fetcher、Extractor、Writer和PostProcessor,每个处理器执行特定的任务。 ...
如果URL已被抓取,则标记为OUT_OF_SCOPE,并跳过后续处理,进入后处理阶段。 - **Quota Enforcer**:监控抓取配额,如果超出限制,阻止处理当前URL,并将其状态设为S_BLOCKED_BY_QUOTA。 - **Runtime Limit ...