`
qzxfl008
  • 浏览: 79642 次
  • 性别: Icon_minigender_1
  • 来自: 浙江
社区版块
存档分类
最新评论

Crawl Scope 抓取范围

阅读更多
提供以下几种抓取的范围

1、BroadScope
BroadScope可以限制抓取的链接数,但不强加给主机,域,或URI路径中的任何限制抓取。
简单的说:什么路径都可以抓

2、SurtPrefixScope
一个高度灵活和公正高效的范围内可以根据配置定义抓取域,个别主机或主机路径的特定区域,或这些混合物,这个我看的不是很明白

3、FilterScope
高度可配置范围,通过添加不同的过滤器组合成这个范围,可以配置提供各种各样的行为。选择了这个filter,你必须要从这里的过滤标签添加你想要运行的抓取范围的标签
如果想抓取 'www.archive.org' ,过滤器规则可以像这样^(?:http|dns)www.archve.org/\.*
注意:Be careful you don't rule out prerequisites such as dns or robots.txt when specifying your scope filter


4、DomainScope
如果抓取的种子是 'archive.org', a domain scope 将会抓取 'audio.archive.org', 'movies.archive.org', etc. 它将会抓取所有的在 'archive.org'域中的URI

5、HostScope
只限制seed提供的uri
比如种子是www.archive.org,只会抓取该种子下的内容,不会抓取audio.archive.org或movies.archive.org

6、PathScope
这个范围,进一步限制对主机的种子定义的URI来发现路径
还是看官方原文吧
This scope goes yet further and limits the discovered URIs to a section of paths on hosts defined by the seeds. Of course any host that has a seed pointing at its root (i.e. www.sample.com/index.html) will be included in full where as a host whose only seed is www.sample2.com/path/index.html will be limited to URIs under /path/.


分享到:
评论

相关推荐

    heritrix抓取指南

    - 选择Crawl Scope,将默认的替换为`org.archive.crawler.scope.BroadScope`,避免异常。 - 选择URI Frontier,选择`org.archive.crawler.frontier.BdbFrontier`。 - 选择Pre Processors,依次选择`org.archive....

    heritrix系统使用

    在Heritrix中,抓取指定网站如http://www.ccer.pku.edu.cn时,你可以通过调整Crawl Scope来限制抓取范围。具体步骤包括选择Deciding Scope模块,使用正则表达式定义URL匹配规则,以确保只抓取符合规则的页面。此外,...

    Heritrix user_manual.pdf

    - 抓取任务(Crawl job)定义了抓取的起始点和范围。 - 配置文件(Profile)则包含了抓取过程中的参数设置。 5. 配置任务和配置文件:这包括模块(Scope, Frontier 和 Processors)、子模块、设置、覆盖项...

    网络爬虫介绍

    - **范围部件(CrawlScope)**:负责按照预设规则确定哪些URL应该被抓取。 - **边界部件(Frontier)**:管理待处理的URL队列,记录哪些URL已被抓取。 - **处理器链(Processor Chain)**:一系列处理器协同工作,完成从...

    Java爬虫技术框架之Heritrix框架详解

    2. **CrawlScope**:决定了抓取的范围,控制哪些URL会被抓取。 3. **ProcessorChainList**:处理器链,包含一系列处理器,如PreProcessor、Fetcher、Extractor、Writer和PostProcessor,每个处理器执行特定的任务。 ...

    heritrix 中文API (自己整理) 网络爬虫

    如果URL已被抓取,则标记为OUT_OF_SCOPE,并跳过后续处理,进入后处理阶段。 - **Quota Enforcer**:监控抓取配额,如果超出限制,阻止处理当前URL,并将其状态设为S_BLOCKED_BY_QUOTA。 - **Runtime Limit ...

Global site tag (gtag.js) - Google Analytics