Crawl Scope 抓取范围 - 迟到的炮灰 - ITeye博客

`

qzxfl008

浏览: 79930 次
性别:
来自: 浙江

最近访客更多访客>>

sgq0085

malie0

mazhongxing_jay

chenjun296

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

qzxfl008： happysoul 写道 /** * 获取当前时间的后一天 ...
计算下一天
happysoul： /** * 获取当前时间的后一天 * @param da ...
计算下一天
ailongni：或许 jsoup 更好用些
html解析页面中的A标签
qzxfl008： king_c 写道junit4 什么意思啊
lucene3.1.0 简单分词实例
king_c： junit4
lucene3.1.0 简单分词实例

Crawl Scope 抓取范围

博客分类：

爬虫heritrix

阅读更多

提供以下几种抓取的范围

1、BroadScope
BroadScope可以限制抓取的链接数，但不强加给主机，域，或URI路径中的任何限制抓取。
简单的说：什么路径都可以抓

2、SurtPrefixScope
一个高度灵活和公正高效的范围内可以根据配置定义抓取域，个别主机或主机路径的特定区域，或这些混合物，这个我看的不是很明白

3、FilterScope
高度可配置范围，通过添加不同的过滤器组合成这个范围，可以配置提供各种各样的行为。选择了这个filter，你必须要从这里的过滤标签添加你想要运行的抓取范围的标签
如果想抓取 'www.archive.org' ，过滤器规则可以像这样^(?:http|dns)www.archve.org/\.*
注意：Be careful you don't rule out prerequisites such as dns or robots.txt when specifying your scope filter

4、DomainScope
如果抓取的种子是 'archive.org', a domain scope 将会抓取 'audio.archive.org', 'movies.archive.org', etc. 它将会抓取所有的在 'archive.org'域中的URI

5、HostScope
只限制seed提供的uri
比如种子是www.archive.org，只会抓取该种子下的内容，不会抓取audio.archive.org或movies.archive.org

6、PathScope
这个范围，进一步限制对主机的种子定义的URI来发现路径
还是看官方原文吧

This scope goes yet further and limits the discovered URIs to a section of paths on hosts defined by the seeds. Of course any host that has a seed pointing at its root (i.e. www.sample.com/index.html) will be included in full where as a host whose only seed is www.sample2.com/path/index.html will be limited to URIs under /path/.

分享到：

heritrix文档上的一个例子，放这备用 | linux下安装jdk

2011-06-01 15:01
浏览 1705
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

weather_crawl：抓取工具收集韩国的天气信息: 【天气_crawl：抓取工具收集韩国的天气信息】该工具名为"weather_crawl"，其主要功能是抓取并处理韩国的实时天气信息。它采用编程语言Rust编写，展示了Rust在Web爬虫开发中的应用。Rust是一种系统级编程语言，以其...

linkedin_crawl:抓取数据测试: 这里我们关注的是一个名为"linkedin_crawl"的项目，它显然专注于从LinkedIn平台抓取数据进行测试。LinkedIn作为一个专业社交网络，包含了丰富的职业信息和个人资料，对于企业和研究人员来说具有极高的价值。首先，...

java爬虫crawl4J代码: Crawl4J是一个基于Java开发的开源爬虫库，它的设计目标是简化爬虫的开发过程，让开发者能快速搭建起具有高效抓取能力的爬虫系统。Crawl4J主要特点包括： 1. **多线程**：Crawl4J支持多线程爬取，能够同时处理多个...

nutch crawl代码解析: 在实际的抓取过程中，`Crawl` 类还会调用其他组件，如 `Fetcher`、`Injector`、`Generator`、`Fetcher`、`Parser` 和 `Indexer`，它们分别负责注入种子 URL、生成抓取列表、下载网页、解析内容以及将结果索引到搜索...

Python-crawlfrontier一个灵活前沿的web抓取框架: process.crawl(MySpider) process.start() ``` ### 总结 `Python-crawlfrontier`是一个强大的Web抓取框架，其灵活的架构和丰富的特性使得它成为开发高效网络爬虫的理想选择。通过自定义策略和中间件，开发者可以...

nutch 爬到的CSDN数据 nutch crawl: **Crawl 过程中的挑战：** 1. **反爬策略**：许多网站，包括 CSDN，可能有反爬机制，如 IP 限制、验证码、User-Agent 检查等，需要合理应对。 2. **数据清洗**：抓取的数据可能存在HTML标签、广告代码、无效链接等...

xici_ip_CRAWL_scrapy_: 在"Xici_ip_CRAWL_scrapy_"这个项目中，我们可以推测这是一个针对西刺（Xici）网站的代理IP信息爬虫。西刺网站是一个提供免费和付费代理IP的服务平台，对于需要大量IP进行网络请求的业务，如数据抓取、负载均衡等，...

crawl_workspace: 这个项目的重点在于构建一个全面的爬虫生态系统，以支持大规模的网页抓取任务。首先，我们来看【ZY_Entity】这个模块。这很可能是负责定义爬取目标的数据结构，比如网页链接、网页内容、元数据等。在爬虫项目中，...

抓取页面 c# demo: 在IT行业中，网络爬虫是一种常见技术，用于自动地抓取网页信息。在这个"抓取页面 C# Demo"中，我们将探讨如何使用C#语言来实现一个基础的网页抓取程序。C#，由微软公司开发，是.NET框架的主要编程语言，提供了丰富的...

crawl_greek_time.zip: 【标题】"crawl_greek_time.zip" 是一个与网络爬虫相关的压缩文件，它包含了用于爬取极客专栏（Geek Column）上特定类型信息的工具或代码。这个压缩包可能是一个Python爬虫项目，其目标是抓取已购买的极客专栏文章...

heritrix抓取指南: - 选择Crawl Scope，将默认的替换为`org.archive.crawler.scope.BroadScope`，避免异常。 - 选择URI Frontier，选择`org.archive.crawler.frontier.BdbFrontier`。 - 选择Pre Processors，依次选择`org.archive....

php爬虫系统crawl.zip: php爬虫系统程序只支持CLI安装程序1....安装 php run install2.执行 php run run 13.清除项目数据 php run clear完整代码目录 crawl.sql │ LICENSE │ README │ run 系统入口程序 ... 标签：crawl

Google's Deep Web crawl: 通过上述方法和技术的应用，Google成功地解决了深网内容索引这一难题，极大地扩展了搜索引擎的覆盖范围，使得用户能够更方便地访问到网络上的结构化数据。此外，这些技术也为未来的搜索引擎发展提供了新的思路和方向...

基于Python抓取微博数据，并对抓取的数据进行情绪分析: 【作品名称】：基于Python抓取微博数据，并对抓取的数据进行情绪分析【适用人群】：适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。【项目介绍】：...

scrapy-crawl-once:Scrapy中间件，仅允许抓取新内容: 该软件包提供了一个中间件，该中间件可以避免重新抓取以前在抓取中已下载的页面。许可证是麻省理工学院。安装 pip install scrapy-crawl-once 用法要启用它，请修改settings.py： SPIDER_MIDDLEWARES = { # ....

网页抓取DEMO-可以运行的一个java项目: - **解析**：`index.jsp`通过JSP脚本获取用户提交的URL参数，并调用`Crawler.crawl`方法进行抓取，最后将抓取结果输出到页面上。 #### 四、项目运行与调试 1. **服务器配置**：确保Tomcat服务器已正确安装并配置...

把多次用nutch_crawl获得的所有目录合并在一起: 在Nutch的爬取过程中，每次`nutch crawl`操作都会生成一个新的目录，包含爬取的网页数据、链接数据库（linkdb）、网页数据库（crawldb）和索引文件。当需要将多次爬取的结果合并成一个统一的数据库时，可以使用`...

heritrix系统使用: 在Heritrix中，抓取指定网站如http://www.ccer.pku.edu.cn时，你可以通过调整Crawl Scope来限制抓取范围。具体步骤包括选择Deciding Scope模块，使用正则表达式定义URL匹配规则，以确保只抓取符合规则的页面。此外，...

网页数据抓取源码例子: <?xml version="1.0"?>  ;database=Crawl;uid=sa;password=123456"/> <!-- 设置 compilation debug="true" 可将调试符号插入到 ...C# .Net 数据抓取爬虫参考

scrapy 抓取多级页面的某子二手车: 最后，运行`scrapy crawl spider_name`启动爬虫，Scrapy会按照设定的规则自动执行抓取、解析和存储过程。在抓取过程中，要注意遵守网站的robots.txt协议，尊重网站的抓取频率限制，避免对目标网站造成过大压力。 ...

Global site tag (gtag.js) - Google Analytics