提供以下几种抓取的范围
1、BroadScope
BroadScope可以限制抓取的链接数,但不强加给主机,域,或URI路径中的任何限制抓取。
简单的说:什么路径都可以抓
2、SurtPrefixScope
一个高度灵活和公正高效的范围内可以根据配置定义抓取域,个别主机或主机路径的特定区域,或这些混合物,这个我看的不是很明白
3、FilterScope
高度可配置范围,通过添加不同的过滤器组合成这个范围,可以配置提供各种各样的行为。选择了这个filter,你必须要从这里的过滤标签添加你想要运行的抓取范围的标签
如果想抓取 'www.archive.org' ,过滤器规则可以像这样^(?:http|dns)www.archve.org/\.*
注意:Be careful you don't rule out prerequisites such as dns or robots.txt when specifying your scope filter
4、DomainScope
如果抓取的种子是 'archive.org', a domain scope 将会抓取 'audio.archive.org', 'movies.archive.org', etc. 它将会抓取所有的在 'archive.org'域中的URI
5、HostScope
只限制seed提供的uri
比如种子是www.archive.org,只会抓取该种子下的内容,不会抓取audio.archive.org或movies.archive.org
6、PathScope
这个范围,进一步限制对主机的种子定义的URI来发现路径
还是看官方原文吧
This scope goes yet further and limits the discovered URIs to a section of paths on hosts defined by the seeds. Of course any host that has a seed pointing at its root (i.e. www.sample.com/index.html) will be included in full where as a host whose only seed is www.sample2.com/path/index.html will be limited to URIs under /path/.
分享到:
相关推荐
【天气_crawl:抓取工具收集韩国的天气信息】 该工具名为"weather_crawl",其主要功能是抓取并处理韩国的实时天气信息。它采用编程语言Rust编写,展示了Rust在Web爬虫开发中的应用。Rust是一种系统级编程语言,以其...
这里我们关注的是一个名为"linkedin_crawl"的项目,它显然专注于从LinkedIn平台抓取数据进行测试。LinkedIn作为一个专业社交网络,包含了丰富的职业信息和个人资料,对于企业和研究人员来说具有极高的价值。 首先,...
Crawl4J是一个基于Java开发的开源爬虫库,它的设计目标是简化爬虫的开发过程,让开发者能快速搭建起具有高效抓取能力的爬虫系统。Crawl4J主要特点包括: 1. **多线程**:Crawl4J支持多线程爬取,能够同时处理多个...
在实际的抓取过程中,`Crawl` 类还会调用其他组件,如 `Fetcher`、`Injector`、`Generator`、`Fetcher`、`Parser` 和 `Indexer`,它们分别负责注入种子 URL、生成抓取列表、下载网页、解析内容以及将结果索引到搜索...
process.crawl(MySpider) process.start() ``` ### 总结 `Python-crawlfrontier`是一个强大的Web抓取框架,其灵活的架构和丰富的特性使得它成为开发高效网络爬虫的理想选择。通过自定义策略和中间件,开发者可以...
**Crawl 过程中的挑战:** 1. **反爬策略**:许多网站,包括 CSDN,可能有反爬机制,如 IP 限制、验证码、User-Agent 检查等,需要合理应对。 2. **数据清洗**:抓取的数据可能存在HTML标签、广告代码、无效链接等...
在"Xici_ip_CRAWL_scrapy_"这个项目中,我们可以推测这是一个针对西刺(Xici)网站的代理IP信息爬虫。西刺网站是一个提供免费和付费代理IP的服务平台,对于需要大量IP进行网络请求的业务,如数据抓取、负载均衡等,...
这个项目的重点在于构建一个全面的爬虫生态系统,以支持大规模的网页抓取任务。 首先,我们来看【ZY_Entity】这个模块。这很可能是负责定义爬取目标的数据结构,比如网页链接、网页内容、元数据等。在爬虫项目中,...
在IT行业中,网络爬虫是一种常见技术,用于自动地抓取网页信息。在这个"抓取页面 C# Demo"中,我们将探讨如何使用C#语言来实现一个基础的网页抓取程序。C#,由微软公司开发,是.NET框架的主要编程语言,提供了丰富的...
【标题】"crawl_greek_time.zip" 是一个与网络爬虫相关的压缩文件,它包含了用于爬取极客专栏(Geek Column)上特定类型信息的工具或代码。这个压缩包可能是一个Python爬虫项目,其目标是抓取已购买的极客专栏文章...
- 选择Crawl Scope,将默认的替换为`org.archive.crawler.scope.BroadScope`,避免异常。 - 选择URI Frontier,选择`org.archive.crawler.frontier.BdbFrontier`。 - 选择Pre Processors,依次选择`org.archive....
php爬虫系统程序只支持CLI安装程序1....安装 php run install2.执行 php run run 13.清除项目数据 php run clear完整代码目录 crawl.sql │ LICENSE │ README │ run 系统入口程序 ... 标签:crawl
通过上述方法和技术的应用,Google成功地解决了深网内容索引这一难题,极大地扩展了搜索引擎的覆盖范围,使得用户能够更方便地访问到网络上的结构化数据。此外,这些技术也为未来的搜索引擎发展提供了新的思路和方向...
【作品名称】:基于Python抓取微博数据,并对抓取的数据进行情绪分析 【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【项目介绍】:...
该软件包提供了一个中间件,该中间件可以避免重新抓取以前在抓取中已下载的页面。 许可证是麻省理工学院。 安装 pip install scrapy-crawl-once 用法 要启用它,请修改settings.py: SPIDER_MIDDLEWARES = { # ....
- **解析**:`index.jsp`通过JSP脚本获取用户提交的URL参数,并调用`Crawler.crawl`方法进行抓取,最后将抓取结果输出到页面上。 #### 四、项目运行与调试 1. **服务器配置**:确保Tomcat服务器已正确安装并配置...
在Nutch的爬取过程中,每次`nutch crawl`操作都会生成一个新的目录,包含爬取的网页数据、链接数据库(linkdb)、网页数据库(crawldb)和索引文件。当需要将多次爬取的结果合并成一个统一的数据库时,可以使用`...
在Heritrix中,抓取指定网站如http://www.ccer.pku.edu.cn时,你可以通过调整Crawl Scope来限制抓取范围。具体步骤包括选择Deciding Scope模块,使用正则表达式定义URL匹配规则,以确保只抓取符合规则的页面。此外,...
<?xml version="1.0"?> <!--数据库连接字符串 --> ;database=Crawl;uid=sa;password=123456"/> <!-- 设置 compilation debug="true" 可将调试符号插入到 ...C# .Net 数据抓取 爬虫参考
最后,运行`scrapy crawl spider_name`启动爬虫,Scrapy会按照设定的规则自动执行抓取、解析和存储过程。在抓取过程中,要注意遵守网站的robots.txt协议,尊重网站的抓取频率限制,避免对目标网站造成过大压力。 ...