1、CrawlMetadata: including identification of crawler/operator
org.archive.modules.CrawlMetadata: Basic crawl metadata, as consulted by functional modules and recorded in ARCs/WARCs.
org.archive.modules.seeds.TextSeedModule
org.archive.modules.deciderules.DecideRuleSequence
org.archive.modules.CandidateChain
org.archive.modules.FetchChain
org.archive.modules.DispositionChain
org.archive.crawler.framework.CrawlController
org.archive.crawler.frontier.BdbFrontier
org.archive.crawler.util.BdbUriUniqFilter
forceRetire
smallBudget
veryPolite
highPrecedence
<!-- OPTIONAL BUT RECOMMENDED BEANS -->
actionDirectory
crawlLimiter
checkpointService
statisticsTracker
loggerModule
sheetOverlaysManager
cookieStorage
serverCache
configPathConfigurer
分享到:
相关推荐
在Heritrix 3.0中,`crawler-beans.cxml` 文件扮演着至关重要的角色,它是整个爬虫的配置中心,负责定义和管理爬虫的行为。相较于Heritrix 1.x的`order.xml`,`crawler-beans.cxml` 采用了Spring框架进行管理,以...
Python爬虫示例之distribute_crawler-master.Python爬虫示例之distribute_crawler-master.Python爬虫示例之distribute_crawler-master.Python爬虫示例之distribute_crawler-master.Python爬虫示例之distribute_...
本篇文章将详细解读一个基于Python的人民网领导留言板留言爬虫项目,该项目文件名为"Renminwang-Message-Crawler-2.rar",包含了相关的代码和数据,供学习者进行测试和交流。我们将深入探讨这个多线程版的爬虫如何...
用户在下载`spidy_web_crawler-1.5.3.1-py3-none-any.whl`文件后,可以直接使用Python的`pip`工具进行安装,无需额外的编译步骤。 `spidy_web_crawler`库的核心功能是提供了一个高效且易于使用的框架,用于抓取网页...
app自动化测试工具,能够自动点击ui界面实行测试分析,是移动测试的利器
python库。 资源全名:monkey.crawler-1.0.0.dev1-py3-none-any.whl
资源来自pypi官网。 资源全名:ckan_crawler-0.1.14-py3-none-any.whl
资源来自pypi官网。 资源全名:spidy_web_crawler-1.5.3.1-py3-none-any.whl
【标题】"crawler-1.5.8.zip" 提供的是一个版本号为1.5.8的爬虫软件,通常爬虫是用于自动化地抓取网页数据的工具,广泛应用于数据分析、搜索引擎优化和市场研究等领域。这个压缩包可能包含了爬虫的源代码、配置文件...
资源分类:Python库 所属语言:Python 资源全名:lightnovel_crawler-2.28.10-py3-none-any.whl 资源来源:官方 安装方法:https://lanzao.blog.csdn.net/article/details/101784059
《PyPI官网下载 | noizze-crawler-8.tar.gz》 在信息技术领域,Python的包管理和分发系统PyPI(Python Package Index)扮演着至关重要的角色。它为开发者提供了方便快捷的方式,来分享和使用各种Python库和工具。...
【标题】"itcast-crawler-jd.zip" 提供的是一个名为 "itcast-crawler-jd" 的爬虫项目,这个项目可能由某教育机构如 ITCAST(传智播客)开发,主要用于京东(JD)网站的数据抓取。在IT行业中,爬虫是一种用于自动化...
**PyPI 官网下载 | noizze-crawler-10.tar.gz** PyPI(Python Package Index)是Python编程语言的官方软件包仓库,开发者可以在这里发布和分享他们的Python项目,使用者则可以通过它来安装所需的Python库。"noizze-...
python库。 资源全名:shopee_crawler-0.1.2.tar.gz
资源分类:Python库 所属语言:Python 资源全名:inspire-crawler-0.4.2.tar.gz 资源来源:官方 安装方法:https://lanzao.blog.csdn.net/article/details/101784059
《PyPI官网下载:koala-crawler-0.0.1.tar.gz——探索Python爬虫库的奥秘》 PyPI(Python Package Index)是Python社区的重要资源库,它为全球Python开发者提供了一个集中分享和获取Python软件包的平台。在PyPI上,...
《PyPI官网下载wg-gesucht-crawler-cli-0.1.0.tar.gz:解析与应用》 在Python的世界里,PyPI(Python Package Index)是最重要的软件仓库,它为开发者提供了一个平台来分享和下载各种Python包。本文将详细讨论标题...
资源分类:Python库 所属语言:Python 资源全名:pixiv_crawler-0.0.4.tar.gz 资源来源:官方 安装方法:https://lanzao.blog.csdn.net/article/details/101784059