`
shareHua
  • 浏览: 14535 次
  • 性别: Icon_minigender_1
  • 来自: 群:57917725
社区版块
存档分类
最新评论

crawler-beans.cxml

 
阅读更多
1、CrawlMetadata: including identification of crawler/operator
org.archive.modules.CrawlMetadata:  Basic crawl metadata, as consulted by functional modules and recorded in ARCs/WARCs.

org.archive.modules.seeds.TextSeedModule

org.archive.modules.deciderules.DecideRuleSequence

org.archive.modules.CandidateChain

org.archive.modules.FetchChain

org.archive.modules.DispositionChain

org.archive.crawler.framework.CrawlController

org.archive.crawler.frontier.BdbFrontier

org.archive.crawler.util.BdbUriUniqFilter

forceRetire

smallBudget

veryPolite

highPrecedence

<!--    OPTIONAL BUT RECOMMENDED BEANS  -->
actionDirectory

crawlLimiter

checkpointService

statisticsTracker

loggerModule

sheetOverlaysManager

cookieStorage

serverCache

configPathConfigurer
分享到:
评论

相关推荐

    Heritrix3.0教程 使用入门(三) 配置文件crawler-beans.cxml介绍.docx

    在Heritrix 3.0中,`crawler-beans.cxml` 文件扮演着至关重要的角色,它是整个爬虫的配置中心,负责定义和管理爬虫的行为。相较于Heritrix 1.x的`order.xml`,`crawler-beans.cxml` 采用了Spring框架进行管理,以...

    Python爬虫示例之distribute-crawler-master.zip

    Python爬虫示例之distribute_crawler-master.Python爬虫示例之distribute_crawler-master.Python爬虫示例之distribute_crawler-master.Python爬虫示例之distribute_crawler-master.Python爬虫示例之distribute_...

    Renminwang-Message-Crawler-2.rar

    本篇文章将详细解读一个基于Python的人民网领导留言板留言爬虫项目,该项目文件名为"Renminwang-Message-Crawler-2.rar",包含了相关的代码和数据,供学习者进行测试和交流。我们将深入探讨这个多线程版的爬虫如何...

    Python库 | spidy_web_crawler-1.5.3.1-py3-none-any.whl

    用户在下载`spidy_web_crawler-1.5.3.1-py3-none-any.whl`文件后,可以直接使用Python的`pip`工具进行安装,无需额外的编译步骤。 `spidy_web_crawler`库的核心功能是提供了一个高效且易于使用的框架,用于抓取网页...

    appcrawler-2.4.0-jar-with-dependencies.jar

    app自动化测试工具,能够自动点击ui界面实行测试分析,是移动测试的利器

    Python库 | monkey.crawler-1.0.0.dev1-py3-none-any.whl

    python库。 资源全名:monkey.crawler-1.0.0.dev1-py3-none-any.whl

    PyPI 官网下载 | ckan_crawler-0.1.14-py3-none-any.whl

    资源来自pypi官网。 资源全名:ckan_crawler-0.1.14-py3-none-any.whl

    PyPI 官网下载 | spidy_web_crawler-1.5.3.1-py3-none-any.whl

    资源来自pypi官网。 资源全名:spidy_web_crawler-1.5.3.1-py3-none-any.whl

    crawler-1.5.8.zip

    【标题】"crawler-1.5.8.zip" 提供的是一个版本号为1.5.8的爬虫软件,通常爬虫是用于自动化地抓取网页数据的工具,广泛应用于数据分析、搜索引擎优化和市场研究等领域。这个压缩包可能包含了爬虫的源代码、配置文件...

    Python库 | lightnovel_crawler-2.28.10-py3-none-any.whl

    资源分类:Python库 所属语言:Python 资源全名:lightnovel_crawler-2.28.10-py3-none-any.whl 资源来源:官方 安装方法:https://lanzao.blog.csdn.net/article/details/101784059

    PyPI 官网下载 | noizze-crawler-8.tar.gz

    《PyPI官网下载 | noizze-crawler-8.tar.gz》 在信息技术领域,Python的包管理和分发系统PyPI(Python Package Index)扮演着至关重要的角色。它为开发者提供了方便快捷的方式,来分享和使用各种Python库和工具。...

    itcast-crawler-jd.zip

    【标题】"itcast-crawler-jd.zip" 提供的是一个名为 "itcast-crawler-jd" 的爬虫项目,这个项目可能由某教育机构如 ITCAST(传智播客)开发,主要用于京东(JD)网站的数据抓取。在IT行业中,爬虫是一种用于自动化...

    PyPI 官网下载 | noizze-crawler-10.tar.gz

    **PyPI 官网下载 | noizze-crawler-10.tar.gz** PyPI(Python Package Index)是Python编程语言的官方软件包仓库,开发者可以在这里发布和分享他们的Python项目,使用者则可以通过它来安装所需的Python库。"noizze-...

    Python库 | shopee_crawler-0.1.2.tar.gz

    python库。 资源全名:shopee_crawler-0.1.2.tar.gz

    Python库 | inspire-crawler-0.4.2.tar.gz

    资源分类:Python库 所属语言:Python 资源全名:inspire-crawler-0.4.2.tar.gz 资源来源:官方 安装方法:https://lanzao.blog.csdn.net/article/details/101784059

    PyPI 官网下载 | koala-crawler-0.0.1.tar.gz

    《PyPI官网下载:koala-crawler-0.0.1.tar.gz——探索Python爬虫库的奥秘》 PyPI(Python Package Index)是Python社区的重要资源库,它为全球Python开发者提供了一个集中分享和获取Python软件包的平台。在PyPI上,...

    PyPI 官网下载 | wg-gesucht-crawler-cli-0.1.0.tar.gz

    《PyPI官网下载wg-gesucht-crawler-cli-0.1.0.tar.gz:解析与应用》 在Python的世界里,PyPI(Python Package Index)是最重要的软件仓库,它为开发者提供了一个平台来分享和下载各种Python包。本文将详细讨论标题...

    Python库 | pixiv_crawler-0.0.4.tar.gz

    资源分类:Python库 所属语言:Python 资源全名:pixiv_crawler-0.0.4.tar.gz 资源来源:官方 安装方法:https://lanzao.blog.csdn.net/article/details/101784059

Global site tag (gtag.js) - Google Analytics