`
koreyoshi
  • 浏览: 242792 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

Heritrix学习及部署(三)

阅读更多
----------------------抓取部署任务 start--------------------
1.选jobs-based on a profile 创建一个新的工作任务

2.到了下面的设置页面
Name of new job:为这次任务去一个名称(抓取保存的文件夹名称的前缀)
Description:
Seeds:此处输入要抓取的地址,例:http://www.address.com

3.设置(上图选Settings)
user-agent:Mozilla/5.0(compatible;heritrix/@这里输入hiritrix的版本号@ +这里输入要抓取的地址) 例:
Mozilla/5.0(compatible;heritrix/@1.14.4@ +http://www.address.com)
from:设置邮箱地址,例:123456@qq.com

4.设置submodules
请严格按照以下方式来设置:
1). frontier
     org.archive.crawler.frontier.BdbFrontier
2). scope
     org.archive.crawler.scope.BroadScope
3). Prefetcher
     org.archive.crawler.prefetch.Preselector
     org.archive.crawler.prefetch.PreconditionEnforcer
4). Fetcher
     org.archive.crawler.fetcher.FetchDNS
     org.archive.crawler.fetcher.FetchHTTP
5). Extractor
     org.archive.crawler.extractor.ExtractorHTTP
     org.archive.crawler.extractor.ExtractorHTML
6). Writer
     可以是MirrorWriter或ARCWriter,一般建议使用MirrorWriter
7). PostProcessor
      org.archive.crawler.postprocessor.CrawlStateUpdater
      org.archive.crawler.postprocessor.LinksScoper
      org.archive.crawler.postprocessor.FrontierScheduler
     (FrontierScheduler可以自行扩展,按书上的方法)
----------------------抓取部署任务 end--------------------


分享到:
评论

相关推荐

    Heritrix-1.4.4.src.zip +Heritrix-1.4.4.zip

    "Myeclipse下安装说明及常见问题.txt" 文件提供了在MyEclipse集成开发环境中安装和运行Heritrix的步骤和可能遇到的问题的解决方案。MyEclipse是一种强大的Java EE集成开发环境,对Java项目的支持非常全面,因此它是...

    Heritrix爬虫框架 完整版

    在部署和运行Heritrix时,你可能需要配置运行环境(如JDK),设定合理的抓取策略,编写或调整配置文件,以及监控和调试爬虫的运行状态。 总之,Heritrix是一个强大且灵活的网络爬虫框架,通过深入学习和实践,你...

    heritrix-3.2.0

    - **分布式爬取**:虽然单个Heritrix实例已足够强大,但通过集群部署,可以实现更大规模的分布式爬取。 3. **压缩包内容详解**: - **heritrix-3.2.0-dist.tar.gz**:这是Heritrix的发行版,包含运行所需的编译好...

    网络爬虫(heritrix)代码

    3. `wherespider_1.0.4.0_setup`:可能是Heritrix的安装程序,帮助用户快速部署。 4. `report`:可能是一个日志文件或抓取报告,记录了爬虫运行时的详细信息,如抓取的URL、遇到的错误、性能指标等。 深入学习...

    Heritrix 源码和Jar

    使用`heritrix-1.14.4.zip`构建自己的Heritrix实例,需要理解其配置文件、依赖管理和部署流程。这涉及到Java开发环境的设置、Maven或Ant的使用,以及如何启动和监控爬虫。 9. **最佳实践**: 在实际应用中,合理...

    Heritrix用户参考手册

    通过这些案例,用户可以学习如何利用Heritrix解决实际问题,提升网络数据抓取和分析能力。 总结来说,《Heritrix用户参考手册》全面介绍了Heritrix的安装、配置、运行和分析方法,是一份宝贵的资源,对于希望掌握...

    heritrix的绿色配置包

    在“Heritrix的绿色配置包”中,可能已经包含了预设的处理器链、默认的爬行策略和一些基本的配置文件,以简化用户的学习曲线和使用难度。用户只需解压后根据自己的需求进行微调,即可开始进行网络爬取任务。对于初次...

    开发自己的搜索引擎--Lucene+Heritrix.zip

    例如,通过Solr或Elasticsearch这样的Lucene派生产品,可以轻松实现集群部署和负载均衡。 总之,结合Apache Lucene和Heritrix,我们可以构建一个高效、可扩展的搜索引擎,实现从网页抓取到内容检索的全过程。这不仅...

    Heritrix网络爬虫开发包

    Heritrix是一款强大的开源网络爬虫工具,专为大规模网页抓取而设计。它由互联网档案馆(Internet Archive)开发,旨在系统性...对于初学者,建议从官方文档或社区教程开始学习,逐步掌握Heritrix的使用方法和高级功能。

    heritrix+lucene开发资料

    Heritrix和Lucene是两个在信息技术领域中用于搜索引擎开发的重要工具。...在给定的"heritrix+lucene搜索引擎开发资料"中,应包含这两部分的相关学术论文和研究,为学习和实践搜索引擎开发提供了宝贵的资源。

    heritrix3.1

    Heritrix 3.1.0 是一个强大的网络爬虫软件,主要被用于网页抓取、数据挖掘和互联网档案管理。这个源码包包含了项目的...通过学习和使用Heritrix源码,开发者不仅可以提升网络爬虫技术,还能了解Web抓取领域的前沿知识。

    heritrix-1.14.4

    描述中提到的"因为文件过大,这里去掉了docs文件夹,docs文件夹单独上传了",意味着Heritrix的完整安装包可能包括了大量的文档和帮助资料,以供用户参考和学习。docs文件夹通常包含API文档、用户手册、开发者指南等...

    搜索引擎Lucene+Heritrix(第二版)7

    7. **实际应用与案例分析**:通过具体案例学习搜索引擎的部署和维护,解决实际问题。 配合光盘中的“光盘使用说明.DOC”,读者将能够更好地理解和操作书中提到的示例代码和实验,进一步提高实践能力。通过学习这...

    Luncene2.0+Heritrix开发自己的搜索引擎01(源码)

    在构建一个自定义搜索引擎的过程中,Luncene 2.0 和 Heritrix 是两个关键的组件。Luncene 是一个流行的...学习这些章节,你可以更深入地了解如何将 Luncene 2.0 和 Heritrix 结合起来,构建一个功能完备的搜索引擎。

    开发自己的搜索引擎lucene+heritrix(第2版)(heritrixProject源码)

    4. **分布式爬取**:当数据量巨大时,可能需要将Heritrix部署在多个节点上,以实现并行爬取,提高效率。 5. **Lucene索引**:学习如何使用Lucene API创建、添加、删除和更新索引,以及如何进行复杂的查询操作。 6....

    heritrixProject

    10. **分布式爬虫**:对于大规模的网络抓取任务,Heritrix可以部署为分布式系统,将爬取任务分布到多台机器上,进一步提升爬取能力和效率。 以上是关于Heritrix项目的核心知识点,通过深入理解和实践这些概念,...

    java培训学习大纲页.pdf

    2. **中间件**:Tomcat和JBoss是两种重要的Java应用服务器,学员将学习如何配置、管理和优化这两个中间件,以便部署和运行Java EE应用。 3. **数据库**:MySQL和Oracle是数据库领域的两大重要产品,学员将掌握SQL...

    dsiutils-2.3.0-sources.zip_dsiutil

    Maven还提供了自动化构建、测试和部署的功能,极大地简化了开发流程。 深入研究DSIUtil的源代码,我们可以了解到它可能包含的组件如数据连接池、线程管理、缓存策略、错误处理机制等。这些组件的设计和实现都是为了...

Global site tag (gtag.js) - Google Analytics