`
koreyoshi
  • 浏览: 242787 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

Heritrix学习及遇到问题汇总(四)

阅读更多
1.
message:Value of illegal type: 'org.archive.crawler.settings.ModuleType', 'org.archive.crawler.framework.Frontier' was expected.: Value of illegal type: 'org.archive.crawler.settings.ModuleType', 'org.archive.crawler.framework.Frontier' was expected.
Exception:No associated exception.

2.
message:On crawl: question Unable to setup crawl modules
exception:java.lang.ClassCastException: org.archive.crawler.settings.ModuleType cannot be cast to org.archive.crawler.framework.Frontier
Stacktrace: java.lang.ClassCastException: org.archive.crawler.settings.ModuleType cannot be cast to org.archive.crawler.framework.Frontier
at org.archive.crawler.framework.CrawlController.setupCrawlModules(CrawlController.java:675)
at org.archive.crawler.framework.CrawlController.initialize(CrawlController.java:381)
at org.archive.crawler.admin.CrawlJob.setupForCrawlStart(CrawlJob.java:853)
at org.archive.crawler.admin.CrawlJobHandler.startNextJobInternal(CrawlJobHandler.java:1144)
at org.archive.crawler.admin.CrawlJobHandler$3.run(CrawlJobHandler.java:1127)
at java.lang.Thread.run(Thread.java:619)

3.
message:Wrong document type 'crawl-order' in 'file:/c:/heritrix/jobs/question-20141005032127804/order.xml', line: 1, column: 160
exception:No associated exception.

解决方案:一般都是由于处理器链没有正确设置而导致
比如,在应该是Prefetcher的地方,设置成了Writer。这样就会导致错误
请严格按照以下方式来设置:
1. frontier
org.archive.crawler.frontier.BdbFrontier
2. scope
org.archive.crawler.scope.BroadScope
3. Prefetcher
org.archive.crawler.prefetch.Preselector
org.archive.crawler.prefetch.PreconditionEnforcer
4. Fetcher
org.archive.crawler.fetcher.FetchDNS
org.archive.crawler.fetcher.FetchHTTP
5. Extractor
org.archive.crawler.extractor.ExtractorHTTP
org.archive.crawler.extractor.ExtractorHTML
(这里可以按自己的需要多添几个,比如ExtractorSWF、ExtractorJS什么的,但是前两个是必不可少的)
6. Writer
可以是MirrorWriter或ARCWriter,一般建议使用MirrorWriter
7. PostProcessor
org.archive.crawler.postprocessor.CrawlStateUpdater
org.archive.crawler.postprocessor.LinksScoper
org.archive.crawler.postprocessor.FrontierScheduler
(FrontierScheduler可以自行扩展,按书上的方法)
分享到:
评论

相关推荐

    很好的heritrix学习资料

    ITeye论坛是一个中国程序员交流的平台,这类帖子通常包含了实践中的技巧、遇到的问题及解决方案。这份资料可能会涵盖Heritrix在企业环境中的具体应用,如数据收集、数据分析前的预处理步骤等,同时也可能涉及Java...

    配置Heritrix及常见问题解决

    Heritrix是一款强大的开源网络爬虫工具,由互联网档案...总的来说,配置Heritrix涉及多个方面,从理解工作流机制到解决实际抓取过程中遇到的问题。通过深入学习和实践,可以有效地利用Heritrix构建自己的网络爬虫系统。

    Heritrix安装详细过程

    ### Heritrix安装详细过程及配置指南 #### 一、Heritrix简介 Heritrix是一款开源的网络爬虫工具,被广泛应用于互联网资源的抓取与归档工作。相较于其他爬虫工具,Heritrix提供了更为精细的控制机制,能够帮助用户...

    Heritrix-1.4.4.src.zip +Heritrix-1.4.4.zip

    "Myeclipse下安装说明及常见问题.txt" 文件提供了在MyEclipse集成开发环境中安装和运行Heritrix的步骤和可能遇到的问题的解决方案。MyEclipse是一种强大的Java EE集成开发环境,对Java项目的支持非常全面,因此它是...

    网络爬虫Heritrix1.14.4可直接用

    7. **日志和监控**:Heritrix有完善的日志记录系统,可以帮助开发者跟踪爬虫状态,定位问题。同时,它还提供了一些性能指标,如抓取速度、错误率等,方便用户监控爬虫运行情况。 8. **安全性与伦理**:使用Heritrix...

    heritrix下载及配置

    1. 解压heritrix-1.14.0-RC1.zip和heritrix-1.14.0-RC1-src.zip,将jar文件放在E:/MyWork/heritrix/heritrix-1.14-jar目录下,源码放在E:/MyWork/libs/heritrix/heritrix-1.14.0-RC1-src/heritrix-1.14.0-RC1目录下...

    heritrix源码

    这个“Heritrix源码”压缩包可能包含了Heritrix项目的完整源代码,以及相关的学习资料,对于深入理解Heritrix的工作原理、定制爬虫功能以及进行二次开发非常有帮助。以下将详细介绍Heritrix的关键知识点。 1. **...

    heritrix-1.14.2.zip

    对于学习网络爬虫技术的人来说,Heritrix提供了一个很好的平台,不仅可以了解爬虫的基本工作原理,还可以深入研究如何处理复杂的网络情况,如登录、cookie管理、动态加载内容等。同时,Heritrix的开源性质使得它成为...

    heritrix爬虫安装部署

    #### 四、Heritrix运行示例 1. **启动Heritrix服务**: - 通过命令行方式启动Heritrix服务。 - 确认服务已成功监听8080端口。 2. **访问WebUI**: - 在浏览器中输入`http://127.0.0.1:8080`访问Heritrix的Web用户...

    heritrix-1.14.4爬虫框架及源码

    这个版本的源码和编译后的二进制文件分别以"heritrix-1.14.4.zip"和"heritrix-1.14.4-src.zip"的名义提供,允许用户进行深入研究、学习或二次开发。 在Heritrix中,爬虫的主要工作流程包括种子管理、URL过滤、内容...

    heritrix1.14.0jar包

    Heritrix是一款强大的开源网络爬虫工具,由互联网档案馆(Internet Archive)开发,用于抓取和保存网页数据。在IT行业中,爬虫是获取大量网络数据的重要手段,Heritrix因其灵活性、可扩展性和定制性而备受青睐。标题...

    heritrix-3.1.0 最新jar包

    - **错误处理和重试机制**:遇到HTTP错误、超时或其他网络问题时,Heritrix会自动处理并决定是否重新尝试抓取。 - **监控和日志**:Heritrix提供了丰富的监控接口,可以实时查看爬行进度、错误信息等,并通过日志...

    Heritrix的安装与配置

    这个文件可以在`heritrix-1.14.4-src\src\resources\org\archive\util`目录下找到,将其复制到你的`org.archive.util`包中即可解决问题。 完成以上步骤后,Heritrix的安装和基本配置就已经完成。你可以启动Heritrix...

    heritrix3种子载入方式

    Heritrix3种子载入方式共有四种,分别是: 1. 直接载入方式: 直接载入是通过配置文件直接指定种子的方式。这种方式操作简单,适合种子数量较少且不需要频繁更换种子的场景。用户在配置文件中直接指定种子URL列表...

    Heritrix(windows版)

    如果你打算对Heritrix进行二次开发,或者需要解决特定问题,那么这个源代码包是必不可少的。 此外,还有一个名为“官方下载地址.txt”的文件,它很可能包含了Heritrix的最新版本或其他相关资源的下载链接。确保从...

    heritrix 3.1

    Heritrix 3.1是互联网档案馆开发的一款开源网络爬虫工具,专门用于抓取和保存网页。这款强大的爬虫软件广泛应用于学术...通过不断学习和实践,我们可以充分利用Heritrix 3.1的强大功能,解决各种复杂的网络抓取问题。

    Heritrix使用详解与高级开发应用

    Heritrix是一个强大的Java开发的开源网络爬虫,主要用于从互联网上抓取各种资源。...本文将深入探讨Heritrix的使用方法和高级开发应用。...学习和掌握Heritrix的使用和开发,将有助于提升你在网络数据获取领域的专业技能。

    Heritrix部署直接能运行的项目

    Heritrix是IA的开放源代码,可扩展的,基于整个Web的,归档网络爬虫工程 Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的 资源进行归档,建立网络数字图书馆,在过去的6年里,IA已经建立了400...

Global site tag (gtag.js) - Google Analytics