`
fffddgx
  • 浏览: 38737 次
  • 性别: Icon_minigender_1
  • 来自: 济南
社区版块
存档分类
最新评论

heritrix使用经验

XML 
阅读更多

1:create  based on existing job 会把order.xml这个文件copy进去,对于在setting中没有可更改的选项会和existing Job 一样。

2:对于上次说的那个 seed report 中抛出的那个domain...异常(种子下载异常)过一段时间种子也许可以继续下载下来。

 

3:如果把800多个种子一股脑的放到种子列表中的话会出现一系列我不明白的异常,而且有很多网页没有爬下来,后来我先吧50个种子放到seed列表并把线程限制为10,结果却下了比800多个种子爬取的更多的网页。

虽然可能网页下载不一定完全,但是没必要追求完美,合适就可以了。

 

今天应该可以完成下载,明天开始对网页处理。有时间要看看它的代码才行。

 

分享到:
评论

相关推荐

    很好的heritrix学习资料

    总的来说,这些资料提供了全面的Heritrix学习路径,从基础知识到实战经验,再到在Eclipse中的开发配置,对于想要深入理解和使用Heritrix的读者来说,是一套非常有价值的学习资源。通过深入研读并实践这些内容,读者...

    Heritrix1.14.4(含源码包)

    10. **社区支持**:Heritrix有一个活跃的开发者社区,你可以在论坛、邮件列表或GitHub上寻求帮助,分享经验,参与项目的发展。 在深入了解和实践Heritrix 1.14.4的过程中,你不仅会掌握网络爬虫的基本原理和技术,...

    在heritrix中使用pagerank算法

    - 参考Heritrix官方文档和社区论坛,获取更多实践经验和问题解答。 总之,在Heritrix中应用PageRank算法能够提升爬虫的智能性和抓取效率,通过深入理解其原理和实践操作,可以定制出高效、有针对性的网络抓取方案...

    Lucene2.0+Heritrix(源代码)

    总之,通过研究"Lucene2.0+Heritrix"的源代码,开发者不仅可以学习到搜索引擎的基础原理,还能掌握实际操作中的技巧和经验。这是一条通向构建个性化、高效搜索引擎的道路,对于从事信息检索、大数据分析和网站运营的...

    Heritrix1.14.4

    8. **社区支持**:作为开源项目,Heritrix有一个活跃的开发者社区,用户可以通过论坛、邮件列表等方式获取帮助,或者贡献自己的代码和经验。 总的来说,Heritrix1.14.4是一个功能全面且易用的网络爬虫工具,适合...

    Heritrix用户手册

    1. **系统要求**:在开始使用Heritrix之前,你需要确保你的系统满足必要的硬件和软件需求,包括操作系统、内存、磁盘空间以及Java环境等。 2. **新功能**:这部分介绍Heritrix 3.0和3.1版本相比之前版本新增的功能...

    Heritrix相关PPT

    《IA Heritrix preso.ppt》可能由Internet Archive(互联网档案馆)的专家制作,他们使用Heritrix进行大规模的网页存档工作。这个PPT可能会详细介绍Heritrix在大规模数据抓取中的应用,如何处理海量网页,以及如何...

    《开发自己的搜索引擎--Lucene+Heritrix》 pdf

    这本书不仅讲解了Lucene和Heritrix的基本使用方法,还提供了一个大型数码产品搜索引擎的开发案例,这个案例具有极高的实战价值。读者可以通过阅读案例,学习如何将这两个工具整合起来,完成从数据采集、预处理到索引...

    开发自己的搜索引擎——Lucene+Heritrix(第2版)_含书(PDF)和光盘

    《开发自己的搜索引擎——Lucene...总之,《开发自己的搜索引擎——Lucene+Heritrix(第2版)》是学习搜索引擎开发的宝贵资源,无论是对Lucene的深入理解,还是对Heritrix的实战应用,都能为你提供丰富的知识和实践经验。

    python招聘要求.docx

    Nutch、Heritrix和WebMagic等工具的使用经验会增加竞争力。此外,熟悉HTML、JavaScript和JSON格式数据的处理,对于数据抓取和解析至关重要。 对于数据分析,Pandas和NumPy库的熟练运用是加分项,因为它们广泛用于...

    java搜索引擎大全.zip

    这个资源集合不仅适用于初学者了解搜索引擎的基本概念,也适合有经验的开发者进行深入研究和实践。通过结合理论学习和实际操作,可以提升开发者的技能,有助于完成高质量的毕业设计或项目开发。 总之,"java搜索...

    基于Javaweb的搜索引擎的实现报告模板.docx

    在这个项目中,主要使用了Heritrix网络爬虫、Lucene全文搜索引擎、Tika页面解析器以及mmseg4j分词器来构建一个针对学院官网新闻板块的全文搜索功能。 1. **Heritrix网络爬虫**: Heritrix是一个强大的、可配置的、...

    参考简历模板三.doc

    - **网络爬虫技术**:熟练掌握Heritrix,并能运用Jsoup框架解析HTML文档。 - **C/S程序开发**:能使用JBuilder。 - **数据库**:熟练掌握SQL Server、Oracle、MySQL、Access的操作原理。 - **开源框架**:熟练...

    最新Java-培训大纲.docx

    - **搜索引擎与工作流**:学习Lucene、HTMLParser、Heritrix和JBPM,掌握信息检索与业务流程管理。 - **XML**:掌握XML语法和解析技术,用于数据交换和配置文件。 4. **企业开发技术** 强调Java SE和Java EE在...

    Java-培训大纲.doc

    - **数据库**:熟练掌握MySQL和Oracle数据库的使用,包括数据管理、查询优化和事务处理。 - **JAVA SE**:涵盖Java环境搭建、基础编程、面向对象编程、应用程序开发、Java新特性以及JDBC。 2. **Web开发**: - *...

    Offnet:保存保留多个时间戳的完整网页的程序-开源

    项目目标: - 为经验不足的用户下载网页,包括简单的设置 - 基于项目的页面维护 - 不太简单的功能,每个项目还包括多个快照 - 迭代、可理解和存储效率高的数据结构,以实现对存储页面的更多手动控制(元文件可使用 ...

Global site tag (gtag.js) - Google Analytics