`

准备跟大家分享下我Heritrix(机器爬虫)的经验

阅读更多

   Heritrix是我真正意义上读的第一套开源框架源代码,直到今天才对其庐山真面目有点眉目,以前通过百度和GOOGLE等搜索引擎、csdn、javaeye去获取关于它的学习资料,但大部分是入门级的,只能教你怎么使用它,有一点的源码剖析也只是出于结构上大致的给你讲解下。不过这些对我们入门还是有用的,最起码你可以让其运行,然后花时间花精力去学习它。
    不过由于我做的是垂直搜索引擎,由于Heritrix在抓取上通常是一次性将全站抓取,还没发做到垂直搜索引擎对爬虫的要求(像酷讯那样跟踪监视它需要抓取的网站,该网站一有新的内容就抓取过来),所以目前我正在将其进行改造,也通过xml配置种子URL、需要抓取的网址路径格式、多长时间抓取一次(就是多长时间重新对种子URL进行抓取)、抓取网页存放路径、抓取网页抽取类等配置实现一个垂直搜索引擎爬虫。
    目前代码完成了大约80%,省去了Heritrix的UI启动方式。不过也在思考着是否将HERITRIX的UI方式进行扩展,可以通过UI远程监控控制爬虫的运行。
    想法有很多,待完成的还有很多很多。正好也验证下我对HERITRIX源代码是否已经掌握?
    加油!
    接下来将上传我heritrix的各种学习资料,不过网络上也可以获取,不过这里相对应该更齐全!

 

更多技术文章、感悟、分享、勾搭,请用微信扫描:

分享到:
评论
7 楼 tianyuxxx 2016-05-25  
endy219 写道
起步学习,资料的确比较少,谢谢分享!

6 楼 endy219 2014-05-06  
起步学习,资料的确比较少,谢谢分享!
5 楼 cyongxue 2013-03-20  
发现这个,我表示很开心,嘻嘻,希望能向博主多多学习
4 楼 AC_MI 2013-03-01  
我也在做垂直搜索,以前用的是httpclient的,现在想用heritrix ,刚安装后,可是不知道怎么用的,是自己使用它提供的api 写程序还是配置文件,然后让它执行?
3 楼 gaoyue_xuejishu 2012-07-17  
楼主,关于heritrix 更新的问题,您现在是怎么考虑的呢?具体扩展哪些类呢
2 楼 weiweisky 2011-08-01  
学习~感谢分享经验
1 楼 crabboy 2010-05-12  
学习中,,,,关注

相关推荐

    网络爬虫Heritrix1.14.4可直接用

    Heritrix是一款强大的开源网络爬虫工具,由互联网档案馆(Internet Archive)开发,主要用于抓取和保存网页内容。Heritrix 1.14.4是该软件的一个较早版本,但依然具有广泛的适用性,尤其对于学习和研究网络爬虫技术...

    heritrix爬虫安装部署

    ### Heritrix爬虫安装部署知识点详解 #### 一、Heritrix爬虫简介 Heritrix是一款由互联网档案馆(Internet Archive)开发的开源网络爬虫框架,它使用Java语言编写,支持高度定制化的需求。Heritrix的设计初衷是为了...

    Heritrix爬虫框架 完整版

    Heritrix爬虫框架是一款基于Java开发的开源网络爬虫工具,专为互联网资源的抓取而设计。这款强大的框架以其高度的可扩展性和灵活性著称,允许开发者根据实际需求定制爬取策略,从而实现对特定网站或网络内容的深度...

    Heritrix网络爬虫

    Heritrix是一款强大的开源网络爬虫工具,由Internet Archive开发并维护,被广泛用于数据挖掘、网站备份和学术研究等领域。这款爬虫以其高度可配置性和模块化设计著称,允许用户根据需求定制爬取策略。 Heritrix的...

    heritrix网络爬虫

    Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取...

    Heritrix网络爬虫开发包

    Heritrix是一款强大的开源网络爬虫工具,专为大规模网页抓取而设计。它由互联网档案馆(Internet Archive)开发,旨在系统性地、可扩展地抓取互联网上的信息资源,为研究人员、数据分析师和图书馆员等用户提供丰富的...

    Heritrix 网络爬虫

    Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-quality web crawler project. Heritrix (sometimes spelled heretrix, or misspelled or missaid as heratrix/heritix/ heretix...

    heritrix爬虫工具的使用

    Heritrix是一款开源的网络爬虫工具,由互联网档案馆(Internet Archive)开发,用于抓取互联网上的网页和资源。这个强大的工具允许用户自定义抓取策略,以便于构建自己的网络数据采集系统。Heritrix提供了高度可配置...

    heritrix爬虫,安装tomcat

    Heritrix是一款开源的网络爬虫工具,专为大规模、可定制的网页抓取而设计。它由互联网档案馆(Internet Archive)开发,是互联网数据挖掘和内容存档的重要工具。在本篇中,我们将详细介绍如何安装Heritrix以及如何在...

    heritrix-1.14.4爬虫框架及源码

    Heritrix是一款强大的开源网络爬虫框架,专为大规模网页抓取而设计。它由互联网档案馆(Internet Archive)开发并维护,旨在提供一个灵活、可扩展的平台,用于构建自定义的网络抓取任务。Heritrix的核心理念是允许...

    Heritrix爬虫处理方案V1.0

    安装部署好的Heritrix爬虫总共有28个jar包(不包括系统jar包)。关于Heritrix的安装配置及使用方法在文档末尾给出网址链接。在Eclipse中安装配置完成后,运行Heritrix.java启动爬虫,在浏览器地址栏中输入:...

    Heritrix框架下网络爬虫应用毕业设计

    在Heritrix框架下进行网络爬虫应用的毕业设计,涉及到多个关键知识点,包括网络爬虫的基本概念、Heritrix的系统架构、工作原理、实现技术以及主题搜索与Web信息抽取。 1. **网络爬虫基本概念**:网络爬虫是自动地...

    heritrix框架下网络爬虫应用答辩PPT

    Heritrix框架下网络爬虫应用答辩PPT,这个和我的毕业设计是配套的,毕业设计在这http://download.csdn.net/detail/memmrf1314/5711913,都是自己手写,可以参考。

    开源的爬虫软件Heritrix3.1.0

    Heritrix是一款强大的开源网络爬虫软件,专为大规模网页抓取而设计。这款软件以其灵活性、可扩展性和模块化架构而闻名,被广泛应用于学术研究、数据分析、搜索引擎索引构建等多个领域。Heritrix 3.1.0是其最新的稳定...

    网络爬虫(heritrix)代码

    在本主题中,我们重点关注Heritrix,一个开源、可配置且强大的网络爬虫工具,广泛用于构建搜索引擎和其他需要大量网页数据的应用。 标题中的"网络爬虫(heritrix)代码"意味着我们将探讨Heritrix的安装、配置和编程...

    Heritrix构建特定站点爬虫

    1. **配置抓取范围**:通过修改Heritrix的配置文件,可以限定爬虫只能抓取指定域名下的页面。 2. **自定义爬虫逻辑**:根据需求编写Java代码,实现特定的爬取逻辑。例如,可以通过实现Heritrix提供的插件接口来过滤...

    开发自己的搜索引擎--Lucene 2.0+Heritrix(爬虫)

    Heritrix设计用于系统性地抓取互联网上的网页,将其保存并准备进行进一步的处理。在开发自己的搜索引擎时,Heritrix可以帮助我们收集需要索引的数据源。它可以配置为遵循特定的抓取策略,例如按照URL种子开始,或者...

Global site tag (gtag.js) - Google Analytics