`
lxwt909
  • 浏览: 572313 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Heritrix1.14.4 Web后台使用简介

阅读更多

        启动Heritrix后,访问http://localhost:6789就可以打开Heritrix的登录界面,登录后即进入了Heritrix Web后台的主页:

 console: Heritrix的控制台,会显示Heritrix的抓取任务和分配给HeritrixHeap使用情况

   JobsHeritrix的抓取任务界面,比如创建抓取任务,已挂起的任务,已完成的任务统计

   Profiles:Heritrix抓取任务相关的配置

   Logs:Heritrix的运行日志

   Reports:Heritrix的统计报表

   Setup:Heritrix实例管理界面以及Heritrix后台登录帐号密码修改

   Help:Heritrix的使用帮助文档

 

 首先我们需要切到Jobs界面,创建一个Job,如图:

 

  根据一个已经存在的job创建抓取任务

2.   根据一个抓取任务备份来创建抓取任务

3.   根据配置创建抓取任务

4.   按照默认方式创建抓取任务

asd   

    一般我们选择第3种创建方式:

 

 

 

 
关于Settings里相关配置项的含义解释说明请看下面这张图:

 
修改好后提交创建job,然后就能切到Console界面点击Start来启动抓取任务进行页面抓取

 

 
抓取到的网页默认保存在heritrix_hone\jobs目录下,我们创建的每个job都会在jobs目录下生成一个文件夹,命名方式为job名称+当前时间戳的方式,如图:

 
虽然Heritrixweb后台是全英文的,但我觉得没什么使用难度,你们多点点它的功能,从宏观上多感受下Heritrix的强大之处。最后是多阅读下Help界面里列出的一些帮助文档,这是你学习Heritrix最宝贵的资料:

 

  益达的GitHub地址请猛戳我,用力,吃点劲儿!!!

益达的新浪微博:看这里,看这里

益达的技术交流社区:码农们,I want you!!!

 

   益达Q-Q:                7-3-6-0-3-1-3-0-5

 

 

   益达的Q-Q群:      1-0-5-0-9-8-8-0-6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  • 大小: 15.4 KB
  • 大小: 11.5 KB
  • 大小: 12.1 KB
  • 大小: 23.2 KB
  • 大小: 22 KB
  • 大小: 20.4 KB
  • 大小: 10.1 KB
  • 大小: 18 KB
  • 大小: 30 KB
  • 大小: 24.6 KB
  • 大小: 48.8 KB
9
2
分享到:
评论
1 楼 u011643314 2015-09-10  
为什么我的有些界面没有呢,你那个select的界面在哪呢,我怎么没发现,也找到呢,而且jobs下面有虽然有但是是抓取任务的一些配置,根本没有数据的节奏啊,

相关推荐

    网络爬虫Heritrix1.14.4可直接用

    Heritrix 1.14.4是该软件的一个较早版本,但依然具有广泛的适用性,尤其对于学习和研究网络爬虫技术的初学者而言。 在Heritrix 1.14.4中,主要涉及以下几个核心知识点: 1. **网络爬虫原理**:网络爬虫是自动化...

    heritrix1.14.4(内含src)

    在使用Heritrix 1.14.4时,需要注意的是,由于这是一个较旧的版本,可能会有一些已知的问题或者不支持现代网站的新特性。因此,在实际应用中,可能需要升级到最新版本以获取更好的性能和兼容性。同时,源代码的可用...

    Heritrix1.14.4(含源码包)

    在开始使用Heritrix 1.14.4之前,你需要了解以下几个核心知识点: 1. **爬虫基础**:Heritrix是一个Web爬虫,其主要功能是自动遍历互联网上的网页,按照预设的规则抓取内容。它通过模拟浏览器发送HTTP请求,接收...

    heritrix1.14.4源码包

    heritrix1.14.4的源码包,包含heritrix1.14.4.zip和heritrix1.14.4-src.zip。heritrix是一种开源的网络爬虫,用于爬去互联网中的网页。如何配置和使用heritrix爬虫,请移步:...

    heritrix1.14.4源码+项目

    这个“Heritrix1.14.4源码+项目”压缩包包含的是Heritrix 1.14.4版本的源代码和相关项目文件,对于学习和理解Web爬虫的工作原理,以及进行自定义开发是非常有价值的。 Heritrix的核心功能是通过模拟浏览器行为来...

    heritrix-1.14.4.zip 和 heritrix-1.14.4-src.zip

    Heritrix 1.14.4是该工具的一个版本,提供了两个压缩包:`heritrix-1.14.4.zip`和`heritrix-1.14.4-src.zip`。这两个文件分别包含了不同的内容,便于用户根据需求进行使用和开发。 `heritrix-1.14.4.zip` 包含了...

    Myeclipse下Heritrix1.14.4 图文环境搭建和配置

    本文将详细阐述如何在MyEclipse环境下搭建和配置Heritrix 1.14.4。 首先,我们需要了解Heritrix的基本概念。Heritrix是一个可编程的、高度模块化的爬虫,支持定制化策略以满足各种抓取需求。它使用Java编写,因此在...

    Heritrix1.14.4

    Heritrix 1.14.4是该项目的一个稳定版本,提供了许多功能和改进,确保了高效和可靠的数据采集。 在Heritrix中,核心概念是“策略”(Strategies)和“处理器”(Processors)。策略定义了爬虫如何选择要抓取的URL,...

    heritrix-1.14.4-src

    要使用Heritrix-1.14.4-src,你需要首先安装Java开发环境(JDK),然后遵循提供的构建指示编译源代码。一旦编译成功,你可以配置Heritrix以适应你的爬虫需求,例如设置爬行深度、排除某些URL模式,或者定制链接解析...

    heritrix-1.14.4

    这个"heritrix-1.14.4"版本是Heritrix的特定发行版,提供了对互联网资源进行系统性抓取的功能,帮助用户构建自己的网络存档。 标题"heritrix-1.14.4"表明这是Heritrix的1.14.4版本,这是一个重要的标识,因为每个...

    heritrix-1.14.4爬虫框架及源码

    这个版本的源码和编译后的二进制文件分别以"heritrix-1.14.4.zip"和"heritrix-1.14.4-src.zip"的名义提供,允许用户进行深入研究、学习或二次开发。 在Heritrix中,爬虫的主要工作流程包括种子管理、URL过滤、内容...

    heritrix-1.14.4 for linux

    此外,Heritrix支持通过命令行界面和Web控制台进行配置和监控,使得操作更加直观。 总的来说,Heritrix 1.14.4 for Linux是一个强大且灵活的网络爬虫工具,适用于需要大量网页数据的场景,如学术研究、数据分析或...

    Heritrix-1.14.4源代码

    通过深入研究Heritrix-1.14.4的源代码,你可以学习到网络爬虫的基本架构,了解HTTP通信、网页解析、链接处理和数据存储等相关技术,这对于提升你的Web开发和数据抓取能力大有裨益。同时,这也是一个实践软件工程和...

    heritrix-1.14.4-docs.rar

    "heritrix-1.14.4-docs.rar"这个压缩包包含了该版本的文档,帮助用户理解和使用Heritrix。 文档通常包括用户手册、开发者指南、API参考等,这些内容对于熟悉Heritrix的架构、配置和编程接口至关重要。由于文件较大...

    heritrix-1.14.4控制台可执行版本

    近期需要使用heritrix-1.14.4,配了半天才配好,这个是控制台执行版本. 注意:解压到相关目录,之后配置系统环境变量"HERITRIX_HOME"到该解压目录(Java环境已经配置好)。 使用控制台命令启动 : heritrix --admin=...

Global site tag (gtag.js) - Google Analytics