今天折腾了半天,终于把Heritrix配置好了,真是太不容易了,要把这个过程写下来。
配置:
1.下载heritrix-1.14.3: http://sourceforge.net/projects/archive-crawler/files/archive-crawler%20%28heritrix%201.x%29/1.14.3/heritrix-1.14.3.zip/download
2.解压到D:\dev\heritrix-1.14.3
3.把heritrix-1.14.3.jar解压并把里面的profiles文件夹拷到conf下
4.修改conf目录下的heritrix.properties为
heritrix.cmdline.admin = admin:admin(表示用户名和密码都是admin,用:分开)
heritrix.cmdline.port = 8080
4.把conf目录下的jmxremote.password.template另存为jmxremote.password并移动到D:\dev\heritrix-1.14.3目录下
5.设置环境变量:
在系统变量里新建 HERITRIX_HOME=D:\dev\heritrix-1.14.3
并在系统变量的path后添加;%HERITRIX_HOME%\bin
6.在命令行下输入heritrix --admin=admin:admin启动heritrix。
抓取任务的创建:
1.在地址栏输入http://localhost:8080出现heritrix,说明已经启动成功。输入用户名和密码并登陆。
2.点击“Jobs”标签页,会出现:
Create New Job
Based on existing job
Based on a recovery
Based on a profile
With defaults
第一次创建就选"With defaults",输入Name of new job, Description ,seeds的地址,seeds的地址要特别注意,比如http://news.sohu.com/(最后那个/是必须的),如果要输入多个url,可以用回车隔开,也就是每行一个url。
3.点下面的“modules"设置Writers,把默认的ARCWriterProcessor删除,添加MirrorWriterProcessor。
4.点“settings”设置 http-headers(这是非常非常重要的一点,当时折磨了我一个多小时,都快崩溃了,不过关键是我没好好利用起我那本书,要不然就不至于这么惨烈)
给个例子吧,就全明白了:
user-agent:IE/7.0 (compatible; heritrix/1.14.3 +http://10.2.21.240)
from:xxx@163.com
最重要的是user-agent中http前的那个+号,我就因为它一直没跑通,from中填写email地址,只要是email格式的就行
5.最后点击“submit job”就完成了job的创建
6.点“Console”中的start就能开始抓取任务,然后我们就可以在Job Status看到任务的执行情况。
就这样,我顺利爬取了第一个任务,加油加油,继续努力,期待我的搜索引擎尽快出炉。
分享到:
相关推荐
- 任务创建页面提供了四种方式:基于现有任务、基于恢复、基于模板或默认设置。 - 选择`With defaults`创建任务,填写任务名、描述和起始URL。 - 配置处理链:在`Select Writers`中移除默认的`ARCWriterProcessor...
本文将详细介绍Heritrix的运行和任务设置,旨在帮助初学者理解其核心配置和操作流程。 **Heritrix的基本概念** 1. **种子(Seeds)**:启动爬虫的起点,即要抓取的第一个或一组URL。 2. **策略(Policies)**:...
接着,我们需要建立抓取任务: 1. 创建任务:在管理页面中选择“jobs” -> “With defaults”。 2. 填写种子URL:输入之前获取的空调商品列表页URL。 3. 配置模块和设置: - 选择Crawl Scope,将默认的替换为`org....
除了基本的抓取任务配置外,Heritrix 还允许用户自定义复杂的配置文件,以满足特殊需求。 #### 十七、处理链 Heritrix 引入了处理链的概念,即一组按顺序执行的处理器。处理链可以帮助用户更好地控制数据流,提高...
登录后,你可以看到Heritrix的控制台界面,可以开始创建新的抓取任务(job)。这通常涉及配置抓取策略、设置爬行范围、选择处理模块等。Heritrix提供了强大的可定制性,允许用户根据需求定义抓取行为,如遵循或忽略...
在配置和使用 Heritrix 时,有几个关键步骤和注意事项需要了解。 首先,要开始配置 Heritrix,你需要从官方网站下载源码包(如 heritrix 1.12.1-src.zip)和预编译的二进制包(如 heritrix 1.12.1.zip)。这两个...
### Heritrix的安装与配置详解 ...以上就是Heritrix的安装与配置全过程,包括创建抓取任务和在Eclipse中的集成配置。Heritrix是一款非常强大的工具,通过合理的配置可以有效地帮助用户进行网页数据的采集与分析。
Heritrix 的用户手册提供了如何创建、配置和运行抓取任务的详细说明,适用于那些对网页抓取至少有基本了解的用户。以下是从手册中提取的关键知识点: 1. 安装和运行 Heritrix:Heritrix 是一个纯 Java 程序,理论上...
例如,`IndexWriter` 类用于创建和更新索引,`Analyzer` 类用于处理文本,`QueryParser` 用于解析搜索查询,而 `Searcher` 类则负责执行搜索。Heritrix 的 API 则包含了爬虫的启动、暂停、停止以及抓取规则的设定,...
首先,创建一个新的抓取任务,并指定起始URL和抓取深度。然后,选择适当的抓取策略,例如是否遵循robots.txt规则、设置抓取速率限制等。最后,保存配置并启动任务,通过Web界面监控抓取进度和状态。 ### 五、创建...
Heritrix是一个开源的互联网爬虫工具,专...提交设置后,Heritrix将开始执行抓取任务,按照用户定义的规则和流程遍历互联网,收集和处理网页数据。通过这种方式,Heritrix成为了研究、分析和存档网络内容的强大工具。
1. **爬取任务初始化**: 创建新的爬取任务,并配置爬取范围、频率等参数。 2. **页面抓取**: - 分析目标网站的有效URI(统一资源标识符)。 - 发送HTTP请求,获取响应数据。 3. **数据处理**: - 解析HTML页面内容。...
下面将详细介绍Heritrix的基本概念、安装步骤、任务创建以及任务分析。 1. **Heritrix简介**: Heritrix是由Internet Archive开发的,旨在提供一个灵活且可定制的框架,用于抓取互联网上的静态和动态内容。它支持...
总的来说,Heritrix 3 是一个强大且灵活的网络爬虫工具,适合进行大规模的网页抓取任务。它的设计考虑了可扩展性和易用性,尽管存在一些限制,但随着版本的更新,这些问题有望得到解决。对于那些需要深入研究和定制...
对于高级开发者来说,Heritrix的可扩展性允许自定义处理器、策略和过滤器,以实现定制化的网络抓取需求。例如,你可以创建自己的URI选择策略,以决定哪些网页应该被爬取,或者编写自定义的抓取模块,处理特定的网页...
总的来说,Heritrix 3 是一个强大而灵活的网络爬虫工具,适用于研究、数据分析和存档等任务。无论是直接使用预编译的发行版,还是基于源代码进行定制,都能满足不同程度的需求。如果你对互联网数据有兴趣,Heritrix ...
- **多线程处理**:Heritrix 使用多线程模型,高效地并发处理多个网页抓取任务。 - **内容解析**:Heritrix 支持多种网页格式,包括HTML、XML、PDF等,能解析并提取出有价值的信息。 - **存储与归档**:抓取的...