1 下载 和 解压
从http://crawler.archive.org/下载解压到本地 E:\heritrix-1.14.3
2 配置环境变量
HERITRIX_HOME=E:\heritrix-1.14.3
path后追加 ;%HERITRIX_HOME%\bin
3 配置 heritrix
拷贝E:\heritrix-1.14.3\conf\jmxremote.password.template到E:\heritrix-1.14.3下
并从命名为jmxremote.password
修改E:\heritrix-1.14.3\conf下的heritrix.properties 文件
用UrltraEditor或其他的文本编辑工具打开,找到 heritrix.cmdline.admin =
admin是空的 这是登陆heritrix UI的用户名和密码 格式为 username:password
heritrix.cmdline.admin = admin:admin
heritrix.cmdline.port = 8080 配置端口 为了不和tomcat的8080端口冲突我改为8888
用winrar 打开E:\heritrix-1.14.3下的heritrix-1.14.jar文件,将其目录中的profiles文件夹拷到
E:\heritrix-1.14.3\conf目录下即完成heritrix的配置
(用些网友说要将jmxremote.password文件的属性改为只读,我不知道为什么?,官方文档里也没说)
4 启动heritrix
开始 -》运行 -》cmd 打开cmd端口
输入heritrix --admin=admin:admin
--admin heritrix的启动参数 必须的*
弹出一个Heritrix窗口 打印。。。。。。。。。。。。。Heritrix version: 1.14.3
cmd窗口打印出
2009-04-15 星期三 10:42:03.04 Starting heritrix
Heritrix 1.14.3 is running.
Web console is at: http://127.0.0.1:8888
Web console login and password: admin/admin
表示启动完成
5 抓取任务
用浏览器打开http://127.0.0.1:8888 输入用户名和密码
选Jobs选项, 在Create New Job 下选择 With defaults 子项
Create new crawl job based on default profile
Name of new job 和Description 随便写
Seeds 填写要抓取的网站 http://www.verycd.com/ (必须以/结尾)
单击Modules 按钮
Select Modules and Add/Remove/Order Processors
从上而下,可以看到,需要配置的内容共有7项
1.CrawlScope
CrawlScope用于配置当前应该在什么范围内抓取网页链接。比如,如果选择BroadScope,则表示当前
抓 取的范围不受限制,但如果选择了HostScope,则表示抓取的范围在当前的Host内。
选择 org.archive.crawler.scope.BroadScope 单击change按钮即可
2.URI Frontier
URI Frontier是一个URL的处理器,它将决定下一个被处理的URL是什么。同时,它还会将经由处理器
链所解析出来的URL加入到等待处理的队列中去。在例子中,使用BdbFrontier类来做为处理器,全权
掌管URL的分配
选择 org.archive.crawler.frontier.BdbFrontier 单击change按钮即可
3.Pre Processors
这个队列中,所有的处理器都是用来对抓取时的一些先决条件做判断的。比如判断robot.txt的信息等
,它是整个处理器链的入口
选择org.archive.crawler.prefetch.Preselector 和
org.archive.crawler.prefetch.PreconditionEnforcer 两项 (在下拉列表中选择好,点击Add添加即可
)
4.Fetcher:从名称上看,它用于解析网络传输协议,比如解析DNS、HTTP或FTP等
选择org.archive.crawler.fetcher.FetchDNS
org.archive.crawler.fetcher.FetchHTTP 两个单击Add添加
5.Extractors
它主要用是于解析当前获取到的服务器返回内容,这些内容通常是以字符串形式缓存的。在这个队列中
,包括了一系列的工具,如解析HTML、CSS等。在解析完毕,取出页面中的URL后,将它们放入队列中,等
待下次继续抓取
org.archive.crawler.extractor.ExtractorHTTP
org.archive.crawler.extractor.ExtractorHTML
org.archive.crawler.extractor.ExtractorCSS
org.archive.crawler.extractor.ExtractorJS
org.archive.crawler.extractor.ExtractorSWF
6.Writers
Writers主要是用于将所抓取到的信息写入磁盘。通常写入磁盘时有两种形式,一种是采用压缩的方式写
入,在这里被称为Arc方式,另一种则采用镜象方式写入。当然处理起来,镜象方式要更为容易一些。
默认的是Arc方式 点击旁边的Remove 删除 在下拉框中选择
org.archive.crawler.writer.MirrorWriterProcessor 单击Add添加
7 Post Processors
在整个抓取解析过程结束后,进行一些扫尾的工作,比如将前面Extractor解析出来的URL有条件的加入
到待处理队列中去
org.archive.crawler.postprocessor.CrawlStateUpdater
org.archive.crawler.postprocessor.LinksScoper
org.archive.crawler.postprocessor.FrontierScheduler 单击Add添加
【在设置时,可以看见在队列的右侧总是有“Up”、“Down”和“Remove”这样的操作是因为在处理器链
的设置过程中,每一个队列中的处理器都是要分先后顺序的】
设置运行时的参数
在设置完处理链后,选择Jobs菜单的“Settings”项进入运行参数设置页面 . 进入运行参数设置页面
后,有很多可以设定的参数,对于需要了解详情的设置,请点击设置框左边的“?”号,可看到弹出的帮
助信息。这里只要更改 “HTTP-Header”项中的内容,更改其属性值user-agent和 from
其中user-agent中的 PROJECT_URL_HERE 对应自己的完整URL地址,(http://192.168.16.128)
from中设置自己的合法email地址 只需是格式正确的邮件地址就可以
@VERSION@是设置heritrix的版本 填上1.14.3
user-agent Mozilla/5.0 (compatible; heritrix/1.14.3 +http://192.168.16.128)
设置完成后单击“Submit job”链接 会回到Job是页面
显示了“Job created”,这表示刚才所设置的抓取任务已经被成功的建立。同时,在下面的“Pending
Jobs”一栏,可以清楚的看到刚刚被创建的Job,它的状态目前为“Pending”。
最后启动这个任务。回到“Console”界面上,可以看到刚刚创建的任务已经显示了出来,等待我们开始
它。
单击面版中的“Start”链接,就会将此时处于“Pending”状态的抓取任务激活,令其开始抓取
此时,面版中出现了一条抓取状态栏,它清楚的显示了当前已经被抓取的链接数量
抓取完毕后在E:\heritrix-1.14.3\目录下生成以个jobs目录
进入jobs 可以看到 verycd-20090415024225919 其中verycd就是job的名称
进去 里面有一个mirror目录 是因为在前面设置了Writer的类型为MirrorWriter
里面每一个站点的URL地址即为保存的目录名称
至此 heritrix抓取任务就到此结束...
附上用lucene做的简易网页搜索
分享到:
相关推荐
"heritrix学习总结 - 入门技术 - New - ITeye论坛.mht"是另一份入门级的学习资料,适合初学者。它可能涵盖了Heritrix的基本概念、安装步骤、启动和运行爬虫的基本流程,以及一些常见的问题和解决方法。对于新接触...
总结来说,Heritrix 1.14.4是一个功能丰富的网络爬虫工具,它的模块化设计和灵活的配置使得它适合各种规模的爬虫项目。通过深入学习和实践,开发者可以掌握网络爬虫的基本原理和技术,并能够构建自己的网络数据获取...
总结来说,Heritrix是一个强大的工具,适用于那些需要构建自定义搜索引擎或进行大规模网络数据分析的项目。通过其全面的功能和开放源码的特点,Heritrix促进了IT行业的创新,让开发者能够更便捷地获取和利用互联网上...
《Heritrix用户参考手册》深入解读:网络...总结来说,《Heritrix用户参考手册》全面介绍了Heritrix的安装、配置、运行和分析方法,是一份宝贵的资源,对于希望掌握Heritrix使用技巧的用户而言,具有重要的参考价值。
总结来说,这个源码资料包提供了学习和实践搜索引擎开发的良好资源。通过阅读和运行这些例子,开发者可以深入了解Lucene 2.0和Heritrix的协同工作方式,以及如何构建一个自定义的搜索引擎系统。同时,DWR的使用也...
Heritrix和Lucene是两个在信息技术领域中用于搜索引擎开发的重要工具。...在给定的"heritrix+lucene搜索引擎开发资料"中,应包含这两部分的相关学术论文和研究,为学习和实践搜索引擎开发提供了宝贵的资源。
总结,基于Heritrix的Web信息抽取技术提供了一种有效的方法,既考虑了抽取的准确性,又兼顾了通用性,是应对Web海量信息处理的重要工具。随着技术的进步,信息抽取将更加智能和自适应,更好地服务于信息检索和数据...
通过对源代码的学习和理解,开发者可以更深入地掌握这两者的内在工作原理,进一步定制和优化自己的检索系统。在实际应用中,这种结合可以广泛应用于学术研究、新闻监控、市场分析等领域,提升数据的检索效率和分析...
通过学习Lucene 2.0和Heritrix的相关知识,我们可以构建出一个简单的搜索引擎。首先使用Heritrix爬取目标网站的内容,然后通过Lucene 2.0对这些内容进行索引和搜索。虽然这只是一个基础框架,但它为理解搜索引擎的...
总结来说,这个基于Lucene的小型搜索引擎项目涵盖了网络爬虫、数据处理、全文搜索引擎和前端开发等多个环节。通过Heritrix爬取数据,利用Lucene建立高效索引,JSP实现交互界面,形成了一套完整的搜索引擎系统。这样...
**总结** 基于Lucene的Web搜索应用程序结合了Heritrix的爬取能力与Lucene的索引和搜索功能,实现了从海量网页中快速、准确地找到所需信息。这种解决方案不仅可以用于个人项目,也可应用于企业级搜索服务,帮助用户...
- **工具准备:** 安装了所需的开发工具(如Eclipse、Dreamweaver),下载了Heritrix,并开始学习Java编程语言。 - **需求分析与报告撰写:** 完成了开题报告和需求分析报告的撰写,明确了项目的具体需求和技术路线...
总结来说,网络爬虫是搜索引擎背后的关键技术,通过不断学习和优化,它们能够更高效地抓取、处理和更新海量网络数据,为用户提供及时、准确的信息检索服务。Nutch和Heritrix作为优秀的开源爬虫工具,提供了丰富的...
信息检索(Information Retrieval, IR)是一门综合学科,它涉及文本及多媒体检索、数据挖掘、机器学习和自然语言处理等多个领域。IR 的主要目标是从大规模的非结构化数据中,如互联网上的文本文档,寻找并提供满足...
《基于Lucene的全文搜索引擎设计》 ...通过整合各种开源技术和工具,实现了从数据采集到信息检索的完整流程,为用户提供了高效、灵活的搜索服务,同时也为开发者提供了一种有效的学习和实践平台。
这些基础知识为后续章节的学习打下了坚实的理论基础。 #### 二、Lucene入门实例 -Lucene是Apache基金会旗下的一个开源文本搜索库,它提供了全面的搜索功能。本章节通过一个简单的实例来介绍如何使用Lucene进行文本...
总结起来,"awesome-web-archiving" 是一个全面介绍Web存档的资源库,涵盖了从基础概念到实践工具的广泛内容,对于任何希望深入了解这个领域的个人或组织来说,都是宝贵的参考资料。通过学习和利用这个列表,我们...