`
Virgo_S
  • 浏览: 1150812 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Lucene+Heritrix开发自己的搜索引擎

阅读更多
Lucene 是apache软件基金会jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。
作为一个开放源代码项目,Lucene从问世之后,引发了开放源代码社群的巨大反响,程序员们不仅使用它构建具体的全文检索应用,而且将之集成到各种系统软件中去,以及构建Web应用,甚至某些商业软件也采用了Lucene作为其内部全文检索子系统的核心。apache软件基金会的网站使用了Lucene作为全文检索的引擎,IBM的开源软件eclipse的2.1版本中也采用了Lucene作为帮助子系统的全文索引引擎,相应的IBM的商业软件Web Sphere中也采用了Lucene。Lucene以其开放源代码的特性、优异的索引结构、良好的系统架构获得了越来越多的应用。

Lucene 作为一个全文检索引擎,其具有如下突出的优点:

(1)索引文件格式独立于应用平台。Lucene定义了一套以8位字节为基础的索引文件格式,使得兼容系统或者不同平台的应用能够共享建立的索引文件。

(2)在传统全文检索引擎的倒排索引的基础上,实现了分块索引,能够针对新的文件建立小文件索引,提升索引速度。然后通过与原有索引的合并,达到优化的目的。

(3)优秀的面向对象的系统架构,使得对于Lucene扩展的学习难度降低,方便扩充新功能。

(4)设计了独立于语言和文件格式的文本分析接口,索引器通过接受Token流完成索引文件的创立,用户扩展新的语言和文件格式,只需要实现文本分析的接口。

(5)已经默认实现了一套强大的查询引擎,用户无需自己编写代码即使系统可获得强大的查询能力,Lucene的查询实现中默认实现了布尔操作、模糊查询(Fuzzy Search)、分组查询等等。

面对已经存在的商业全文检索引擎,Lucene也具有相当的优势。首先,它的开发源代码发行方式(遵守Apache Software License),在此基础上程序员不仅仅可以充分的利用Lucene所提供的强大功能,而且可以深入细致的学习到全文检索引擎制作技术和面相对象编程的实践,进而在此基础上根据应用的实际情况编写出更好的更适合当前应用的全文检索引擎。在这一点上,商业软件的灵活性远远不及Lucene。其次,Lucene秉承了开放源代码一贯的架构优良的优势,设计了一个合理而极具扩充能力的面向对象架构,程序员可以在Lucene的基础上扩充各种功能,比如扩充中文处理能力,从文本扩充到HTML、PDF等等文本格式的处理,编写这些扩展的功能不仅仅不复杂,而且由于Lucene恰当合理的对系统设备做了程序上的抽象,扩展的功能也能轻易的达到跨平台的能力。最后,转移到apache软件基金会后,借助于apache软件基金会的网络平台,程序员可以方便的和开发者、其它程序员交流,促成资源的共享,甚至直接获得已经编写完备的扩充功能。最后,虽然Lucene使用Java语言写成,但是开放源代码社区的程序员正在不懈的将之使用各种传统语言实现(例如.net framework),在遵守Lucene索引文件格式的基础上,使得Lucene能够运行在各种各样的平台上,系统管理员可以根据当前的平台适合的语言来合理的选择。



   Heritrix是IA的开放源代码,可扩展的,基于整个Web的,归档网络爬虫工程
   Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的
   资源进行归档,建立网络数字图书馆,在过去的6年里,IA已经建立了400TB的数据。
   IA期望他们的crawler包含以下几种:
   宽带爬虫:能够以更高的带宽去站点爬。
   主题爬虫:集中于被选择的问题。
   持续爬虫:不仅仅爬更当前的网页还负责爬日后更新的网页。
   实验爬虫:对爬虫技术进行实验,以决定该爬什么,以及对不同协议的爬虫爬行结果进行分析的。
Heritrix的主页是http://crawler.archive.org
   Heritrix是一个爬虫框架,可加如入一些可互换的组件。
   它的执行是递归进行的,主要有以下几步:
   1。在预定的URI中选择一个。
   2。获取URI
   3。分析,归档结果
   4。选择已经发现的感兴趣的URI。加入预定队列。
   5。标记已经处理过的URI
   Heritrix主要有三大部件:范围部件,边界部件,处理器链
   范围部件:主要按照规则决定将哪个URI入队。
   边界部件:跟踪哪个预定的URI将被收集,和已经被收集的URI,选择下一个URI,剔除已经处理过的URI。
   处理器链:包含若干处理器获取URI,分析结果,将它们传回给边界部件
   Heritrix的其余部件有:
   WEB管理控制台:大多数都是单机的WEB应用,内嵌JAVA HTTP 服务器。
操作者可以通过选择Crawler命令来操作控制台。
   Crawler命令处理部件:包含足够的信息创建要爬的URI。
   Servercache(处理器缓存):存放服务器的持久信息,能够被爬行部件随时
查到,包括IP地址,历史记录,机器人策略。
   处理器链:
       预取链:主要是做一些准备工作,例如,对处理进行延迟和重新处理,否决随后的操作。
        提取链:主要是获得资源,进行DNS转换,填写请求和响应表单
        抽取链:当提取完成时,抽取感兴趣的HTML,JavaScript,通常那里有新的也适合的URI,此时URI仅仅被发现,不会被评估
        写链:存储爬行结果,返回内容和抽取特性,过滤完存储。
        提交链:做最后的维护,例如,测试那些不在范围内的,提交给边界部件
   Heritrix 1.0.0包含以下关键特性:
              1.用单个爬虫在多个独立的站点一直不断的进行递归的爬。
              2。从一个提供的种子进行爬,收集站点内的精确URI,和精确主机。
              3。主要是用广度优先算法进行处理。
              4。主要部件都是高效的可扩展的
              5。良好的配置,包括:
                  a。可设置输出日志,归档文件和临时文件的位置
                  b。可设置下载的最大字节,最大数量的下载文档,和最大的下载时间。
                  c。可设置工作线程数量。
                  d。可设置所利用的带宽的上界。
                  e。可在设置之后一定时间重新选择。
                  f。包含一些可设置的过滤机制,表达方式,URI路径深度选择等等。
  Heritrix的局限:
               1。单实例的爬虫,之间不能进行合作。
               2。在有限的机器资源的情况下,却要复杂的操作。
               3。只有官方支持,仅仅在Linux上进行了测试。
               4。每个爬虫是单独进行工作的,没有对更新进行修订。                      

5 。在硬件和系统失败时,恢复能力很差。
6。很少的时间用来优化性能。


分享到:
评论

相关推荐

    开发自己的搜索引擎——Lucene+Heritrix

    《开发自己的搜索引擎——Lucene+Heritrix》是一本深入探讨如何构建自定义搜索引擎的书籍,结合了Apache Lucene和Heritrix两个强大的开源工具。Lucene是Java开发的全文检索库,而Heritrix则是一款功能丰富的网络爬虫...

    搜索引擎Lucene+Heritrix(第二版)4

    《搜索引擎Lucene+Heritrix(第...总之,《搜索引擎Lucene+Heritrix(第二版)4》是学习搜索引擎技术的宝贵资源,通过阅读和实践,读者可以掌握搜索引擎的基础原理,以及如何使用Lucene和Heritrix构建自己的搜索引擎系统。

    开发自己的搜索引擎---Lucene+Heritrix(第2版)

    开发自己的搜索引擎---Lucene+Heritrix(第2版)。超星导出来的,非常清晰。CSDN上传限制60MB,点击我的用户名查看part2。

    开发自己的搜索引擎《lucene2.0+heritrix》一书对应的源码资料

    在IT领域,搜索引擎开发是一项复杂而关键的任务,它涉及到数据抓取、索引构建、查询处理等多个环节。这里我们关注的是基于开源项目Lucene 2.0...这些知识对于想要深入理解和开发搜索引擎技术的IT专业人士来说是宝贵的。

    开发自己的搜索引擎——Lucene+Heritrix(第2版)_随书光盘.rar

    《开发自己的搜索引擎——Lucene+Heritrix(第2版)_随书光盘.rar》是一个包含资源的压缩包,主要用于帮助读者深入理解并实践搜索引擎的开发。Lucene和Heritrix是两个重要的开源工具,它们在构建搜索引擎的过程中起着...

    开发自己的搜索引擎--Lucene+Heritrix

    除了Lucene和Heritrix之外,开发搜索引擎还需要掌握其他一些技能和知识点,比如网络协议的理解、服务器和数据库的使用、数据存储技术、编程语言(尤其是Java)的熟练运用等等。此外,搜索算法的设计和优化也是一个...

    开发自己的搜索引擎 lucene + heritrix

    开发自己的搜索引擎是一项复杂且具有挑战性的任务,涉及信息检索、数据处理、网络爬虫等多个领域的知识。在这个过程中,Lucene 和 Heritrix 是两个非常关键的工具,它们分别在搜索引擎的构建中扮演着不同的角色。 ...

    开发自己的搜索引擎lucene+heritrix(第2版)(ch13-ch15源码)

    《开发自己的搜索引擎lucene+heritrix(第2版)》是一部深入探讨搜索引擎开发的专业书籍,主要聚焦于开源项目Lucene和Heritrix的使用。Lucene是Java编写的一个全文检索库,而Heritrix则是一个互联网档案爬虫,两者...

    开发自己的搜索引擎--Lucene+Heritrix.zip

    在这个项目中,我们将使用Apache Lucene和Heritrix这两个开源工具来开发我们自己的搜索引擎。Apache Lucene是一个强大的全文搜索引擎库,而Heritrix则是一个功能丰富的网页抓取器,用于收集互联网上的数据。接下来,...

    Lucene+Heritrix开发自己的搜索引擎3.rar

    总之,Lucene和Heritrix的结合为构建自己的搜索引擎提供了一种强大而灵活的方法。通过理解它们的工作原理和集成方式,开发者可以定制出满足特定需求的搜索引擎,无论是针对企业内部文档还是大规模的公开网页搜索。

    开发自己的搜索引擎——Lucene+Heritrix(第2版).part1.rar

    开发自己的搜索引擎 Lucene Heritrix 第2版

    Lucene+Heritrix(搜索引擎开发)

    值得注意的是,在使用Lucene和Heritrix开发搜索引擎时,我们还需要考虑系统架构、数据处理能力、存储解决方案以及系统的可扩展性与维护性。在设计之初,就要规划如何高效地处理和存储索引数据,以及如何应对搜索引擎...

    《开发自己的搜索引擎--Lucene+Heritrix》 pdf

    《开发自己的搜索引擎--Lucene+Heritrix》这本书是中国首部深入探讨搜索引擎开发的专业书籍,其内容涵盖了从理论到实践的全面知识体系。书中重点介绍了两个核心工具:Apache Lucene和Heritrix,它们在搜索引擎开发...

    开发自己的搜索引擎——Lucene+Heritrix(第2版)_含书(PDF)和光盘

    《开发自己的搜索引擎——Lucene+Heritrix(第2版)》是一本深入探讨如何构建搜索引擎的专著,其中包含了Lucene和Heritrix两个关键工具的详细使用指南。这本书旨在帮助开发者理解搜索引擎的工作原理,并提供实践性的...

    开发自己的搜索引擎(Lucene+Heritrix(第2版)

    开发自己的搜索引擎(Lucene+Heritrix(第2版)

    搜索引擎Lucene+Heritrix(第二版)2

    通过阅读这本书,你可以深入了解搜索引擎的工作原理,掌握Lucene和Heritrix的使用技巧,进而开发出高效、定制化的搜索引擎解决方案。无论是为了学术研究还是实际项目开发,这本书都将为你提供坚实的基础。

    lucene_heritrix 搜索引擎

    Lucene和Heritrix是两个在信息技术领域中用于搜索引擎构建的重要工具。Lucene是一个高性能、全文本搜索库,由Apache软件基金会开发,它提供了一个简单的API来索引和搜索大量文本数据。Heritrix,另一方面,是一个...

    开发自己的搜索引擎 Lucene+Heritrix.pdf.part2

    开发自己的搜索引擎-Lucene+Heritrix>>完整版 pdf 文档,共分为两个压缩文件,请全部下载解压。

    搜索引擎Lucene+Heritrix(第二版)

    《搜索引擎Lucene+Heritrix(第二版)》是一本深度探讨搜索引擎技术的书籍,主要聚焦于开源项目Lucene和Heritrix。Lucene是Java实现的全文搜索引擎库,而Heritrix则是一个网络爬虫工具,两者结合为构建自定义搜索...

Global site tag (gtag.js) - Google Analytics