`
tanzek
  • 浏览: 52954 次
  • 性别: Icon_minigender_1
  • 来自: 湖南
社区版块
存档分类
最新评论

想看的书---<<开发自己的搜索引擎---Lucene 2.0 + Heritrix>>

阅读更多

开发自己的搜索引擎---Lucene 2.0 + Heritrix

Lucene2007-06-26.jpg


【内容简介】

本书详细介绍了如何应用Lucene进行搜索引擎开发,通过学习本书,读者可以完成构建一个企业级的搜索引擎网站。.
全书共分为14章,内容包括搜索引擎与信息检索基础,Lucene入门实例,Lucene索引的建立,使用Lucene构建搜索,Lucene的排序,Lucene的分析器,对Word、Excel和PDF格式文档的解析,Compass搜索引擎框架,Lucene分布式和Google Search API,爬虫Heritrix,综合实例之准备篇,综合实例之HTMLParser篇,综合实例之DWR篇,综合实例之Web编。..
本书是国内第一本使用Lucene和Heritrix来讲解搜索引擎构建的书,通过详细的对API和源代码的分析,力求使读者在应用的基础上,能够深入其核心,自行扩展和开发相应组件,发挥想象力,开发出更具有创意的搜索引擎产品。本书适合Java程序员和从事计算机软件开发的其他编程人员阅读,同时也可以作为搜索引擎爱好者的入门书籍。
由于目前市面上从技术层面介绍搜索引擎的书并不多,即使有,也大多停留在理论阶段,而非搜索引擎的开发过程。因此,可以说本书是国内第一本详细介绍搜索引擎开发过程的图书。
(1)采用最新的Lucene 2.0。以前大家用的1.4.3版本,而最新的Lucene 2.0重写了很多API,内部的实现方法也有了很大优化。本书的代码都是在2.0版本下调试通过的,这样可以帮助读者了解Lucene的更多新功能。
(2)配有一个完整的搜索引擎案例。这个案例有很强的实用价值,只需稍加修改,就能应用于实际项目,市场价值在30000元以上!
(3)着重解决开发人员头痛的问题。本书的目的是指导项目实践,因此没有罗列各个API的用法,而是对常见的开发问题进行深入探讨,比如本书的第7章,是专门为解决“Word,Excel和PDF文件如何解析”这个问题而设置的。
(4)内容新颖,前卫实用。本书介绍了Compass、Heritrix、DWR和HTMLParser等内容。在搜索引擎开发的过程中,这些均为相当重要且实用的技术,笔者经过自身实践将它们展现给读者,希望能让读者在学习Lucene的同时开拓视野。
光盘特色:
配有一个完整的搜索引擎案例。这个案例有很强的实用价值,只需稍加修改,就能应用于实际项目,市场价值在30000元以上!...

[后注]:
   一直以来都对搜索引擎很有兴趣的,最近在学习JAVA,看到了Lucene,所以就找了一下,觉得这本书应该还可以的。只是苦于一直没有可靠的经济来源,所以再等一会,看能不能等到电子版哦。唉,这样子偷偷摸摸地好苦啊!

分享到:
评论

相关推荐

    开发自己的搜索引擎《lucene2.0+heritrix》一书对应的源码资料

    这里我们关注的是基于开源项目Lucene 2.0和Heritrix的一本书——《开发自己的搜索引擎》的源码资料。Lucene是一个高性能、全文本搜索库,而Heritrix则是一个强大的网页抓取工具,它们共同构成了搜索引擎的基础架构。...

    开发自己的搜索引擎Lucene2.0+Heritrix

    ### 开发自己的搜索引擎:Lucene 2.0 + Heritrix #### 一、概述 在构建搜索引擎的过程中,Lucene 和 Heritrix 是两个至关重要的工具。本文将深入探讨这两个工具的功能及其如何协同工作,帮助读者理解如何使用它们...

    开发自己的搜索引擎--Lucene 2.0+Heritrix(爬虫)

    本章节将深入探讨如何利用Lucene 2.0和Heritrix来开发自己的搜索引擎。 Lucene是Apache软件基金会的一个开放源代码项目,它是一个全文检索库,提供了强大的文本搜索功能。在Lucene 2.0版本中,它已经相当成熟,支持...

    lucene2.0+Heritrix配套源码

    《lucene2.0+Heritrix配套源码》是一个针对搜索引擎开发的资源包,包含了构建自定义搜索引擎所需的关键组件。Lucene是一个流行的全文搜索引擎库,而Heritrix则是一个强大的网页抓取工具,用于收集互联网上的数据。这...

    【完整光盘24.5M】开发自己的搜索引擎-Lucene 2.0+Heritrix.zip

    本资料集——"【完整光盘24.5M】开发自己的搜索引擎-Lucene 2.0+Heritrix.zip",正是这样一个学习资源,旨在帮助用户理解如何利用开源工具Lucene 2.0和Heritrix构建自己的搜索引擎。 Lucene是Apache软件基金会的一...

    开发自己的搜索引擎-Lucene 2.0+Heritrix

    本资源主要关注如何利用这两者来开发自己的搜索引擎。 首先,让我们深入了解Lucene。Lucene是Apache软件基金会的一个项目,它是一个全文检索库,提供了一个强大的搜索功能的基础架构。它不仅支持基本的全文检索,还...

    Lucene2.0+Heritrix搜索引擎 随书光盘

    《Lucene2.0+Heritrix搜索引擎》随书光盘包含了两个重要的开源搜索技术——Apache Lucene 2.0和Heritrix的资源和教程。Lucene是Java开发的全文检索库,而Heritrix则是一个网络爬虫工具,它们在构建大规模搜索引擎和...

    《开发自己的搜索引擎-Lucene 2.0 Heritrix》cd(全)(下载地址)

    根据提供的文件信息,我们可以深入探讨与“开发自己的搜索引擎-Lucene 2.0 Heritrix”相关的知识点,主要包括Lucene 2.0和Heritrix的基本概念、特点以及如何利用它们来构建一个简单的搜索引擎。 ### 一、Lucene 2.0...

    Lucene2.0+Heritrix(源代码)

    《构建搜索引擎:剖析Lucene2.0与Heritrix源代码》 在信息化时代,搜索引擎已经成为我们日常获取信息的重要工具。本章节将深入探讨如何利用Lucene2.0和Heritrix这两个开源项目构建一个基本的搜索引擎。首先,我们要...

    lucene2.0+heritrix 随书光盘

    《lucene2.0+heritrix 随书光盘》是针对搜索引擎技术的一个资源集合,其中包含了Lucene 2.0和Heritrix的相关示例及教程。Lucene是一款强大的全文检索库,而Heritrix则是一个互联网爬虫工具,它们在构建搜索引擎时起...

    开发自己的搜索引擎-Lucene 2.0+Heritrix源码(2)

    讲一个简单搜索引擎的实现,深入浅出,很容易理解

    开发自己的搜索引擎-Lucene 2.0+Heritrix源码(1)

    讲一个简单搜索引擎的实现,深入浅出,很容易理解

    开发自己的搜索引擎-Lucene 2.0+Heritrix源码(3)

    讲一个简单搜索引擎的实现,深入浅出,很容易理解

    Lucene2.0+Heritrix搜索引擎(完整光盘).part2.rar

    去下载这个吧。(完整版的) http://d.download.csdn.net/down/1756566/caizhongda Lucene2.0+Heritrix搜索引擎(完整光盘).part2.rar

    Lucene 2.0+Heritrix源码【2】

    首先,Lucene是一个开源的全文搜索引擎库,由Apache软件基金会维护。它提供了高性能、可扩展的文本搜索功能,允许开发者将全文搜索功能集成到他们的应用中。Lucene的核心特性包括分词、索引构建、查询解析和结果排序...

    Lucene2.0+Heritrix(ch4源代码)

    Lucene是一个开源全文搜索引擎库,由Apache软件基金会开发并维护。它提供了高效的索引和搜索功能,广泛应用于各种信息检索系统。Heritrix是互联网档案馆(Internet Archive)开发的一款网页抓取器,用于构建大规模的...

    Lucene 2.0+Heriterx书源代码-ch7lib

    《深入理解Lucene 2.0与Heritrix:源码剖析》是一本关于搜索引擎开发的经典著作,书中详细讲解了如何使用Lucene 2.0和Heritrix这两个开源工具进行信息检索。在这个名为"Lucene 2.0+Heriterx书源代码-ch7lib"的压缩包...

    Lucene2.0+Heritrix(ch3源代码)

    在这个"Lucene2.0+Heritrix(ch3源代码)"的压缩包中,我们主要关注的是这两个项目的第三章源代码,这将帮助我们深入理解它们的工作机制。 一、Lucene 2.0 1. **索引结构**:Lucene的核心是其倒排索引(Inverted ...

    开发自己的搜索引擎.part1.rar

    &lt;&lt;开发自己的搜索引擎-Lucene 2.0+Heritrix&gt;&gt;.pdf

Global site tag (gtag.js) - Google Analytics