`

初识Lucene

阅读更多

Lucene 是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包。

目前已经有很多应用程序的搜索功能是基于 Lucene 的,比如 Eclipse 的帮助系统的搜索功能。Lucene 能够为文本类型的数据建立索引,所以你只要能把你要索引的数据格式转化的文本的,Lucene 就能对你的文档进行索引和搜索。比如你要对一些 HTML 文档,PDF 文档进行索引的话你就首先需要把 HTML 文档和 PDF 文档转化成文本格式的,然后将转化后的内容交给 Lucene 进行索引,然后把创建好的索引文件保存到磁盘或者内存中,最后根据用户输入的查询条件在索引文件上进行查询。不指定要索引的文档的格式也使 Lucene 能够几乎适用于所有的搜索应用程序。

 

Lucene 软件包分析

Lucene 软件包的发布形式是一个 JAR 文件,下面我们分析一下这个 JAR 文件里面的主要的 JAVA 包,使读者对之有个初步的了解。

Package: org.apache.lucene.document

这个包提供了一些为封装要索引的文档所需要的类,比如 Document, Field。这样,每一个文档最终被封装成了一个 Document 对象

Package: org.apache.lucene.analysis

这个包主要功能是对文档进行分词,因为文档在建立索引之前必须要进行分词,所以这个包的作用可以看成是为建立索引做准备工作。

Package: org.apache.lucene.index

这个包提供了一些类来协助创建索引以及对创建好的索引进行更新。这里面有两个基础的类:IndexWriter 和 IndexReader,其中 IndexWriter 是用来创建索引并添加文档到索引中的,IndexReader 是用来删除索引中的文档的。

Package: org.apache.lucene.search

这个包提供了对在建立好的索引上进行搜索所需要的类。比如 IndexSearcher 和 Hits, IndexSearcher 定义了在指定的索引上进行搜索的方法,Hits 用来保存搜索得到的结果。

分享到:
评论
2 楼 p_x1984 2009-06-27  
我们最近做的项目就是用Heritrix+Lucene来做的,刚好接触这个就学习了下!
1 楼 g81997842 2009-06-27  
好久没摸这个了,呵呵!不过原来貌似对中文支持不是很好!

相关推荐

    lucene in action 电子版

    - **章节1:初识Lucene** - **信息组织与访问的发展**:介绍了从最早的纸质图书到数字化时代的信息检索方式的变化,强调了现代搜索引擎技术的重要性。 - **Lucene是什么**: - **定义**:Lucene是一个高性能、全...

    深入理解Luncen搜索引擎开发

    第1章 Lucene初识 Lucene4入门精通实战课程概述 Lucene系统架构 第2章 Lucene索引 Lucene索引里有什么 Lucene索引深入 Lucene索引深入优化 Lucene索引搜索 第3章 Lucene搜索实战 Lucene搜索实战 Lucene搜索深入...

    Lucene 相关

    1. 初识Lucene: - 了解Lucene的基本组件,如Analyzer、Document、Field、IndexReader、IndexWriter、Query等。 - 学习如何创建简单的索引和搜索示例。 - 掌握基本的查询语法,如TermQuery、BooleanQuery、...

    java搜索引擎的设计与实现英文文献外文翻译.doc

    初识Lucene的人可能会误认为它是一个可以直接使用的应用程序,比如文件搜索程序、网络爬虫或网站搜索引擎。实际上,Lucene并非如此,它是一个软件库,更确切地说,是一个工具包,而不是一个完整的功能丰富的搜索应用...

    lucene(HelloWord)

    《Lucene:初识搜索引擎库的“Hello World”》 Lucene,作为Apache软件基金会的顶级项目,是一款高性能、全文本检索引擎库,被广泛应用于各类搜索引擎和信息检索系统中。它提供了完整的搜索功能,包括索引、查询、...

    Elasticsearch初识与简单案例.pdf

    ### Elasticsearch 初识与简单案例 #### 一、Elasticsearch简介 Elasticsearch 是一款基于 Lucene 的分布式全文搜索引擎,具有高度可扩展性及灵活性。它不仅支持文本搜索,还能进行复杂的数据分析任务,因此在众多...

    初识Hadoop 2.x.pdf

    Hadoop 是一个能够处理海量数据的开源软件框架,它最初由Apache Lucene项目演化而来,旨在解决大规模数据处理的问题。Hadoop 2.x 版本相比早期版本有了显著的改进和增强,特别是在性能、稳定性和安全性方面。 - **...

    Hadoop阶段初识学习笔记

    Doug Cutting是著名的开源搜索技术倡导者和创造者,他之前还创立了Lucene和Nutch等项目。 - **命名由来**:Hadoop这个名字来源于Cutting的孩子给一头玩具大象起的名字,它是一个非正式的名称,简单易记,没有特殊...

    藏经阁-Elastic Stack 实战手册(早鸟版)-1182.pdf

    Elasticsearch是基于Apache Lucene构建的开源全文搜索引擎,因其易于使用和高性能的特点深受开发者喜爱。它不仅支持实时搜索,还具备分布式、可扩展的特性,可以处理大规模数据。Elasticsearch不仅适用于传统的搜索...

    Elasticsearch入门讲解

    1. ELASTICSEARCH 初识 Elasticsearch(简称ES)是一款基于Lucene的开源分布式搜索引擎,以其强大的全文检索、实时分析和高可扩展性而闻名。它不仅用于传统的搜索功能,还广泛应用于日志分析、监控、物联网(IoT)...

    ES入门文档

    Elasticsearch(简称ES)是一款基于Lucene的开源搜索引擎。它为开发者提供了高效、可靠的搜索和数据分析能力,支持多种数据类型的实时索引与搜索。 **1.2 入门指南** - **1.2.1 初识ES** - Elasticsearch是一个...

    大数据培训课程安排.pdf

    第五阶段: 初识⼤数据 1. 难易程度:三颗星 2. 课时量(技术知识点+阶段项⽬任务+综合能⼒):80课时 3. 主要技术包括:⼤数据前篇(什么是⼤数据,应⽤场景,如何学习⼤数据库,虚拟机概念和安装等)、Linux常见...

Global site tag (gtag.js) - Google Analytics