`

Lucene架构简单分析

 
阅读更多

Lucene简介
Lucene 是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包 。目前国内外已有很多基于Lucene的应用。相对其它开源的全文搜索(Egothor,Xapian,MG4J)来说,Lucene已经是非常成熟的工具包。

Lucene 软件包分析 
Package: org.apache.lucene.document
这个包提供了一些为封装要索引的文档所需要的类,比如 Document, Field。这样,每一个文档最终被封装成了一个 Document 对象。
Package: org.apache.lucene.analysis
这个包主要功能是对文档进行分词,因为文档在建立索引之前必须要进行分词,所以这个包的作用可以看成是为建立索引做准备工作。
Package: org.apache.lucene.index
这个包提供了一些类来协助创建索引以及对创建好的索引进行更新。这里面有两个基础的类:IndexWriter 和 IndexReader,其中 IndexWriter 是用来创建索引并添加文档到索引中的,IndexReader 是用来删除索引中的文档的。
Package: org.apache.lucene.search
这个包提供了对在建立好的索引上进行搜索所需要的类。比如 IndexSearcher 和 Hits, IndexSearcher 定义了在指定的索引上进行搜索的方法,Hits 用来保存搜索得到的结果。

Lucene建立索引
为了对文档进行索引,Lucene 提供了五个基础的类,他们分别是 Document, Field, IndexWriter, Analyzer, Directory。下面我们分别介绍一下这五个类的用途:
Document 是用来描述文档的,这里的文档可以指一个 HTML 页面,一封电子邮件,或者是一个文本文件。一个 Document 对象由多个 Field 对象组成的。可以把一个 Document 对象想象成数据库中的一个记录,而每个 Field 对象就是记录的一个字段。
Field 对象是用来描述一个文档的某个属性的,比如一封电子邮件的标题和内容可以用两个 Field 对象分别描述。
Analyzer 在一个文档被索引之前,首先需要对文档内容进行分词处理,这部分工作就是由 Analyzer 来做的。Analyzer 类是一个抽象类,它有多个实现。针对不同的语言和应用需要选择适合的 Analyzer。Analyzer 把分词后的内容交给 IndexWriter 来建立索引。
IndexWriter 是 Lucene 用来创建索引的一个核心的类,他的作用是把一个个的 Document 对象加到索引中来。
Directory 这个类代表了 Lucene 的索引的存储的位置,这是一个抽象类,它目前有两个实现,第一个是 FSDirectory,它表示一个存储在文件系统中的索引的位置。第二个是 RAMDirectory,它表示一个存储在内存当中的索引的位置。

Lucene搜索结果
Lucene提供了几个基础的类来完成这个过程,它们分别是呢IndexSearcher, Term, Query, TermQuery, Hits. 下面我们分别介绍这几个类的功能。
Query
这是一个抽象类,他有多个实现,比如TermQuery, BooleanQuery, PrefixQuery. 这个类的目的是把用户输入的查询字符串封装成Lucene能够识别的Query。
Term
Term 是搜索的基本单位,一个Term对象有两个String类型的域组成。生成一个Term对象可以有如下一条语句来完成:Term term = new Term(“fieldName”,”queryWord”); 其中第一个参数代表了要在文档的哪一个Field上进行查找,第二个参数代表了要查询的关键词。
TermQuery
TermQuery是抽象类Query的一个子类,它同时也是Lucene支持的最为基本的一个查询类。生成一个TermQuery对象由如下语句 完成: TermQuery termQuery = new TermQuery(new Term(“fieldName”,”queryWord”)); 它的构造函数只接受一个参数,那就是一个Term对象。
IndexSearcher
IndexSearcher是用来在建立好的索引上进行搜索的。它只能以只读的方式打开一个索引,所以可以有多个IndexSearcher的实例在一个索引上进行操作。
Hits
Hits是用来保存搜索的结果的。

Lucene建立索引步骤 
[1]指定索引源文件夹(dataDir)和索引的文件夹(IndexDir);

[2]构造一个IndexWriter:IndexWriter构造器有三个参数,其中第一个参数可以是Lucene内建的类 Directory,也可以是File类型的文件夹路径,还可以是String类型的文件夹路径。第二个参数为语法分析器Analyzer,Lucene 自带了几个分析器的,但是对中文支持都不是很好。最后一个参数是要注意的,Lucene Api解释为“true to create the index or overwrite the existing one; false to append to the existing index”,就是说在这里设定是否增量增加索引,在开发的时候得考虑了,设true将导致每次索引都删除原索引重建,但是如果原来不存在索引而设置为 false也将导致lucene抛出找不到指定文件的错误。



[3]构造Document,通过add方法加入字段:

代码
Document?doc?=?new?Document();??
doc.add(Field.Text("contens",new?FileReader(f)));??
doc.add(Field.UnIndexed("filename",f.getCanonicalPath()));??

其中Feild方法有很多种,可以去车东的文章查看详细。f为dataDir文件夹中的文本文件。

[4]IndexWriter通过addDocument(doc)加入document对象,此时lucene将启动分词器对Document对象进行分词索引;

[5]调用IndexWriter的optimize方法对索引进行优化,因为在索引过程中难免产生文件碎屑,该方法对文件进行优化可以提高检索效率;

[6]关闭IndexWriter:IndexWriter.close()。

Lucene进行搜索步骤
[1]创建IndexSearcher实例,其构造方法有三个,单参数, 可以用String形式的索引文件夹路径;
[2]创建Query :代码
Query?query?=?QueryParser.parse(q,"contents",new?Analyzer());??
   其中q为查询字符串,“contents”为查询字段。 
[3]搜索:代码
Hits?hits?=?indexwriter.search(query)??
hits由Document类型组成。可以通过hits.doc(i)获取具体的Document对象

Lucene2.0 Field类的结构
Document可以看作是数据库的一行记录。
Field可以看作是数据库的字段。
Field(String?name, byte[]?value, Field.Store?store)
Field(String?name, Reader?reader)
Field(String?name, Reader?reader, Field.TermVector?termVector)
Field(String?name, String?value, Field.Store?store, Field.Index?index)
Field(String?name, String?value, Field.Store?store, Field.Index?index, Field.TermVector?termVector)

在Field中有三个内部类:Field.Index,Field.Store,Field.termVector,而构造函数也用到了它们。

注意:termVector是Lucene 1.4新增的它提供一种向量机制来进行模糊查询的这个不常用,默认是false,不管是什么对于一般查询无影响。

它们的不同的组合,在全文检索中有着不同的作用。
Field.Index                     Field.Store                 说明
TOKENIZED(分词)          YES                 文章的标题或内容(如果是内                       容的话不能太长)是可以被搜索的
TOKENIZED                    NO                   文章的标题或内容(内容可          以很长)也是可以被看过的
NO                                   YES                 这是不能被搜索的,它只                是被搜索内容的 附属物。如URL等
UN_TOKENIZED            YES/NO           不被分词,它作为一个整                     体被搜索,搜一部分是搜不出来的
NO                  NO                    没有这种用法

而对于Field(String?name, Reader?reader)
Field(String?name, Reader?reader, Field.TermVector?termVector)
他们是Field.Index.TOKENIZED和Field.Store.NO的。

分享到:
评论

相关推荐

    Lucene的简单介绍

    Lucene的目标是为软件开发人员提供简单易用的工具包,方便地在目标系统中实现全文搜索功能或构建一个完整的全文搜索引擎。 Lucene的主要优点包括: 1. 索引文件格式独立于应用平台:Lucene定义了一套以8位字节为...

    lucene原理与代码分析完整版

    ### Lucene原理与代码分析概览 #### 一、全文检索基本原理 全文检索是一种能够检索文档中任意词语的信息检索技术。与简单的关键词查询不同,全文检索不仅关注文档标题、元数据,还深入到文档的实际内容中去。这种...

    lucene原理分析pdf

    Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎...

    Lucene简介.介绍

    与传统数据库相比,Lucene 更专注于全文检索,而不仅仅是简单的模糊匹配。在数据库中,`LIKE "%keyword%"` 查询可能效率低下,因为它需要扫描整个表。而在 Lucene 中,索引是预排序的,因此搜索速度更快。Lucene 的...

    Lucene原理及使用总结

    **Lucene架构及实现**: Lucene的架构包括多个组件,如`Analyzer`负责文本分析,`Document`表示待索引的文档,`Field`定义文档的字段,`IndexWriter`负责创建和更新索引,`Directory`管理磁盘上的索引文件,`...

    apache下的lucene教程

    #### 二、Lucene核心概念与架构 - **索引(Index)**:索引是Lucene中最核心的概念之一,它是由一系列文档构成的数据结构集合,用于快速检索。 - **文档(Document)**:文档是索引的基本单位,每个文档包含一组字段。 -...

    Lucene开发详解.pdf

    通过对Lucene系统架构的介绍以及ZH_CNAnalyzer的分析,我们可以看出Lucene不仅是一个强大的全文搜索引擎库,而且具有高度的可扩展性。通过定制合适的分析器,可以显著提升特定语言环境下的搜索性能。尤其是对于中文...

    lucene3.0-lib

    Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎...

    基于Lucene的Oracle数据库全文检索.pdf

    Lucene的架构提供了完整的查询引擎和索引引擎,部分文本分析引擎,能够满足各种应用场景的需求。 在基于Lucene的Oracle数据库全文检索中,首先需要将数据源转化成通用的结构,以屏蔽源数据的不同。然后,使用...

    LUCENE的搜索引擎例子

    本篇文章将深入探讨如何在B/S(浏览器/服务器)架构下利用Lucene实现一个简单的搜索引擎实例。 首先,我们需要了解Lucene的核心概念。Lucene提供了一套完整的文本检索框架,包括索引构建、查询解析、评分以及结果...

    lucene基本包

    Lucene提供了丰富的Java API,开发人员可以通过简单的代码调用来实现索引创建、更新、查询等功能。同时,Lucene还提供了对其他语言的支持,如Python的PyLucene,JavaScript的js-lucene等。 10. **应用场景** ...

    lucene-5.5.5

    Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎...

    Lucene搜索实例

    **一、Lucene 的基本架构** Lucene 的核心组件包括索引(Index)、文档(Document)、字段(Field)和查询(Query)。首先,我们需要将数据转化为 Lucene 可以理解的文档格式,每个文档由多个字段组成,每个字段有...

    lucene-3.4.0

    Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎...

    lucene-8.1.1.zip

    Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎...

    全文检索原理及Lucene实之搜索

    #### Lucene架构概述 Lucene的架构主要分为索引创建、索引和搜索三个部分。索引创建涉及文档的读取、分词以及索引文件的生成;索引则涉及到索引文件的维护和管理;搜索则是根据用户输入的查询条件从索引中检索出...

    Lucene 原理与代码分析完整版

    ### Lucene原理与代码分析概览 #### 一、全文检索的基本原理 **1. 总论** 在探讨全文检索的实现之前,我们先要理解什么是全文检索以及它为何重要。简单来说,全文检索是一种从大量文档中快速查找包含特定词汇的...

Global site tag (gtag.js) - Google Analytics