Lucene架构简单分析 -

yingbin920

浏览: 389609 次
性别:
来自: 上海

最近访客更多访客>>

fan0128

hongbo.wu

qsjiangs

粪海狂蛆

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Lucene架构简单分析

博客分类：

搜索

Lucene简介
Lucene 是一个基于 Java 的全文信息检索工具包，它不是一个完整的搜索应用程序，而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包。目前国内外已有很多基于Lucene的应用。相对其它开源的全文搜索(Egothor,Xapian,MG4J)来说，Lucene已经是非常成熟的工具包。

Lucene 软件包分析
Package: org.apache.lucene.document
这个包提供了一些为封装要索引的文档所需要的类，比如 Document, Field。这样，每一个文档最终被封装成了一个 Document 对象。
Package: org.apache.lucene.analysis
这个包主要功能是对文档进行分词，因为文档在建立索引之前必须要进行分词，所以这个包的作用可以看成是为建立索引做准备工作。
Package: org.apache.lucene.index
这个包提供了一些类来协助创建索引以及对创建好的索引进行更新。这里面有两个基础的类：IndexWriter 和 IndexReader，其中 IndexWriter 是用来创建索引并添加文档到索引中的，IndexReader 是用来删除索引中的文档的。
Package: org.apache.lucene.search
这个包提供了对在建立好的索引上进行搜索所需要的类。比如 IndexSearcher 和 Hits, IndexSearcher 定义了在指定的索引上进行搜索的方法，Hits 用来保存搜索得到的结果。

Lucene建立索引
为了对文档进行索引，Lucene 提供了五个基础的类，他们分别是 Document, Field, IndexWriter, Analyzer, Directory。下面我们分别介绍一下这五个类的用途：
Document 是用来描述文档的，这里的文档可以指一个 HTML 页面，一封电子邮件，或者是一个文本文件。一个 Document 对象由多个 Field 对象组成的。可以把一个 Document 对象想象成数据库中的一个记录，而每个 Field 对象就是记录的一个字段。
Field 对象是用来描述一个文档的某个属性的，比如一封电子邮件的标题和内容可以用两个 Field 对象分别描述。
Analyzer 在一个文档被索引之前，首先需要对文档内容进行分词处理，这部分工作就是由 Analyzer 来做的。Analyzer 类是一个抽象类，它有多个实现。针对不同的语言和应用需要选择适合的 Analyzer。Analyzer 把分词后的内容交给 IndexWriter 来建立索引。
IndexWriter 是 Lucene 用来创建索引的一个核心的类，他的作用是把一个个的 Document 对象加到索引中来。
Directory 这个类代表了 Lucene 的索引的存储的位置，这是一个抽象类，它目前有两个实现，第一个是 FSDirectory，它表示一个存储在文件系统中的索引的位置。第二个是 RAMDirectory，它表示一个存储在内存当中的索引的位置。

Lucene搜索结果
Lucene提供了几个基础的类来完成这个过程，它们分别是呢IndexSearcher, Term, Query, TermQuery, Hits. 下面我们分别介绍这几个类的功能。
Query
这是一个抽象类，他有多个实现，比如TermQuery, BooleanQuery, PrefixQuery. 这个类的目的是把用户输入的查询字符串封装成Lucene能够识别的Query。
Term
Term 是搜索的基本单位，一个Term对象有两个String类型的域组成。生成一个Term对象可以有如下一条语句来完成：Term term = new Term(“fieldName”,”queryWord”); 其中第一个参数代表了要在文档的哪一个Field上进行查找，第二个参数代表了要查询的关键词。
TermQuery
TermQuery是抽象类Query的一个子类，它同时也是Lucene支持的最为基本的一个查询类。生成一个TermQuery对象由如下语句完成： TermQuery termQuery = new TermQuery(new Term(“fieldName”,”queryWord”)); 它的构造函数只接受一个参数，那就是一个Term对象。
IndexSearcher
IndexSearcher是用来在建立好的索引上进行搜索的。它只能以只读的方式打开一个索引，所以可以有多个IndexSearcher的实例在一个索引上进行操作。
Hits
Hits是用来保存搜索的结果的。

Lucene建立索引步骤
[1]指定索引源文件夹（dataDir）和索引的文件夹（IndexDir）;

[2]构造一个IndexWriter:IndexWriter构造器有三个参数，其中第一个参数可以是Lucene内建的类 Directory，也可以是File类型的文件夹路径，还可以是String类型的文件夹路径。第二个参数为语法分析器Analyzer,Lucene 自带了几个分析器的，但是对中文支持都不是很好。最后一个参数是要注意的，Lucene Api解释为“true to create the index or overwrite the existing one; false to append to the existing index”，就是说在这里设定是否增量增加索引，在开发的时候得考虑了，设true将导致每次索引都删除原索引重建，但是如果原来不存在索引而设置为 false也将导致lucene抛出找不到指定文件的错误。

[3]构造Document，通过add方法加入字段：

代码
Document?doc?=?new?Document();??
doc.add(Field.Text("contens",new?FileReader(f)));??
doc.add(Field.UnIndexed("filename",f.getCanonicalPath()));??

其中Feild方法有很多种，可以去车东的文章查看详细。f为dataDir文件夹中的文本文件。

[4]IndexWriter通过addDocument(doc)加入document对象，此时lucene将启动分词器对Document对象进行分词索引；

[5]调用IndexWriter的optimize方法对索引进行优化，因为在索引过程中难免产生文件碎屑，该方法对文件进行优化可以提高检索效率；

[6]关闭IndexWriter：IndexWriter.close()。

Lucene进行搜索步骤
[1]创建IndexSearcher实例，其构造方法有三个，单参数，可以用String形式的索引文件夹路径；
[2]创建Query ：代码
Query?query?=?QueryParser.parse(q,"contents",new?Analyzer());??
其中q为查询字符串，“contents”为查询字段。
[3]搜索：代码
Hits?hits?=?indexwriter.search(query)??
hits由Document类型组成。可以通过hits.doc(i)获取具体的Document对象

Lucene2.0 Field类的结构
Document可以看作是数据库的一行记录。
Field可以看作是数据库的字段。
Field(String?name, byte[]?value, Field.Store?store)
Field(String?name, Reader?reader)
Field(String?name, Reader?reader, Field.TermVector?termVector)
Field(String?name, String?value, Field.Store?store, Field.Index?index)
Field(String?name, String?value, Field.Store?store, Field.Index?index, Field.TermVector?termVector)

在Field中有三个内部类：Field.Index,Field.Store,Field.termVector，而构造函数也用到了它们。

注意：termVector是Lucene 1.4新增的它提供一种向量机制来进行模糊查询的这个不常用，默认是false，不管是什么对于一般查询无影响。

它们的不同的组合，在全文检索中有着不同的作用。
Field.Index                     Field.Store                 说明
TOKENIZED(分词)          YES                 文章的标题或内容(如果是内                       容的话不能太长)是可以被搜索的
TOKENIZED                    NO                   文章的标题或内容(内容可          以很长)也是可以被看过的
NO                                   YES                 这是不能被搜索的，它只                是被搜索内容的附属物。如URL等
UN_TOKENIZED            YES/NO           不被分词，它作为一个整                     体被搜索,搜一部分是搜不出来的
NO                  NO                    没有这种用法

而对于Field(String?name, Reader?reader)
Field(String?name, Reader?reader, Field.TermVector?termVector)
他们是Field.Index.TOKENIZED和Field.Store.NO的。

分享到：

好软件分享 | <转>lucene3.0中Field.Index, Field.Store ...

2012-06-06 15:30
浏览 1668
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Lucene架构简单分析

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Lucene架构简单分析

评论

发表评论

相关推荐

百度GOOGLE的用户鼠标行为分析<转>

lucene 一些性能调优建议

<转>庖丁解牛分词之自定义词库[自定义词典]

庖丁（Paoding）分词的词典原理解析

solr 百度相关搜索类似功能的实现

solr 索引库同步数据库

solr 对拼音搜索和拼音首字母搜索的支持

<转>Solr Suggest实现搜索智能提示

IK的整个分词处理过程

Solr的检索运算符

Solr 学习（5） —- Solr查询语法和参数

Apache Solr schema.xml及solrconfig.xml文件中文注解

<转>LUCENE3.0 自学吧 4 TermDocs

<转>Lucene里经常被聊到的几个话题

<转>浅谈文档索引普遍原理<笔记>

Lucene中Field类很重要

<转>lucene3.0中Field.Index, Field.Store,Field.TermVector详解

<转>用于Lucene的各中文分词比较

Lucene3参考资料

lucene索引word/pdf/html/txt文件及检索(搜索引擎)

最近访客更多访客>>