lucene学习笔记 1

lihaiyan

浏览: 118775 次
性别:
来自: 广州

最近访客更多访客>>

wangruibo

zqznew

shijutc110

jiang__xj

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Lucene

lucene Python Ruby Apache Perl

Doug Cutting 于2000年开始的项目 2001年9月后加入apache, Lucene是Doug Cutting的middle name 。目前Lucene已经是apache的top level的项目，已经不在jakarta下面，同时也有了python，perl，c++，.net, Ruby(进行中)多个版本

Lucene 主要的两个任务:indexing and searching

Indexing主要使用的类

IndexWriter	较核心的类，index文件由它创建
Directory	一个抽象的标示index文件地址的类，有两个实现:FSDirectory和RAMDirectory，前者是基于文件系统，后者使用内存
Analyzer	文件的分析器（听起来别扭，还是叫Analyzer好了)的抽象，这个类用来处理分词(对中文尤其重要，转换大小写(Computer->computer,实现查询大小写无关)，转换词根(computers->computer),消除stop words等,还负责把其他格式文档转换为纯文本等
Document	一个Document对应一个文档记录,他有很多Field,用来处理不同的信息,和检索相关
Field	有4(5?)种类型的Field, 下面专门列出

stop words: 出现频率非常高的一些词汇,它们一般没有检索的意义, 比如英文中的(as a, an, the, in)

类型 Analyzed Indexed Stored 说明

Field.Keyword(String,String/Date)		Y	Y	这个Field用来储存会直接用来检索的比如(身份证号,姓名,日期等)
Field.UnIndexed(String,String)			Y	不会用来检索的信息,但是检索后需要显示的,比如,硬件序列号,文档的url地址
Field.UnStored(String,String)	Y	Y		大段文本内容,会用来检索,但是检索后不需要从index中取内容,可以根据url去load真实的内容
Field.Text(String,String)	Y	Y	Y	检索,获取都需要的内容,直接放index中,不过这样会增大index
Field.Text(String,Reader)	Y	Y		如果是一个Reader, lucene猜测内容比较多,会采用Unstored的策略.

Searching主要使用的类

IndexSearcher	以只读的方式访问index（注意IndexReader不是只读的),需要传给他一个Query对象来搜索
Term	Term是一个搜索的基本单位,包含一个Field(目标)和一个value(条件),可以直接用new Term("field","condition value")构造
Query	Query有很多子类,比如BooleanQuery,PhraseQuery等,可以在Term基础上加上逻辑(是否, 或)
TermQuery	一个很基本的Query, 可以由term构造 new TermQuery(term);
Hits	包含了搜索的结构,默认按照相关度排序,hits并不会把所有记录(可能很大)直接保存,而是有一个lazy loading机制

tips

Lucene允许一个index中的多个Document可以为Heterogeneous(异类) 也就是说,一个Document 有Field (name,price), 下一个Document可以有Field(name,age),两个Document可以代表完全不同的记录,不过这点我还没有想到有什么特别的用处
如果需要对Field增加内容的, 可以使用doc.add(Field.Text("word",newword));如果doc中已经有word这个Field, newword会被自动加入进去,原来的会继续存在, 相当于一个"word"实际上对应一个数组，相当于append
Document的编号是不固定的, 如果对index做了修改, document编号会重新计算
如果要删除删除index中的记录，使用IndexReader类完成, IndexReader会先标记删除，真实的删除行为在indexReader关闭时执行.也就是说IndexReader也会修改index
通过indexReader.undeleteAll()方法只能恢复同一个indexreader实例标记删除的记录
没有update方法，要更新记录, 只能通过delete以后再add来进行, 如果要批量进行, 一次性delete完毕以后关闭Reader再打开Writer来add的效率较高

来源:http://www.blogjava.net/cap/archive/2005/07/17/7849.html

分享到：

lucene学习笔记 2 | 使用Lucene进行全文检索---进行搜索

2007-09-27 18:04
浏览 1249
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

lucene学习笔记 1

Lucene 主要的两个任务:indexing and searching

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

lucene学习笔记 1

Lucene 主要的两个任务:indexing and searching

评论

发表评论

相关推荐

lucene学习笔记 3

lucene学习笔记 2

使用Lucene进行全文检索---进行搜索

使用Lucene进行全文检索---得到有效的内容

lucene-2.0.0的基本应用

Lucene-2.0学习文档

lucene搜索引擎技术的分析与整理

实战 Lucene

Lucene 中文分词的 highlight 显示

使用Lucene进行全文检索---处理索引

深入 Lucene 索引机制

几个免费的中文分词模块

Lucene站点推荐

Lucene中文分词组件 JE-Analysis 1.4.0

最近访客更多访客>>