Lucene中创建索引的效率和删除索引的实现

eryk

浏览: 588167 次
性别:
来自: 北京

最近访客更多访客>>

leileishizhutou

zhangzi

fhtwins

Ansel_qiang

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

lucene

越来越多的人利用开源组件 Lucene来开发自己的搜索引擎。在数据量不大的情况下，我们不会太关注创建索引的效率；但是，但数据达到一定的数量是，我们就不得不考虑如何提高创建索引的性能，以缩短索引创建的时间。

我们是用Lucene中提供的类IndexWriter来创建索引的，所以我们不妨先看一看IndexWriter类中关系到索引创建效率的几个方法。

一、SetMergeFactor（合并因子）
SetMergeFactor是控制segment合并频率的，其决定了一个索引块中包括多少个文档，当硬盘上的索引块达到多少时，将它们合并成一个较大的索引块。当MergeFactor值较大时，生成索引的速度较快。MergeFactor的默认值是10，建议在建立索引前将其设置的大一些。

二、SetMaxBufferedDocs（最大缓存文档数）
SetMaxBufferedDocs是控制写入一个新的segment前内存中保存的document的数目，设置较大的数目可以加快建索引速度，默认为10。

三、SetMaxMergeDocs（最大合并文档数）
SetMaxMergeDocs是控制一个segment中可以保存的最大document数目，值较小有利于追加索引的速度，默认Integer.MAX_VALUE，无需修改。

在创建大量数据的索引时，我们会发现索引过程的瓶颈在于大量的磁盘操作，如果内存足够大的话，我们应当尽量使用内存，而非硬盘。可以通过SetMaxBufferedDocs来调整，增大Lucene使用内存的次数。

如果内存足够大的话，我们也可以在索引过程中完全避免使用硬盘。Lucene支持使用文件系统和内存两种方式创建索引，我们可以先把索引写入到RAMDirectory，达到一定数量时再批量写进FSDirectory，减少磁盘操作次数。相关的代码如下：

RAMDirectory rmd = new RAMDirectory();
IndexWriter writer = new IndexWriter(rmd, new StandardAnalyzer(), true);
while (not eof)         //遍历
{
    Document doc = new Document();
doc.Add(…);  //Add Fields
writer.AddDocument(doc);
}
writer.SetUseCompoundFile(true);
writer.Optimize();
writer.Close();

另外，SetUseCompoundFile这个方法可以使Lucene在创建索引库时，会合并多个 Segments 文件到一个 .cfs 中。此方式有助于减少索引文件数量，对于将来搜索的效率有较大影响。

若需要从索引中删除某一个或者某一类文档，IndexReader提供了两种方法：
reader.DeleteDocument(int docNum)
reader.DeleteDocuments(Term term)

前者是根据文档的编号来删除该文档，docNum是该文档进入索引时Lucene的编号，是按照顺序编的；后者是删除满足某一个条件的多个文档。

在执行了DeleteDocument或者DeleteDocuments方法后，系统会生成一个*.del的文件，该文件中记录了删除的文档，但并未从物理上删除这些文档。此时，这些文档是受保护的，当使用Document doc = reader.Document(i)来访问这些受保护的文档时，Lucene会报“Attempt to access a deleted document”异常。如果一次需要删除多个文档时，可以用两种方法来解决：

1. 删除一个文档后，用IndexWriter的Optimize方法来优化索引，这样我们就可以继续删除另一个文档。

2. 先扫描整个索引文件，记录下需要删除的文档在索引中的编号。然后，一次性调用DeleteDocument删除这些文档，再调用IndexWriter的Optimize方法来优化索引。

转自：http://blog.sina.com.cn/s/blog_56e2f4250100nxzy.html

分享到：

Hadoop传递参数的方法总结 | 读lucene3.0.3源码：Directory

2011-07-07 11:56
浏览 1360
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论