lucene 一些性能调优建议 -

yingbin920

浏览: 392809 次
性别:
来自: 上海

最近访客更多访客>>

fan0128

hongbo.wu

qsjiangs

粪海狂蛆

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

lucene 一些性能调优建议

博客分类：

搜索

lucene

排序

Lucene默认按照相关度(score)排序,为了能支持其他的排序方式,比如日期,我们在add Field的时候,必须保证field被Index且不能被tokenized(分词),并且排序的只能是数字,日期,字符三种类型之一

Lucene的IndexWriter调整

IndexWriter提供了一些参数可供设置，列表如下

	属性	默认值	说明
mergeFactor	org.apache.lucene.mergeFactor	10	控制index的大小和频率,两个作用
maxMergeDocs	org.apache.lucene.maxMergeDocs	Integer.MAX_VALUE	限制一个段中的document数目
minMergeDocs	org.apache.lucene.minMergeDocs	10	缓存在内存中的document数目，超过他以后会写入到磁盘
maxFieldLength		1000	一个Field中最大Term数目，超过部分忽略，不会index到field中，所以自然也就搜索不到

这些参数的的详细说明比较复杂：mergeFactor有双重作用

设置每mergeFactor个document写入一个段，比如每10个document写入一个段
设置每mergeFacotr个小段合并到一个大段，比如10个document的时候合并为1小段，以后有10个小段以后合并到一个大段，有10个大段以后再合并，实际的document数目会是mergeFactor的指数

简单的来说mergeFactor 越大，系统会用更多的内存，更少磁盘处理，如果要打批量的作index，那么把mergeFactor设置大没错， mergeFactor 小了以后， index数目也会增多，searhing的效率会降低，但是mergeFactor增大一点一点，内存消耗会增大很多(指数关系),所以要留意不要"out of memory"
把maxMergeDocs设置小，可以强制让达到一定数量的document写为一个段，这样可以抵消部分mergeFactor的作用.
minMergeDocs相当于设置一个小的cache,第一个这个数目的document会留在内存里面，不写入磁盘。这些参数同样是没有最佳值的，必须根据实际情况一点点调整。
maxFieldLength可以在任何时刻设置，设置后，接下来的index的Field会按照新的length截取，之前已经index的部分不会改变。可以设置为Integer.MAX_VALUE

RAMDirectory 和 FSDirectory 转化

RAMDirectory(RAMD)在效率上比FSDirectyr(FSD)高不少, 所以我们可以手动的把RAMD当作FSD的buffer,这样就不用去很费劲的调优FSD那么多参数了,完全可以先用RAM跑好了index，周期性（或者是别的什么算法）来回写道FSD中。 RAMD完全可以做FSD的buffer。

为查询优化索引(index)

Indexwriter.optimize()方法可以为查询优化索引（index），之前提到的参数调优是为indexing过程本身优化，而这里是为查询优化，优化主要是减少index文件数，这样让查询的时候少打开文件，优化过程中，lucene会拷贝旧的index再合并，合并完成以后删除旧的index，所以在此期间，磁盘占用增加， IO符合也会增加，在优化完成瞬间，磁盘占用会是优化前的2倍,在optimize过程中可以同时作search。

并发操作Lucene和locking机制

所有只读操作都可以并发
在index被修改期间，所有只读操作都可以并发
对index修改操作不能并发，一个index只能被一个线程占用
index的优化，合并，添加都是修改操作

IndexWriter和IndexReader的实例可以被多线程共享，他们内部是实现了同步，所以外面使用不需要同步

Locing

lucence内部使用文件来locking，默认的locking文件放在java.io.tmpdir,可以通过-Dorg.apache.lucene.lockDir=xxx指定新的dir，有write.lock commit.lock两个文件，lock文件用来防止并行操作index，如果并行操作， lucene会抛出异常，可以通过设置-DdisableLuceneLocks=true来禁止locking，这样做一般来说很危险，除非你有操作系统或者物理级别的只读保证，比如把index文件刻盘到CDROM上。

调试IndexWriter

IndexWriter 有一个infoStream的变量，调试信息从这里输出。可以把System.out设置给它

分享到：

百度GOOGLE的用户鼠标行为分析<转> | vi命令整理

2012-08-22 16:12
浏览 5609
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

lucene 一些性能调优建议

lucene

排序

Lucene的IndexWriter调整

RAMDirectory 和 FSDirectory 转化

为查询优化索引(index)

并发操作Lucene和locking机制

Locing

调试IndexWriter

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

lucene 一些性能调优建议

lucene

排序

Lucene的IndexWriter调整

RAMDirectory 和 FSDirectory 转化

为查询优化索引(index)

并发操作Lucene和locking机制

Locing

调试IndexWriter

评论

发表评论

相关推荐

百度GOOGLE的用户鼠标行为分析<转>

<转>庖丁解牛分词之自定义词库[自定义词典]

庖丁（Paoding）分词的词典原理解析

solr 百度相关搜索类似功能的实现

solr 索引库同步数据库

solr 对拼音搜索和拼音首字母搜索的支持

<转>Solr Suggest实现搜索智能提示

IK的整个分词处理过程

Solr的检索运算符

Solr 学习（5） —- Solr查询语法和参数

Apache Solr schema.xml及solrconfig.xml文件中文注解

<转>LUCENE3.0 自学吧 4 TermDocs

<转>Lucene里经常被聊到的几个话题

<转>浅谈文档索引普遍原理<笔记>

Lucene中Field类很重要

Lucene架构简单分析

<转>lucene3.0中Field.Index, Field.Store,Field.TermVector详解

<转>用于Lucene的各中文分词比较

Lucene3参考资料

lucene索引word/pdf/html/txt文件及检索(搜索引擎)

最近访客更多访客>>