`
hdxiong
  • 浏览: 377106 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Lucene 索引优化 参数详解

阅读更多

IndexWriter:
   1、maxFieldLength:默认值(10000),一般设置为Integer.MAX_VALUE。即截取该域中的前10000个项(

或词组)进行索引并被检索,前10000个以外的项将不被索引和检索。该值可在索引中随时更改,并即时生

效(仅对更改后的索引生效,前面的依旧)。
   2、setMergeFactor:默认值(10),一般设置根据具体情况而定。例如,当mergeFactor的因子设为10,那么,每向索引添加10个Document是,就会有一个新的segment在磁盘建立;当第10个这样的segment建立好后,它们就会合并成为一个具有100个Document的新segment。即:mergeFactor取值较大(>10)时,保存在内存中的Document会增多(即内存占用多),磁盘I/O操作频率减少,索引速度加快,适合批量索引;mergeFactor取值较小(<10)时,保存在内存中的Document会减少(即内存占用少),磁盘I/O操作频率增长,索引速度减缓,适合间歇性索引。
   3、setMaxMergeDocs:默认值(Integer.MAX_VALUE),根据上述对mergeFactor的设置,例如,默认时,一个segment段中的Document会呈10、100、1000、10000、……这样无限增长,为了防止segment无止境的增长,我们需要对一个segment能包含的最大的Document数量进行限制,这里就用maxMergeDocs进行设置。当mergeFactor=10,maxMergeDocs=2000时,一个segment中的Document数量会呈10、100、1000、2000、……,这样增长,由于受到maxMergeDocs的限制,第四次合并是并不是10000而是2000。
   4、setMaxBufferedDocs:默认值(10),在2.0版本以前又叫“setMinMergeDocs”。索引在被写到磁盘上时,需要首先保存在内存中,该属性就是用来限制内存中的文档数量的。该值设置较大时,会需要更多的内存空间;该值较小时,会发生频繁的I/O操作!

     我相信,大家了解了上述这些IndexWriter的参数设置,必定会对优化自己的索引有所帮助!

分享到:
评论
3 楼 xiaophai 2011-03-03  
xiaophai 写道
       

xiaophai 写道
       

xiaophai 写道
       

xiaophai 写道
       

xiaophai 写道
       

xiaophai 写道
       

xiaophai 写道
       

2 楼 xiaophai 2011-03-03  
xiaophai 写道
       

1 楼 xiaophai 2011-03-03  
       

相关推荐

    lucene索引优化多线程多目录创建索引

    本教程主要探讨的是如何利用Lucene进行索引优化,特别是通过多线程和处理多个目录来提高索引创建效率。 首先,我们需要理解Lucene的索引原理。Lucene将文档分解为词项(tokens),并对每个词项创建倒排索引。倒排...

    Lucene索引器实例

    **Lucene索引器实例详解** Lucene是一个高性能、全文本搜索库,由Apache软件基金会开发,被广泛应用于各种搜索引擎的构建。它提供了一个高级的、灵活的、可扩展的接口,使得开发者能够轻松地在应用程序中实现全文...

    lucene索引查看工具及源码

    在使用 Lucene 进行信息检索时,有时我们需要对建立的索引进行查看、调试或分析,这时就需要借助 Lucene 的索引查看工具。 Luke 是一个非常实用的 Lucene 索引浏览器,全称为 Lucidworks Luke。它允许用户以图形化...

    Lucene索引和查询

    **Lucene索引和查询** Lucene是Apache软件基金会的开放源码全文搜索引擎库,它提供了文本检索的核心工具,使得开发者能够快速构建自己的搜索应用。本项目中的代码旨在展示如何利用Lucene对多个文件夹下的数据进行...

    深入 Lucene 索引机制

    以下是对Lucene索引机制的详细解析: 一、Lucene的索引过程 1. 文档分析:当向Lucene添加文档时,首先会经过一个分词器(Tokenizer),将文本拆分成一系列的词项(Token)。接着,这些词项会被过滤(Filter)和...

    Lucene索引优化

    标题:Lucene索引优化 描述:在Lucene的wiki上,我们找到了一系列关于如何提升Lucene应用中索引速度的技巧与策略。这不仅涵盖了技术细节,还提供了实际操作建议,旨在帮助开发者针对特定场景优化其Lucene索引性能。...

    lucene并行索引

    ### Lucene并行索引关键技术解析 #### 一、引言 随着互联网的快速发展,海量信息的管理和检索成为了重要的挑战。传统的单机索引方法已无法满足高效处理大规模数据的需求,尤其是在搜索引擎领域。Lucene作为一款...

    毕设 Lucene解析索引PDF文档的内容

    iTextPDFExtractor.java ------ ...--PDFBox创建PDF文件的Lucene索引 PDFBoxPathIndex.java ------- --PDFBox创建指定目录PDF文档索引 POIOfficeExtractor.java ----- -- POI处理Excel和Word文档代码

    Lucene 索引的简单使用

    以上就是关于“Lucene索引的简单使用”的详细介绍,包括其核心概念、创建和查询索引的步骤以及一些高级特性。希望对你理解和应用Lucene有所帮助。在实际开发中,可以根据需求选择合适的Analyzer,优化索引策略,以...

    luke源码--查看lucene索引文件

    源码目录(src)是Luke的核心部分,包含了所有Java源代码,这些代码负责解析、显示和解释Lucene索引。通过阅读和研究源码,我们可以了解到Luke如何读取索引段、字段和文档,以及如何展示这些信息。例如,Luke提供了...

    lucene索引结构原理

    **Lucene索引结构原理** Lucene是Apache软件基金会的开放源代码全文搜索引擎库,它为Java开发人员提供了强大的文本搜索功能。理解Lucene的索引结构原理对于优化搜索性能和设计高效的搜索应用至关重要。 首先,我们...

    lucene 索引小示例

    《Lucene索引小示例解析》 Lucene是一个高性能、全文检索库,它由Apache软件基金会开发并维护。在Java编程环境中,Lucene被广泛应用于构建搜索功能,特别是对于大量文本数据的高效检索。本篇文章将通过一个简单的小...

    Lucene读取索引文件

    阅读和解析Lucene索引文件通常需要借助于Lucene提供的API。首先,通过`Directory`接口打开索引目录,如`FSDirectory.open()`方法,指定索引文件所在的路径。然后,创建`IndexReader`实例,它提供了访问索引文档的...

    luke-7.1.0 lucene索引查看工具

    **luke-7.1.0:Lucene索引查看工具详解** Luke是Apache Lucene项目的一个重要辅助工具,主要用于查看、分析和测试Lucene创建的索引。这个7.1.0版本提供了对Lucene索引的强大洞察力,帮助开发者、搜索引擎优化者以及...

    Lucene索引分析工具

    **Lucene索引分析工具详解** Lucene是一个高性能、全文本搜索库,它为开发者提供了在应用程序中实现全文检索功能的基础。在这个场景中,我们关注的是一个专门针对Lucene.net的索引分析工具,该工具被称为"Lucene...

    luke--- lucene索引数据查看器

    2. **打开索引**:选择要查看的Lucene索引目录,Luke会自动加载并解析索引结构。 3. **浏览索引**:在界面左侧选择要查看的字段,右侧则会显示字段的详细信息。 4. **搜索测试**:在搜索框输入查询,点击“Execute...

    Lucene索引文件格式

    《Lucene索引文件格式详解》 Lucene,作为一款强大的全文搜索引擎库,其索引文件格式是实现高效搜索的关键。本文将深入解析Lucene 1.3版本的索引文件结构,帮助读者理解其内部运作机制。 首先,我们要理解Lucene...

    基于Lucene索引的分析与实现

    【基于 Lucene 索引的分析与实现】 在当今信息爆炸的时代,互联网上的数据量呈指数级增长,人们对于...通过深入研究和实践,我们可以充分利用Lucene的特性,优化索引构建和查询性能,满足不同场景下的信息检索需求。

    经典的lucene实例代码及详细解析以及lucene结构流程介绍

    Lucene优化是指对Lucene索引和搜索进行优化的过程。Lucene提供了多种优化方式,包括索引优化、搜索优化和缓存优化等。 在上面的代码中,我们使用了`optimize()`方法对索引进行优化。该方法将合并磁盘上的索引文件,...

Global site tag (gtag.js) - Google Analytics