`
luckaway
  • 浏览: 138096 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

用lucene的注意事项(抛砖引玉)

阅读更多
1.同一个索引目录,IndexWriter和IndexReader确保要唯一,他们两个都是线程安全的,可以被多个线程调用。 让专门的类去管理(实例化和销毁)IndexWriter和IndexReader。

2.尽量减少不必要的储存,只储存哪些要在返回结果里的字段,不需要检索的内容就不要建索引。索引太大了,对更新索引的效率都会有影响。

3.不要强制kill建索引的程序,强制kill很有可能导致索引坏掉,每次关闭前必须保证所有的IndexWriter已经正常的关闭。

4.读先都很频繁的情况下, IndexReader.reopen产生新的IndexReader实例 ,需要关闭旧的实例。关闭的IndexReader才能让它释放文件。否则会导致打开文件过多的异常

5.如果要做读写分离。同步索引数据要按如下步骤进行:a.停止所有建索引的程序。b.IndexWriter.commit() c.优化所有索引 d。最后再coping or rsyncing。

6.排序字段和范围字段的格式处理,排序字段需要补零等操作。范围字段尽量使集合最小化。比如:要按时间来范围搜索,如果只需要精确到天。那就把字段格式成(yyyyMMdd) 形式,只需要精确到月,格式成(yyyyMM)。如果某个字段即要排序就要范围搜索,应该考虑把索引成两个字段。

7.每个Document最好都分配一个唯一key,这个key可以是数据库里每个唯一键,也可以是多个字段的组合。用于更新和删除索引

8.把需要更新很频繁的索引和更新不频繁的索引分离成两个目录(要有良好、严密的方案)




分享到:
评论
1 楼 moshalanye 2009-08-24  
索引:
http://wiki.apache.org/lucene-java/ImproveIndexingSpeed

搜索:
http://wiki.apache.org/lucene-java/ImproveSearchingSpeed


你看了后 会发现,你的总结上面 还有很多可以提升的地方  :〉 包括
indexwriter参数设置 doc 对象池使用 。。。

相关推荐

    lucene,lucene教程,lucene讲解

    lucene,lucene教程,lucene讲解。 为了对文档进行索引,Lucene 提供了五个基础的类 public class IndexWriter org.apache.lucene.index.IndexWriter public abstract class Directory org.apache.lucene.store....

    lucene讲义 叫你用lucene算法

    首先,在内存中的.tii文件中使用二分查找定位到对应的Block,然后从磁盘上的.tis文件中加载相应的Block,再在Block内进行顺序查找找到目标Term。这种混合查找策略兼顾了内存效率和查找速度,确保了高效的检索性能。 ...

    lucene3.0 lucene3.0

    lucene3.0 lucene3.0 lucene3.0 lucene3.0 lucene3.0

    用 Lucene 加速 Web 搜索应用程序的开发

    "用 Lucene 加速 Web 搜索应用程序的开发" 这个标题指出,我们将探讨如何利用 Apache Lucene 这个全文搜索引擎库来提升 Web 应用程序的搜索性能。Lucene 是一个开源的Java库,专门用于文本搜索,它提供了高效的索引...

    lucene 对 xml建立索引

    - 特别注意:对于带有属性的元素,可以使用`HashMap`来存储属性信息,并将其添加到文档中。 #### 四、示例代码分析 1. **SAX处理器类** (`SAXXML`) ```java public class SAXXML extends DefaultHandler { ...

    Lucene示例 BM25相似度计算

    在这个示例中,开发者会展示如何使用Lucene将文本数据转化为高效的倒排索引结构。这个过程包括分析文本、创建文档、添加字段、分词、建立词典等步骤。通过索引,可以快速定位到包含特定词项的文档。 接下来是查询...

    Lucene 使用正则表达式

    ### Lucene 使用正则表达式 #### 知识点概览 1. **Lucene简介** 2. **正则表达式(regex)在Lucene中的应用** 3. **regexQuery详解** 4. **示例代码解析** 5. **索引创建与查询流程** 6. **正则表达式的语法** #### ...

    使用lucene全文检索数据库

    **使用Lucene全文检索数据库** Lucene是一个高性能、全文本搜索库,由Apache软件基金会开发。它是Java编写的,能够帮助开发者在各种应用程序中实现强大的全文检索功能。在这个项目中,我们将探讨如何利用Lucene ...

    Java搜索引擎 Lucene

    对于开发语言,Java是Lucene的主要实现语言,这意味着所有的API和类都是用Java编写。如果你熟悉Java,那么使用Lucene会非常方便。不过,由于其优秀的设计,Lucene也提供了其他语言的版本,如Python的Whoosh和.NET的...

    Lucene原理及使用总结

    【谁在使用Lucene】 许多知名项目和产品都在使用Lucene,例如Eclipse的内置帮助搜索系统,Jive Web论坛,以及EyeBrows邮件列表的HTML归档、浏览和查询系统。这表明Lucene在各种领域都得到了广泛应用,尤其在信息...

    lucene-4.0.0完整包

    - **集成到Java项目**: Lucene 是用Java编写的,因此很容易被Java项目所采用。只需将相应的jar包引入项目,就可以开始使用其提供的API。 - **创建索引**: 开发者需要定义一个Document对象来表示每个要索引的文档,...

    lucene in action英文版 lucene 3.30包

    这本书主要面向Java开发者,通过阅读,读者可以理解Lucene的核心概念,学习如何使用它来构建自己的搜索引擎。 1. **Lucene基础** Lucene是基于Java的开源搜索库,它的核心功能包括索引和搜索文本。索引过程将文本...

    lucene详细使用教程

    在使用 Lucene 之前,首先需要将其添加到项目依赖中。如果你使用的是 Maven,可以在 pom.xml 文件中添加对应的 Lucene 依赖。对于其他构建工具,如 Gradle 或 Ivy,也有相应的配置方式。确保选择与项目所用 Java ...

    lucene-4.7.0全套jar包

    5. **跨平台**:Lucene用Java编写,因此可以运行在任何Java兼容平台上,具有良好的跨平台性。 在Lucene 4.7.0版本中,主要改进和新增功能包括: - **更新的分词器**:引入了新的分词器,如ICU分词器,增强了对多种...

    使用Lucene.net进行全文搜索

    本文将深入探讨如何使用Lucene.NET进行全文搜索,特别是针对多关键字匹配的场景。 首先,我们需要了解Lucene.NET的基本概念。Lucene是一个开源的文本搜索库,它的核心功能包括文档索引、搜索和排序。Lucene.NET是这...

    基于lucene技术的增量索引

    注意事项** - **并发控制**:在多线程环境下,需要确保对索引的操作是安全的,防止数据冲突和丢失。 - **优化索引**:定期执行索引优化(`IndexWriter.optimize()`)可以合并较小的段,提高搜索效率,但需要注意这...

    详解SpringBoot+Lucene案例介绍

    在使用Lucene时,我们需要注意以下几点: * 需要选择合适的分词器,例如SmartChineseAnalyzer,用于将中文文本拆分为单词。 * 需要正确地配置Lucene的版本,不同的版本用法也不同,许多api都有改变。 * 需要注意...

    Lucene时间区间搜索

    在C#中,我们可以使用Apache.Lucene.Net库来操作Lucene。创建索引时,我们需要将包含时间戳的文档字段(如"created_at"或"modified_date")存储并分词,以便后续查询。分词是为了让Lucene能够理解时间值,并将其与...

    使用Lucene对doc、docx、pdf、txt文档进行全文检索功能的实现 - 干勾鱼的CSDN博客 - CSDN博客1

    在本文中,我们将探讨如何使用Lucene对这些文件类型进行全文检索的实现。 首先,为了实现全文检索,我们需要创建索引。在Lucene中,`IndexWriter` 类是负责创建和更新索引的主要工具。在`LuceneCreateIndex` 类中,...

Global site tag (gtag.js) - Google Analytics