lucene支持内存索引:这样的搜索比基于文件的I/O有数量级的速度提升。
http://www.onjava.com/lpt/a/3273,而尽可能减少IndexSearcher的创建和对搜索结果的前台的缓存也是必要的。
Lucene面向全文检索的优化在于首次索引检索后,并不把所有的记录(Document)具体内容读取出来,而起只将所有结果中匹配度最高的头100条结果(TopDocs)的ID放到结果集缓存中并返回,这里可以比较一下数据库检索:如果是一个10,000条的数据库检索结果集,数据库是一定要把所有记录内容都取得以后再开始返回给应用结果集的。
所以即使检索匹配总数很多,Lucene的结果集占用的内存空间也不会很多。对于一般的模糊检索应用是用不到这么多的结果的,头100条已经可以满足90%以上的检索需求。
如果首批缓存结果数用完后还要读取更后面的结果时Searcher会再次检索并生成一个上次的搜索缓存数大1倍的缓存,并再重新向后抓取。所以如果构造一个Searcher去查1-120条结果,Searcher其实是进行了2次搜索过程:头100条取完后,缓存结果用完,Searcher重新检索再构造一个200条的结果缓存,依此类推,400条缓存,800条缓存。由于每次Searcher对象消失后,这些缓存也访问那不到了,你有可能想将结果记录缓存下来,缓存数尽量保证在100以下以充分利用首次的结果缓存,不让Lucene浪费多次检索,而且可以分级进行结果缓存。
Lucene的另外一个特点是在收集结果的过程中将匹配度低的结果自动过滤掉了,过滤过程我们可以通过设置最低的匹配度来进行过滤。这也是和数据库应用需要将搜索的结果全部返回不同之处。
分享到:
相关推荐
1. **初始化Directory**:选择存储索引的目录,如FSDirectory(文件系统)、RAMDirectory(内存)等。 2. **创建IndexWriter**:配置IndexWriter实例,指定Directory、Analyzer和其他参数。 3. **创建文档**:定义...
5. **性能优化**:Lucene.NET提供了批量索引、缓存、内存管理等机制来提高性能,例如使用NRT(Near-Real-Time)搜索可以在不影响搜索速度的情况下实现近乎实时的索引更新。 6. **多语言支持**:除了使用...
- 更新文档:Lucene不支持直接更新已存在的文档,而是通过删除旧文档并重新添加新文档的方式来实现。 - 删除文档:调用`IndexWriter`的`deleteDocuments`方法,传入匹配待删除文档的查询条件。 **5. 关闭索引器** ...
Lucene支持多种查询类型,如term查询、短语查询、范围查询等,它们的执行速度都依赖于倒排索引。 通过以上这些组件和机制,Lucene能够提供高效、可扩展的全文搜索能力。开发者可以通过自定义Analyzer、调整段合并...
- 多线程支持:在大型应用中,可能需要并发创建和查询索引,Lucene支持多线程操作。 - 性能优化:如使用内存映射文件(MMapDirectory)、优化写入策略等。 - 分布式搜索:通过Solr或Elasticsearch,可以实现分布式...
在“lucene5”版本中,Lucene已经支持了多线程索引构建。我们可以创建多个独立的索引线程,每个线程负责处理一部分文档或目录,然后将这些独立的索引合并成一个完整的索引。 具体操作步骤如下: 1. **任务拆分**:...
9. **多语言支持**:由于Lucene.Net支持多种语言的分词,NLuke同样可以处理不同语言的索引,帮助用户理解和调整多语言搜索的设置。 10. **插件扩展**:NLuke设计为可扩展,可以通过安装插件来增加更多功能,如支持...
Lucene3相较于之前的版本,主要增加了对国际化的支持,引入了`message`包来处理与语言相关的功能。 #### 二、Lucene3模块介绍 ##### 1. `analysis` 该模块包含了用于对文档进行分词、过滤等一系列预处理的工具。...
除了倒排索引,Lucene还支持增量索引,这意味着可以只对文档的更改部分进行索引更新,而不是重新对整个文档集进行索引,从而节省资源并提高效率。 然而,尽管Lucene提供了强大的索引能力,但在实际应用中,随着索引...
### Lucene检索数据库支持中文检索 #### 一、Lucene简介与原理 ##### 1. Lucene概述 Lucene是一款高性能、全功能的文本搜索引擎库,由Java编写而成。其核心功能是为开发者提供构建搜索应用程序的基础框架。Lucene...
3. **内存管理**:Lucene在内存中构建索引可能会占用大量内存,需要注意内存溢出的问题,合理设置缓存大小和使用内存分配策略。 4. **实时性需求**:如果应用需要实时更新索引,需要考虑增量索引和实时搜索的实现,...
例如,可以使用lucene-memory-3.0.0.jar提供的MemoryAnalyzer,优化内存使用,提高索引速度。同时,通过调整Paoding的分词参数,可以在准确性和效率之间找到平衡。 总结,Lucene和Paoding分词的结合使得中文文本的...
1. **初始化目录**:Lucene需要一个目录来存储索引,可以是内存中的RAMDirectory或磁盘上的FSDirectory。 2. **创建索引写入器(IndexWriter)**:使用IndexWriter实例,配置合适的Analyzer(如StandardAnalyzer)...
Lucene支持增量索引,意味着可以对新的或已更改的数据进行实时更新。索引优化则是一次性合并多个段(segments)的过程,以提高搜索性能。 5. **搜索结果相关性** Lucene通过TF-IDF(Term Frequency-Inverse ...
3. **查询类型**:Lucene支持多种查询类型,包括布尔查询(BooleanQuery)、短语查询(PhraseQuery)、范围查询(RangeQuery)等,可以根据实际需求构造复杂的查询表达式。 4. **排序与评分**:Lucene不仅可以找到...
5. 存储结构(Store): Lucene 的存储结构是负责存储索引数据的组件,提供了多种存储方式,包括文件存储、内存存储等。 Lucene 的使用方法可以分为以下步骤: 1. 创建索引:使用 IndexWriter 创建索引,指定索引...
Lucene支持多种搜索类型,如布尔查询、短语查询、近似查询等。 2. **Lucene索引过程** 索引过程包括分析、分词、倒排索引等步骤。分析是将原始文本拆分为有意义的单元(如单词),分词是将文本转化为可索引的单元...
- **内存索引**:2.9.4引入了更高效的内存索引构建机制,对于快速原型开发和测试场景非常有用。 2. **Lucene 3.0.2和3.0.3** - **段合并优化**:这两个版本主要关注于索引段的合并策略,旨在减少磁盘I/O,提高...
内存索引适合短期、低延迟的搜索需求,而磁盘索引则更适合长期存储大量数据。 11. **优化与合并**:索引优化(Merge)是Lucene中一个重要的维护操作,它能减少索引文件数量,提高搜索性能。 12. **自定义扩展**:...