`
coderplay
  • 浏览: 575135 次
  • 性别: Icon_minigender_1
  • 来自: 广州杭州
社区版块
存档分类
最新评论

lucene2.3.2与2.2.0建索引的速度比较

阅读更多

文本材料大小: 43.9 MB
文件数目: 19997个
分析器:    lucene标准StandardAnalyzer

lucene-2.2.0
索引大小: 16,901,638 字节
耗时:
158094 total milliseconds
110437 total milliseconds
106328 total milliseconds


lucene-2.3.2
索引大小: 16,177,772字节
默认16M缓存耗时:
15407 total milliseconds
15500 total milliseconds
设置64M缓存耗时:
13578 total milliseconds
13984 total milliseconds
13359 total milliseconds
15500 total milliseconds

 

可以看出2.3比2.2建索引的速度要快5~10倍。原理请看2.2的DocumentWriter和2.3的DocumentsWriter.

2.3采用in-memory模型。

分享到:
评论
3 楼 Arbow 2008-08-04  
泡坛看到有人说已经在这上面开发中文分词了吧?
2 楼 coderplay 2008-08-03  
没有嘞,谢谢阿宝同学,哈哈~~ 这个看features貌似很牛的说。不过要用它还得改个中文分词算法适应它.
1 楼 Arbow 2008-07-30  
aol同学有没有试用过 Sphinx 的索引?据说这个项目的性能比lucene高不少

相关推荐

    lucene-2.2.0zip

    《Lucene 2.2.0与5.5.0:搜索引擎开发的关键工具》 Lucene,一个由Apache软件基金会开发的全文检索库,是Java编程语言中的一个核心工具,被广泛应用于各种搜索引擎的开发中。它提供了强大的文本分析、索引构建和...

    lucene2.3.2api

    《深入解析Lucene 2.3.2 API》 Lucene是一个开源的全文搜索引擎库,由Apache软件基金会开发并维护。在2.3.2版本中,Lucene提供了丰富的API,使得开发者能够轻松地在应用程序中集成全文检索功能。本文将深入探讨...

    lucene-2.3.2-src

    4. Lucene 2.3.2新特性与改进: - 提高了索引和搜索性能,优化了内存管理。 - 引入了更灵活的分析器配置,支持自定义分词规则。 - 改进了查询解析器的灵活性,支持更复杂的查询语法。 - 增强了多线程安全性和...

    lucene-analyzers-2.2.0.jar

    lucene-analyzers-2.2.0.jarlucene-analyzers-2.2.0.jarlucene-analyzers-2.2.0.jarlucene-analyzers-2.2.0.jarlucene-analyzers-2.2.0.jarlucene-analyzers-2.2.0.jarlucene-analyzers-2.2.0.jarlucene-analyzers-...

    lucene-core-2.3.2.jar

    lucene core 2.3.2 jar

    lucene-2.3.2

    1. 性能提升:2.3.2版本对搜索和索引的速度进行了优化,降低了内存占用,提升了大规模数据处理能力。 2. 错误修复:这个版本修复了之前版本中的一些已知问题,提高了系统的稳定性和可靠性。 3. 新增特性:可能包括...

    lucene 对 xml建立索引

    ### Lucene对XML文档建立索引的技术解析与实践 #### 一、引言 随着互联网技术的迅猛发展,非结构化数据(如XML文档)在企业和组织中的应用日益广泛。如何高效地处理这些非结构化的数据,特别是进行快速检索成为了一...

    Lucene5学习之增量索引(Zoie)

    《深入理解Lucene5增量索引与Zoie系统》 在信息检索领域,Lucene是一个广泛使用的全文搜索引擎库,其强大的索引能力和高效的搜索性能为开发者提供了强大的支持。然而,随着数据量的不断增长,如何高效地进行增量...

    Lucene建索引及查询关键字

    在Eclipse环境中运用java,Lucene建索引及查询关键字

    lucene-2.2.0-src

    Lucene 2.2.0源代码的分析有助于我们理解全文检索的核心原理,包括倒排索引的构建、查询解析与执行,以及性能优化策略。随着版本的迭代,Lucene的功能更加完善,但其核心思想——高效、灵活的文本检索——始终贯穿...

    用Lucene.net对数据库建立索引及搜索

    《使用Lucene.NET对数据库建立索引及搜索》 在信息技术领域,搜索引擎是不可或缺的一部分,尤其是在处理大量数据时。Lucene.NET是一个强大的全文搜索引擎库,它允许开发人员在应用程序中集成高级搜索功能。本文将...

    基于lucene技术的增量索引

    **基于Lucene技术的增量索引** 在信息技术领域,全文搜索引擎是处理大量数据查询的关键工具。Apache Lucene是一个开源的全文检索库,被广泛应用于构建高效、可扩展的搜索功能。本文将深入探讨如何利用Lucene实现...

    Lucene.Net-2.3.2

    4. **内存管理**:Lucene.Net使用段合并策略,平衡了索引速度和内存消耗。 5. **灵活性**:提供丰富的API,开发者可以自定义索引策略、评分函数和查询解析。 6. **内存缓存**:索引部分信息存储在内存中,提高了...

    深入 Lucene 索引机制深入 Lucene 索引机制

    Lucene的索引机制基于倒排索引,这种技术通过牺牲存储空间来换取快速的检索速度。在索引过程中,Lucene会对输入的文本进行分词,创建一个词项到文档位置的映射。当进行查询时,系统会快速定位到包含查询词的文档,而...

    lucene2.2.0

    Lucene 2.2.0采用了倒排索引的数据结构,能快速定位到包含特定词项的文档。这种索引结构大大减少了搜索时间,提高了搜索效率。 2.2 多字段索引 Lucene 支持对多个字段进行独立索引,用户可以根据不同的字段进行...

    lucene-analyzers-2.3.2.jar

    lucene-analyzers-2.3.2.jarlucene-analyzers-2.3.2.jarlucene-analyzers-2.3.2.jar

    lucene.net 2.9.2 实现索引生成,修改,查询,删除实例

    在这个实例中,我们将深入探讨如何使用Lucene.NET 2.9.2来实现索引的生成、修改、查询和删除。 **一、索引生成** 首先,我们需要创建一个索引,这是全文检索的基础。在Lucene.NET中,我们通常会定义一个文档类,...

    lucene-highlighter-2.2.0.jar

    lucene-highlighter-2.2.0.jarlucene-highlighter-2.2.0.jarlucene-highlighter-2.2.0.jarlucene-highlighter-2.2.0.jarlucene-highlighter-2.2.0.jarlucene-highlighter-2.2.0.jarlucene-highlighter-2.2.0.jar

    Lucene5学习之创建索引入门示例

    **Lucene5学习之创建索引入门示例** 在IT领域,搜索引擎的开发与优化是一项关键技术,而Apache Lucene作为一款高性能、全文本搜索库,是许多开发者进行文本检索的首选工具。本文将深入探讨如何使用Lucene5来创建一...

Global site tag (gtag.js) - Google Analytics