Lucene4.0索引的效率问题 - ITeye问答

问答首页 → Java企业应用

0 1

Lucene4.0索引的效率问题10

最近用Lucene4.0做全文检索：公司大约有700GB左右的文件，格式有PDF、word、ppt、图片及其它等等，文件数量大约在70万个左右。我用多线程调用Tika来解析文件，解析后的文本文件写入本地磁盘，耗时大概1-2天的样子；然后用Lucene4.0对做索引，索引代码如下：

Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_40);
			IndexWriterConfig iwc = new IndexWriterConfig(Version.LUCENE_40,
					analyzer);
			iwc.setRAMBufferSizeMB(1024.0);
			iwc.setMaxBufferedDocs(100);

			writer = new IndexWriter(dir, iwc);

第一次索引也要2天多，请问这个效率正常吗？能有提高索引速度的方法吗？我查了好多资料，多数都是基于Luncene2.2或者更老的，基本不怎么实用。

最后，我的所有资料都是英文的，没有中文及其它文字。所以不涉及中文分词

多谢！

2014年6月16日 16:33

carlwu
11
0 0 5

3个答案按时间排序按投票排序

0 0

1.按照小世界理论和算法，将文件分成6类。
2.对6类文件采用6个线程建立索引；
3.对6个索引文件进行一个关系关联；
经过上面3步，你的索引建立就会比较快了。需要注意的是6个索引文件尽量放置在不同硬盘空间上，这样提高磁盘读写速度。

2014年7月25日 15:31

mymailzxj
153
0 0 3

添加评论

0 0

解析方案有问题：lucene索引过大以后查询性能也会很慢。你700G的数据，不知道索引数据有多大？
建议将文件按业务分类，每个类别对应一个索引库，一方面减少索引大小，另一方面可多个索引库同时建索引。分类越多，索引速度也就越快。

2014年7月17日 17:29

james_lover
40
0 1 3

1条评论

0 0

不正常，2天时间，不用工作了

2014年6月27日 16:44

Linkcqu
30
0 0 1

1条评论

相关推荐

lucene4.0+ik: Lucene4.0对索引结构进行了改进，采用了更紧凑的格式，减少了磁盘空间的占用，提高了查询速度。此外，它还支持多线程索引和查询，提升了并行处理能力。对于开发者而言，Lucene4.0提供了更丰富的API，使得构建全文...

lucene4.0实例: 《Lucene4.0实例详解》 Lucene是一款强大的全文搜索引擎库，被广泛应用于各种信息检索系统中。这里我们主要探讨的是Lucene 4.0版本的实例应用，旨在通过实际操作来理解其核心概念和功能。一、Lucene基础 Lucene ...

IK Analyzer 2012FF_hf1_IK分词lucene4.0_源码: 总之，"IK Analyzer 2012FF_hf1_IK分词lucene4.0_源码" 是一个为Lucene 4.0设计的老版本分词工具，它具备良好的自定义性、效率和社区支持，是中文信息处理项目的一个可靠选择。虽然已有更新的版本发布，但这个老版本...

IK Analyzer分析器jar包和使用文档，支持lucene4.0: 在压缩包文件中，`stopword.dic` 是停用词表，用于在分词过程中排除一些无意义或过于常见的词汇，如“的”、“和”、“在”，以减少索引和检索的负担，提高效率。`IKAnalyzer2012FF_u1.jar` 是IK Analyzer的主库文件...

lucene-4.0.0完整包: - **性能优化**: 在4.0.0版本中，Lucene 对索引和搜索的性能进行了优化，提升了处理速度和内存效率。 - **查询解析器增强**: 查询解析器的改进使得查询表达式更易于理解和使用，同时支持更多的查询语法。 - **多字段...

lucene .NET4.0&盘古分词dll，demo，doc: 首先，Lucene.NET 4.0是Apache Lucene项目的一个.NET版本，它实现了完整的Lucene搜索功能，包括索引、查询、排序和高亮显示等。Lucene.NET 4.0主要更新了对.NET Framework 4.0的支持，增强了性能，并引入了一些新的...

Lucene.net概念介绍: 通过 Lucene.net，开发人员可以轻松地在 .NET 应用程序中集成全文搜索功能，从而提升应用的用户体验和数据查找效率。 1. Lucene 简介： - Lucene 本身是一个开源的全文搜索框架，它不直接作为一款应用产品使用，...

Lucene4.X实战类baidu搜索的大型文档海量搜索系统-04.Lucene索引深入共24页.pptx: 10. **优化索引（Index Optimization）**：通过Merge Policy，Lucene可以合并多个Segment为一个更大的Segment，以减少索引碎片并提高搜索效率。这个过程通常在索引稳定后执行，如批量加载数据完毕或一段时间无修改后...

luke 4.0 jar 4.7.1jar: 《Luke：Lucene索引查看工具的深度解析》在信息检索领域，Lucene作为一款强大的全文搜索引擎库，被广泛应用于各种数据检索系统。而Luke，全称Lucene Index Toolbox，是Lucene的一个辅助工具，它允许开发者和管理员...

lucene-4.10.3源码: 3. 实战练习：编写小项目，应用Lucene解决实际问题，加深对源码的理解。总结，Lucene 4.10.3的源码是深入了解搜索引擎技术的宝贵资源，它揭示了文本检索的内在逻辑和优化策略。通过深入研究源码，开发者不仅可以...

hadoop+lucene几种结合形式: 1. 优点：低成本、快速上手，开源社区活跃，问题解决效率高。但这也意味着可能需要面对各种复杂需求，需要经验丰富的开发者进行优化以确保搜索质量。 2. 缺点：虽然功能强大，但也存在一些问题，如HTTP请求的缓存...

luceneDemo（完整代码）: 在"luceneDemo4.0"中，你将会看到以上概念的具体应用，包括创建索引、执行查询、高亮展示结果以及调整排序逻辑的示例代码。通过实践这个项目，你不仅可以了解Lucene的基本操作，还能学习到如何在实际项目中优化搜索...

盘古分词、lucene3.0.3搜索的使用示例.zip: 《盘古分词与Lucene 3.0.3在.NET 4.0中的应用实践》盘古分词和Lucene是两个在文本处理和全文检索领域中至关重要的工具。本文将深入探讨如何在.NET 4.0环境中集成并使用这两个组件，以实现高效的文本分析和搜索引擎...

java搜索引擎技术: Lucene4.0-lisj可能是Lucene的4.0版本的一个学习资源或者示例代码集合。在Java搜索引擎技术中，有几个关键知识点： 1. **文本分析（Text Analysis）**：这是搜索引擎处理输入文档的第一步，包括分词...

五大分布式搜索方案选型.doc: SolrCloud是Solr的分布式版本，采用Zookeeper进行节点间通信和管理，支持实时搜索（即将在Lucene4.0中实现）。SolrCloud提供索引分片功能，但用户需要手动配置，同时搜索接口不够友好，需要指定分片地址。同样，索引...

PanGu分词动态库（支持C#直接调用，.NET 4.0以上版本）: 3. **PanGu.Lucene.Analyzer.dll**：这是针对Apache Lucene搜索引擎的分析器，用于优化Lucene的中文索引构建和查询过程。分析器的作用是将输入的文本进行预处理，如分词、去除停用词等，以便Lucene能更好地理解和...

IKAnalyzer2012FF.jar: IKAnalyzer2012FF.jar是一款专为中文处理而设计的分词工具，它在Lucene 4.0和Solr 4.0的基础上进行了优化和扩展，为中文信息检索提供强大的支持。这个jar包的核心功能是中文分词，它能够有效地将连续的汉字序列分割...

EasyNet.Solr-3.5.1: 这个版本是3.5.1，专为.NET Framework 4.0设计。Solr是一个开源的全文检索平台，由Apache Lucene项目维护，它提供了一个高效、可扩展的搜索和分析服务。描述中提到的“.net环境下开发 solr 用到的bin文件”意味着...

Solr介绍文档: 2. **通过MapReduce批量创建索引**：SolrCloud集成Hadoop MapReduce框架，允许用户利用该框架进行大规模索引构建工作，极大地提高了创建索引的速度和效率。 3. **强大的RESTful API**：SolrCloud提供了一套全面的...

Ask-but

我的问答 FAQ | 勋章

相关推荐

已解决问题

未解决问题

排行榜

查看全部排名>>

Global site tag (gtag.js) - Google Analytics