0 1

Lucene4.0索引的效率问题10

最近用Lucene4.0做全文检索:公司大约有700GB左右的文件,格式有PDF、word、ppt、图片及其它等等,文件数量大约在70万个左右。我用多线程调用Tika来解析文件,解析后的文本文件写入本地磁盘,耗时大概1-2天的样子;然后用Lucene4.0对做索引,索引代码如下:

Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_40);
			IndexWriterConfig iwc = new IndexWriterConfig(Version.LUCENE_40,
					analyzer);
			iwc.setRAMBufferSizeMB(1024.0);
			iwc.setMaxBufferedDocs(100);

			writer = new IndexWriter(dir, iwc);


第一次索引也要2天多,请问这个效率正常吗?能有提高索引速度的方法吗?我查了好多资料,多数都是基于Luncene2.2或者更老的,基本不怎么实用。

最后,我的所有资料都是英文的,没有中文及其它文字。所以不涉及中文分词

多谢!

2014年6月16日 16:33

3个答案 按时间排序 按投票排序

0 0

1.按照小世界理论和算法,将文件分成6类。
2.对6类文件采用6个线程建立索引;
3.对6个索引文件进行一个关系关联;
经过上面3步,你的索引建立就会比较快了。需要注意的是6个索引文件尽量放置在不同硬盘空间上,这样提高磁盘读写速度。

2014年7月25日 15:31
0 0

解析方案有问题:lucene索引过大以后查询性能也会很慢。你700G的数据,不知道索引数据有多大?
建议将文件按业务分类,每个类别对应一个索引库,一方面减少索引大小,另一方面可多个索引库同时建索引。分类越多,索引速度也就越快。

2014年7月17日 17:29
0 0

不正常,2天时间,不用工作了

2014年6月27日 16:44

相关推荐

    lucene4.0+ik

    Lucene4.0对索引结构进行了改进,采用了更紧凑的格式,减少了磁盘空间的占用,提高了查询速度。此外,它还支持多线程索引和查询,提升了并行处理能力。对于开发者而言,Lucene4.0提供了更丰富的API,使得构建全文...

    lucene4.0实例

    《Lucene4.0实例详解》 Lucene是一款强大的全文搜索引擎库,被广泛应用于各种信息检索系统中。这里我们主要探讨的是Lucene 4.0版本的实例应用,旨在通过实际操作来理解其核心概念和功能。 一、Lucene基础 Lucene ...

    IK Analyzer 2012FF_hf1_IK分词lucene4.0_源码

    总之,"IK Analyzer 2012FF_hf1_IK分词lucene4.0_源码" 是一个为Lucene 4.0设计的老版本分词工具,它具备良好的自定义性、效率和社区支持,是中文信息处理项目的一个可靠选择。虽然已有更新的版本发布,但这个老版本...

    IK Analyzer分析器jar包和使用文档,支持lucene4.0

    在压缩包文件中,`stopword.dic` 是停用词表,用于在分词过程中排除一些无意义或过于常见的词汇,如“的”、“和”、“在”,以减少索引和检索的负担,提高效率。`IKAnalyzer2012FF_u1.jar` 是IK Analyzer的主库文件...

    lucene .NET4.0&盘古分词dll,demo,doc

    首先,Lucene.NET 4.0是Apache Lucene项目的一个.NET版本,它实现了完整的Lucene搜索功能,包括索引、查询、排序和高亮显示等。Lucene.NET 4.0主要更新了对.NET Framework 4.0的支持,增强了性能,并引入了一些新的...

    Lucene.net概念介绍

    通过 Lucene.net,开发人员可以轻松地在 .NET 应用程序中集成全文搜索功能,从而提升应用的用户体验和数据查找效率。 1. Lucene 简介: - Lucene 本身是一个开源的全文搜索框架,它不直接作为一款应用产品使用,...

    Lucene4.X实战类baidu搜索的大型文档海量搜索系统-04.Lucene索引深入 共24页.pptx

    10. **优化索引(Index Optimization)**:通过Merge Policy,Lucene可以合并多个Segment为一个更大的Segment,以减少索引碎片并提高搜索效率。这个过程通常在索引稳定后执行,如批量加载数据完毕或一段时间无修改后...

    luke 4.0 jar 4.7.1jar

    《Luke:Lucene索引查看工具的深度解析》 在信息检索领域,Lucene作为一款强大的全文搜索引擎库,被广泛应用于各种数据检索系统。而Luke,全称Lucene Index Toolbox,是Lucene的一个辅助工具,它允许开发者和管理员...

    lucene-4.10.3源码

    3. 实战练习:编写小项目,应用Lucene解决实际问题,加深对源码的理解。 总结,Lucene 4.10.3的源码是深入了解搜索引擎技术的宝贵资源,它揭示了文本检索的内在逻辑和优化策略。通过深入研究源码,开发者不仅可以...

    luceneDemo(完整代码)

    在"luceneDemo4.0"中,你将会看到以上概念的具体应用,包括创建索引、执行查询、高亮展示结果以及调整排序逻辑的示例代码。通过实践这个项目,你不仅可以了解Lucene的基本操作,还能学习到如何在实际项目中优化搜索...

    盘古分词、lucene3.0.3搜索的使用示例.zip

    《盘古分词与Lucene 3.0.3在.NET 4.0中的应用实践》 盘古分词和Lucene是两个在文本处理和全文检索领域中至关重要的工具。本文将深入探讨如何在.NET 4.0环境中集成并使用这两个组件,以实现高效的文本分析和搜索引擎...

    java搜索引擎技术

    Lucene4.0-lisj可能是Lucene的4.0版本的一个学习资源或者示例代码集合。 在Java搜索引擎技术中,有几个关键知识点: 1. **文本分析(Text Analysis)**:这是搜索引擎处理输入文档的第一步,包括分词...

    五大分布式搜索方案选型.doc

    SolrCloud是Solr的分布式版本,采用Zookeeper进行节点间通信和管理,支持实时搜索(即将在Lucene4.0中实现)。SolrCloud提供索引分片功能,但用户需要手动配置,同时搜索接口不够友好,需要指定分片地址。同样,索引...

    PanGu分词动态库(支持C#直接调用,.NET 4.0以上版本)

    3. **PanGu.Lucene.Analyzer.dll**:这是针对Apache Lucene搜索引擎的分析器,用于优化Lucene的中文索引构建和查询过程。分析器的作用是将输入的文本进行预处理,如分词、去除停用词等,以便Lucene能更好地理解和...

    IKAnalyzer2012FF.jar

    IKAnalyzer2012FF.jar是一款专为中文处理而设计的分词工具,它在Lucene 4.0和Solr 4.0的基础上进行了优化和扩展,为中文信息检索提供强大的支持。这个jar包的核心功能是中文分词,它能够有效地将连续的汉字序列分割...

    EasyNet.Solr-3.5.1

    这个版本是3.5.1,专为.NET Framework 4.0设计。Solr是一个开源的全文检索平台,由Apache Lucene项目维护,它提供了一个高效、可扩展的搜索和分析服务。 描述中提到的“.net环境下开发 solr 用到的bin文件”意味着...

    Solr介绍文档

    2. **通过MapReduce批量创建索引**:SolrCloud集成Hadoop MapReduce框架,允许用户利用该框架进行大规模索引构建工作,极大地提高了创建索引的速度和效率。 3. **强大的RESTful API**:SolrCloud提供了一套全面的...

    asp简单网站内部搜索

    为了提高效率,可以考虑添加全文索引、使用更复杂的查询算法或者引入搜索引擎如Lucene。 6. **安全考虑**:在实际应用中,要对用户输入进行清理,防止SQL注入攻击。可以使用参数化查询或SQL Server的内置函数如`...

Global site tag (gtag.js) - Google Analytics