-
Lucene4.0索引的效率问题10
最近用Lucene4.0做全文检索:公司大约有700GB左右的文件,格式有PDF、word、ppt、图片及其它等等,文件数量大约在70万个左右。我用多线程调用Tika来解析文件,解析后的文本文件写入本地磁盘,耗时大概1-2天的样子;然后用Lucene4.0对做索引,索引代码如下:
Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_40); IndexWriterConfig iwc = new IndexWriterConfig(Version.LUCENE_40, analyzer); iwc.setRAMBufferSizeMB(1024.0); iwc.setMaxBufferedDocs(100); writer = new IndexWriter(dir, iwc);
第一次索引也要2天多,请问这个效率正常吗?能有提高索引速度的方法吗?我查了好多资料,多数都是基于Luncene2.2或者更老的,基本不怎么实用。
最后,我的所有资料都是英文的,没有中文及其它文字。所以不涉及中文分词
多谢!
2014年6月16日 16:33
相关推荐
Lucene4.0对索引结构进行了改进,采用了更紧凑的格式,减少了磁盘空间的占用,提高了查询速度。此外,它还支持多线程索引和查询,提升了并行处理能力。对于开发者而言,Lucene4.0提供了更丰富的API,使得构建全文...
《Lucene4.0实例详解》 Lucene是一款强大的全文搜索引擎库,被广泛应用于各种信息检索系统中。这里我们主要探讨的是Lucene 4.0版本的实例应用,旨在通过实际操作来理解其核心概念和功能。 一、Lucene基础 Lucene ...
总之,"IK Analyzer 2012FF_hf1_IK分词lucene4.0_源码" 是一个为Lucene 4.0设计的老版本分词工具,它具备良好的自定义性、效率和社区支持,是中文信息处理项目的一个可靠选择。虽然已有更新的版本发布,但这个老版本...
在压缩包文件中,`stopword.dic` 是停用词表,用于在分词过程中排除一些无意义或过于常见的词汇,如“的”、“和”、“在”,以减少索引和检索的负担,提高效率。`IKAnalyzer2012FF_u1.jar` 是IK Analyzer的主库文件...
首先,Lucene.NET 4.0是Apache Lucene项目的一个.NET版本,它实现了完整的Lucene搜索功能,包括索引、查询、排序和高亮显示等。Lucene.NET 4.0主要更新了对.NET Framework 4.0的支持,增强了性能,并引入了一些新的...
- **性能优化**: 在4.0.0版本中,Lucene 对索引和搜索的性能进行了优化,提升了处理速度和内存效率。 - **查询解析器增强**: 查询解析器的改进使得查询表达式更易于理解和使用,同时支持更多的查询语法。 - **多字段...
通过 Lucene.net,开发人员可以轻松地在 .NET 应用程序中集成全文搜索功能,从而提升应用的用户体验和数据查找效率。 1. Lucene 简介: - Lucene 本身是一个开源的全文搜索框架,它不直接作为一款应用产品使用,...
10. **优化索引(Index Optimization)**:通过Merge Policy,Lucene可以合并多个Segment为一个更大的Segment,以减少索引碎片并提高搜索效率。这个过程通常在索引稳定后执行,如批量加载数据完毕或一段时间无修改后...
《Luke:Lucene索引查看工具的深度解析》 在信息检索领域,Lucene作为一款强大的全文搜索引擎库,被广泛应用于各种数据检索系统。而Luke,全称Lucene Index Toolbox,是Lucene的一个辅助工具,它允许开发者和管理员...
3. 实战练习:编写小项目,应用Lucene解决实际问题,加深对源码的理解。 总结,Lucene 4.10.3的源码是深入了解搜索引擎技术的宝贵资源,它揭示了文本检索的内在逻辑和优化策略。通过深入研究源码,开发者不仅可以...
在"luceneDemo4.0"中,你将会看到以上概念的具体应用,包括创建索引、执行查询、高亮展示结果以及调整排序逻辑的示例代码。通过实践这个项目,你不仅可以了解Lucene的基本操作,还能学习到如何在实际项目中优化搜索...
《盘古分词与Lucene 3.0.3在.NET 4.0中的应用实践》 盘古分词和Lucene是两个在文本处理和全文检索领域中至关重要的工具。本文将深入探讨如何在.NET 4.0环境中集成并使用这两个组件,以实现高效的文本分析和搜索引擎...
Lucene4.0-lisj可能是Lucene的4.0版本的一个学习资源或者示例代码集合。 在Java搜索引擎技术中,有几个关键知识点: 1. **文本分析(Text Analysis)**:这是搜索引擎处理输入文档的第一步,包括分词...
SolrCloud是Solr的分布式版本,采用Zookeeper进行节点间通信和管理,支持实时搜索(即将在Lucene4.0中实现)。SolrCloud提供索引分片功能,但用户需要手动配置,同时搜索接口不够友好,需要指定分片地址。同样,索引...
3. **PanGu.Lucene.Analyzer.dll**:这是针对Apache Lucene搜索引擎的分析器,用于优化Lucene的中文索引构建和查询过程。分析器的作用是将输入的文本进行预处理,如分词、去除停用词等,以便Lucene能更好地理解和...
IKAnalyzer2012FF.jar是一款专为中文处理而设计的分词工具,它在Lucene 4.0和Solr 4.0的基础上进行了优化和扩展,为中文信息检索提供强大的支持。这个jar包的核心功能是中文分词,它能够有效地将连续的汉字序列分割...
这个版本是3.5.1,专为.NET Framework 4.0设计。Solr是一个开源的全文检索平台,由Apache Lucene项目维护,它提供了一个高效、可扩展的搜索和分析服务。 描述中提到的“.net环境下开发 solr 用到的bin文件”意味着...
2. **通过MapReduce批量创建索引**:SolrCloud集成Hadoop MapReduce框架,允许用户利用该框架进行大规模索引构建工作,极大地提高了创建索引的速度和效率。 3. **强大的RESTful API**:SolrCloud提供了一套全面的...