并行索引.多目录 - - ITeye博客

`

lianshisheng

浏览: 28295 次
性别:
来自: 北京

最近访客更多访客>>

zhao103804

wynford

沐刃青蛟

woodding2008

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

jerry.chen：学习,,,,,,,,,,,
Nutch搜索引擎分析
lianshisheng： Asdpboy 写道嗯，讲得挺详细，不过，请问这个讲完了吗？ ...
Lucene结果分页
Asdpboy：嗯，讲得挺详细，不过，请问这个讲完了吗？
Lucene结果分页

并行索引.多目录

博客分类：

Lucene

lucene SQL JavaScript PHP .net

阅读更多

1、多字段搜索就是同时要一个以上的字段中的内容进行比较搜索，类似概念在SQL中就是select * from Table where a like '%query%' or b like '%query%'。

　　Lucene.net中的单个字段查询大家都比较熟悉，这里对字段content进行搜索

Query query = QueryParser.Parse(querystr,"content",new ChineseAnalyzer());
Hits hits = searcher.Search(query);

对多个字段查询用到一个MultiFieldQueryParser对象，该对象继承自Query，我们要对字段title,content进行搜索。

string[] fields = {"content","title"};
Query multiquery = MultiFieldQueryParser.Parse(querystr,fields,new ChineseAnalyzer());
Hits hits = searcher.Search(multiquery);

2、多索引目录就是要在多个索引目录的中进行比较搜索，类似概念在SQL中就是select * from TableA union select * from TableB。

IndexSearcher[] searchers = new IndexSearcher[2];
searchers[0] = new IndexSearcher(IndexPath0);
searchers[1] = new IndexSearcher(IndexPath1);
MultiSearcher multisearcher = new MultiSearcher(searchers);
TopDocs multitopdocs = multisearcher.Search(query, null, 1000);

　　这个搜索的结果可能有相同的信息，比如你有一条相同的信息在多个目录中索引，搜索的结果就会出现多次相同的信息。

　　还有一种搜索方式是用到ParallelMultiSearcher这个对象，它是从MulitSearcher继承而来。

ParallelMultiSearcher parallelmultisearcher = new ParallelMultiSearcher(searchers);
TopDocs paralleltopdocs = parallelmultisearcher.Search(query, null, 1000);

这个搜索是对搜索后的结果进行合并，剔除重复的信息。 <script src="tag.php?action=relatetag&rtid=66" type="text/javascript"></script>

分享到：

Lucene推荐资源总结 | 给Lucene加入性能更好的中文分词

2009-08-25 22:33
浏览 1162
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于Lucene的分布式并行索引.pdf: 分布式并行索引技术的应用能够显著提升索引的构建效率，因为索引任务被分散到多台机器上并行处理，而不是集中在单台机器上顺序执行。这样，即使面对海量数据，搜索引擎也能够保持较高的响应速度和较好的用户体验。 ...

时序数据库并行索引构造.pptx: 并行索引构造技术是通过将索引构建任务分解成多个子任务并在多个处理器或节点上同时执行来实现的。 #### 二、并行索引构造算法设计并行索引构造算法的设计是时序数据库高效运行的关键之一。以下是一些核心算法...

sql学习哪些索引设置并行属性.sql: sql学习哪些索引设置并行属性.sql

GAPI：GPU加速的移动对象并行索引方法.pdf: 为了解决这一问题，一种名为GAPI（GPU加速的移动对象并行索引方法）的新技术应运而生。GAPI利用GPU的并行计算能力，结合格网数据结构和四叉树的数据索引策略，实现了对移动对象数据库的高效处理。移动对象数据库...

大数据语义索引并行构建.pptx: 3. **并行索引构建算法**： - **增量构建**：采用增量构建算法，逐步添加数据并更新索引。 - **多线程处理**：使用并行工作线程同时处理多个数据块。 - **图分片**：运用图分片的概念，将索引构建操作分配到不同...

lucene并行索引: ### Lucene并行索引关键技术解析 #### 一、引言随着互联网的快速发展，海量信息的管理和检索成为了重要的挑战。传统的单机索引方法已无法满足高效处理大规模数据的需求，尤其是在搜索引擎领域。Lucene作为一款...

[三思笔记]全面学习分区表及分区索引.pdf: - 平行分区索引：每个分区都有自己的索引，查询可以在多个分区并行进行，提高处理速度。 - 全局分区索引：整个表只有一个索引，但这个索引覆盖所有分区，适用于查询跨越多个分区的情况。 - 局部分区索引：每个分区有...

lucene索引优化多线程多目录创建索引: 4. **并行索引**：每个线程独立地读取分配的子目录中的文件，使用Analyzer处理文本，然后添加到相应的IndexWriter中。 5. **合并索引**：所有线程完成索引后，使用IndexWriter的`addIndexes()`方法将所有子索引合并...

ORACLE数据库优化之SQL语句的并行处理.pdf: SQL语句的并行处理指的是将一条SQL语句分解成多个子任务，利用多处理器或多核架构，在不同的CPU上并行执行这些子任务，从而显著减少响应时间和提高数据库的吞吐量。并行处理的优势在处理大型数据集时尤为明显，如...

并行数据库并行数据库.ppt: 并行数据库是数据库管理系统的一种，它利用多处理器和分布式存储的能力来提高数据库的性能和响应时间，特别是在处理大规模数据和复杂查询时。随着硬件成本的降低和数据量的增长，并行数据库系统已成为处理大量事务...

Lucence并行索引图片文件: 并行索引是通过多线程同时对多个文件进行索引，以充分利用多核处理器的计算能力，大大提高整体索引速度。在Lucene中，可以使用`IndexWriter.addDocument()`方法的多线程版本，如`addDocuments(Iterable)`来实现。 3...

Oracle并行度.docx: Oracle 并行度是Oracle数据库系统中的一种优化技术，它允许大数据操作如DDL（数据定义语言）和DML（数据操纵语言）通过多个并行进程同时执行，以提高处理速度和利用系统资源。并行度是指在一个操作中同时运行的进程...

高性能并行计算: "高性能并行计算"课程讲义第一部分并行计算基础第一章预备知识 1.1 并行计算的目标和内容. ....1.2 并行计算机发展历程....1.2.1 计算机系统发展...索引. . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

并行计算实验快速排序的并行算法.doc: 在并行快速排序实验中，采用MPI系统来实现在多台PC机上的并行计算。实验内容包括并行化快速排序算法、性能分析、以及并行算法的流程图绘制和代码实现。实验的基本策略是利用多个处理器在每次划分后同时对左右两...

多核处理器中并行自适应索引算法优化.pdf: 《多核处理器中并行自适应索引算法优化》这篇论文主要探讨了如何在多核处理器环境下优化自适应索引算法，以提高数据处理效率和应对各种查询模式。以下是论文中的核心知识点： 1. **多核处理器并行计算**：随着...

C 代码转换多维矢量索引到一维向量索引.rar: 标题中的" C 代码转换多维矢量索引到一维向量索引.rar "正是提供了这样的功能。这个压缩包可能包含了两个源代码文件，`index_test.c`和`index.h`，它们很可能是用于测试和实现这个转换的。多维向量或数组通常...

最小生成树的多核并行算法.doc: 最小生成树的多核并行算法本文讨论了一种基于 Sollin 算法的多核并行算法，用于解决最小生成树问题。该算法可以分为三个步骤：选择边、合并顶点、合并边，并且可以证明该算法的正确性。在介绍算法之前，首先讨论...

基于映射_归约的分布式并行索引方法的研究与改进.pdf: 分布式并行索引方法是搜索引擎技术中的关键组成部分，尤其是在处理海量数据和提供快速检索服务的场景下。本文主要讨论了基于映射/归约（Map/Reduce）的分布式并行索引方法的研究与改进，并探讨了如何通过提高并行度...

基因组大数据变异检测算法的并行优化.docx: - **OpenMP (Open Multi-Processing)**：一种用于共享内存多处理器环境的标准API，它简化了并行编程，允许开发者轻松地指定循环和其他部分代码的并行执行。 - **MPI (Message Passing Interface)**：一种跨计算机...

MapReduce操作实例-倒排索引.pdf: MapReduce是Apache Hadoop框架下的并行计算模型，用于处理和生成大数据集。在这个实例中，我们将详细探讨如何使用MapReduce实现倒排索引。首先，我们来看`Mapper`类。`InvertedIndexMapper`是Map阶段的核心，它...

Global site tag (gtag.js) - Google Analytics