导读:
HitCollector 的作用很简单,通过collect()方法控制检索返回的结果,下面是lucene自带的一个例子----使用一个优先队
列,返回指定数目的Top n Doc。
package org.apache.lucene.search;
/**
* Copyright 2004 The Apache Software Foundation
*
* Licensed under the Apache License, Version 2.0 (the "License");
* you may not use this file except in compliance with the License.
* You may obtain a copy of the License at
*
* http://www.apache.org/licenses/LICENSE-2.0
*
* Unless required by applicable law or agreed to in writing, software
* distributed under the License is distributed on an "AS IS" BASIS,
* WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or
implied.
* See the License for the specific language governing permissions and
* limitations under the License.
*/
import java.io.IOException;
import java.util.BitSet;
import org.apache.lucene.store.Directory;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.Term;
import org.apache.lucene.util.PriorityQueue;
/** A {@link HitCollector} implementation that collects the top-
scoring
* documents, returning them as a {@link TopDocs}. This is used by
{@link
* IndexSearcher} to implement {@link TopDocs}-based search.
*
*
This may be extended, overriding the collect method to, e.g.,
* conditionally invoke super()in order to filter which
* documents are collected.
**/
public class TopDocCollector extends HitCollector {
private int numHits;
private float minScore = 0.0f;
int totalHits;
PriorityQueue hq;
/** Construct to collect a given number of hits.
* @param numHits the maximum number of hits to collect
*/
public TopDocCollector(int numHits) {
this(numHits, new HitQueue(numHits));
}
TopDocCollector(int numHits, PriorityQueue hq) {
this.numHits = numHits;
this.hq = hq;
}
// javadoc inherited
public void collect(int doc, float score) {
if (score > 0.0f) {
totalHits++;
if (hq.size() <numhits>= minScore) { <br> hq.insert(new ScoreDoc(doc, score)); <br> minScore = ((ScoreDoc)hq.top()).score; // maintain minScore <br> } <br> } <br> } <br> /** The total number of documents that matched this query. */ <br> public int getTotalHits() {return totalHits; } <br> /** The top-scoring hits. */ <br> public TopDocs topDocs() { <br> ScoreDoc[] scoreDocs = new ScoreDoc[hq.size()]; <br> for (int i = hq.size()-1; i >= 0; i--) // put docs in array <br> scoreDocs[i] = (ScoreDoc)hq.pop(); <br> float maxScore = (totalHits==0) <br> Float.NEGATIVE_INFINITY <br> : scoreDocs[0].score; <br> return new TopDocs(totalHits, scoreDocs, maxScore); <br> } <br> } <br><br>本文转自 <br><a href="http://blog.lough.com.cn/post/234/">http://blog.lough.com.cn/post/234/</a></numhits>
分享到:
相关推荐
解析查询字符串的类,如QueryParser,也是在这个阶段发挥作用。 4. 搜索(Search):Searcher类负责执行查询,找到匹配文档,并返回排名结果。搜索过程包括查询解析、评分计算(如TF-IDF)和排序。此外,ScoreDoc、...
4. **结果处理**:使用HitCollector或TopDocs来收集和排序匹配的文档,然后展示给用户。 **3. 示例代码** ```java import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene....
5. 响应处理:了解HitCollector和Collector的用法,以及如何自定义结果集的处理逻辑。 四、实战开发 在实际项目中,开发者可以利用Lucene.NET 2.9.1源码进行以下操作: 1. 定制Analyzer:根据特定语言或业务需求,...
- **结果处理**: 搜索结果以ScoreDoc集合形式返回,可以通过HitCollector或TopDocs进行处理,展示给用户。 **4. 应用场景** - **网站搜索**: 许多网站使用Lucene提供站内搜索功能,如电子商务平台的商品搜索。 - **...
最后,使用HitCollector或TopDocs收集结果。 8. **显示结果**: 根据搜索结果,展示匹配的文档信息。 在我们的示例中,"search"可能是指一个包含示例代码或数据的目录,用于演示如何执行上述步骤。这些代码可能包括...
- **HitCollector** 和 **TopDocs**:用于收集和排序搜索结果。 在实际应用中,通常会结合使用Lucene和其他库,如Solr或Elasticsearch,来提供更高级的服务,如分布式搜索、多字段搜索、近实时搜索等。 通过以上的...
而 `ScoreDoc` 和 `HitCollector` 接口则可用于实现分页,限制返回的搜索结果数量。 6. **性能优化**:Lucene.NET 支持批量添加和更新,以提高效率。另外,还可以使用 `MergePolicy` 和 `Directory` 的选择来优化...
根据需要,可以使用 `HitCollector` 或 `TopDocs` 来获取结果集。 总之,通过结合Apache Lucene、Apache POI 和 Apache PDFBox,我们可以实现对doc、docx、pdf、txt等格式文档的全文检索功能。这个过程涉及到文件...
在学习过程中,你可以逐步理解每一行代码的作用,从而掌握Lucene的核心技能。这个过程将帮助你成为熟练的Lucene开发者,能够利用其强大功能解决各种文本检索问题。记得查看提供的博客链接,那里有更多详细的案例和...
Lucene 是一个高性能、全文本搜索库,由 Apache 软件基金会开发并维护。它提供了高级的索引和搜索功能,广泛应用于各种系统中,包括网站内容搜索、数据库搜索等。C#.NET 是 Microsoft 提供的一种面向对象的编程语言...
9. **HitCollector** 和 **TopDocs**: 用于收集和返回搜索结果的前N个最相关文档。 在实际应用中,Lucene常与其他技术结合,如Solr或Elasticsearch,这些是基于Lucene的分布式搜索平台,提供了更高级的管理和集群...
3. **结果处理**:查询结果通过ScoreDoc和HitCollector获取,测试类需要展示这些结果,分析查询的准确性和效率。 4. **性能测试**:通过循环执行查询,观察索引和查询的速度,评估Lucene的性能。 5. **优化实践**...
《Lucene 3.0 API CHM指南》 Lucene是一个高性能、全文本搜索库,由Apache软件基金会开发,广泛应用于各种搜索引擎和信息检索系统。本指南主要关注的是Lucene 3.0版本的API,这是一个强大的工具集,用于在Java环境...
3. **结果处理**:使用TopDocs和HitCollector获取查询结果,包括文档ID和分数。你可以进一步读取Document对象以获取文档内容。 4. **优化和关闭**:记得在完成操作后调用IndexWriter的optimize()方法来优化索引,并...
最后,通过HitCollector或者TopDocs来获取排名最高的结果。 四、优化与性能 为了提高搜索效率,可以采用多线程并行索引、分片索引和分布式搜索等策略。此外,倒排索引是Lucene的主要优化手段,它将词项与文档ID的...
最后,使用`HitCollector`或`ScoreDoc`遍历结果,展示给用户。 为了提升用户体验,通常还会涉及到一些高级特性。例如,可以使用`Highlighter`高亮显示搜索关键词,`Similarity`类可以调整评分算法以满足特定需求。...
8. **HitCollector** 和 **TopDocs**:用于收集和排序搜索结果,`TopDocs`返回的是排名最高的文档集合。 9. **Filter** 和 **QueryWrapperFilter**:允许在查询时添加过滤条件,如只返回满足特定条件的文档。 10. ...
最后,我们从搜索结果中获取Top N的匹配文档,这通常通过ScoreDoc和HitCollector来实现。每个ScoreDoc对象包含了匹配文档的编号和评分,我们可以根据这些信息获取原始的Document对象,进一步展示搜索结果。 总结来...
**Lucene API** 是一个强大的全文搜索引擎库,广泛应用于Java开发中,用于构建...通过理解并熟练运用这些知识点,开发者可以构建出满足各种需求的全文搜索引擎,无论是在企业级应用还是个人项目中,都能发挥重要作用。
3. **结果处理**:通过ScoreDoc和HitCollector获取搜索结果,并按照评分排序。 4. **内存管理**:合理配置缓存和内存使用,以平衡搜索速度和资源消耗。 5. **扩展性**:Lucene可以与其他Apache项目如Solr、Nutch...