`

lucene HitCollector 的作用

 
阅读更多
导读:
  HitCollector 的作用很简单,通过collect()方法控制检索返回的结果,下面是lucene自带的一个例子----使用一个优先队
  列,返回指定数目的Top n Doc。
  package org.apache.lucene.search;
  /**
  * Copyright 2004 The Apache Software Foundation
  *
  * Licensed under the Apache License, Version 2.0 (the "License");
  * you may not use this file except in compliance with the License.
  * You may obtain a copy of the License at
  *
  * http://www.apache.org/licenses/LICENSE-2.0
  *
  * Unless required by applicable law or agreed to in writing, software
  * distributed under the License is distributed on an "AS IS" BASIS,
  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or
  implied.
  * See the License for the specific language governing permissions and
  * limitations under the License.
  */
  import java.io.IOException;
  import java.util.BitSet;
  import org.apache.lucene.store.Directory;
  import org.apache.lucene.document.Document;
  import org.apache.lucene.index.IndexReader;
  import org.apache.lucene.index.Term;
  import org.apache.lucene.util.PriorityQueue;
  /** A {@link HitCollector} implementation that collects the top-
  scoring
  * documents, returning them as a {@link TopDocs}. This is used by
  {@link
  * IndexSearcher} to implement {@link TopDocs}-based search.
  *
  *
  This may be extended, overriding the collect method to, e.g.,
  * conditionally invoke super()in order to filter which
  * documents are collected.
  **/
  public class TopDocCollector extends HitCollector {
  private int numHits;
  private float minScore = 0.0f;
  int totalHits;
  PriorityQueue hq;
  /** Construct to collect a given number of hits.
  * @param numHits the maximum number of hits to collect
  */
  public TopDocCollector(int numHits) {
  this(numHits, new HitQueue(numHits));
  }
  TopDocCollector(int numHits, PriorityQueue hq) {
  this.numHits = numHits;
  this.hq = hq;
  }
  // javadoc inherited
  public void collect(int doc, float score) {
  if (score > 0.0f) {
  totalHits++;
  if (hq.size() <numhits>= minScore) { <br>  hq.insert(new ScoreDoc(doc, score)); <br>  minScore = ((ScoreDoc)hq.top()).score; // maintain minScore <br>  } <br>  } <br>  } <br>  /** The total number of documents that matched this query. */ <br>  public int getTotalHits() {return totalHits; } <br>  /** The top-scoring hits. */ <br>  public TopDocs topDocs() { <br>  ScoreDoc[] scoreDocs = new ScoreDoc[hq.size()]; <br>  for (int i = hq.size()-1; i &gt;= 0; i--) // put docs in array <br>  scoreDocs[i] = (ScoreDoc)hq.pop(); <br>  float maxScore = (totalHits==0) <br>   Float.NEGATIVE_INFINITY <br>  : scoreDocs[0].score; <br>  return new TopDocs(totalHits, scoreDocs, maxScore); <br>  } <br>  } <br><br>本文转自 <br><a href="http://blog.lough.com.cn/post/234/">http://blog.lough.com.cn/post/234/</a></numhits>
分享到:
评论

相关推荐

    lucene 全包 包括源码

    解析查询字符串的类,如QueryParser,也是在这个阶段发挥作用。 4. 搜索(Search):Searcher类负责执行查询,找到匹配文档,并返回排名结果。搜索过程包括查询解析、评分计算(如TF-IDF)和排序。此外,ScoreDoc、...

    lucene for java 简单demo

    4. **结果处理**:使用HitCollector或TopDocs来收集和排序匹配的文档,然后展示给用户。 **3. 示例代码** ```java import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene....

    lucene.net 2.9.1 源码

    5. 响应处理:了解HitCollector和Collector的用法,以及如何自定义结果集的处理逻辑。 四、实战开发 在实际项目中,开发者可以利用Lucene.NET 2.9.1源码进行以下操作: 1. 定制Analyzer:根据特定语言或业务需求,...

    lucene-4.0.0完整包

    - **结果处理**: 搜索结果以ScoreDoc集合形式返回,可以通过HitCollector或TopDocs进行处理,展示给用户。 **4. 应用场景** - **网站搜索**: 许多网站使用Lucene提供站内搜索功能,如电子商务平台的商品搜索。 - **...

    lucene 索引小示例

    最后,使用HitCollector或TopDocs收集结果。 8. **显示结果**: 根据搜索结果,展示匹配的文档信息。 在我们的示例中,"search"可能是指一个包含示例代码或数据的目录,用于演示如何执行上述步骤。这些代码可能包括...

    lucene学习总结

    - **HitCollector** 和 **TopDocs**:用于收集和排序搜索结果。 在实际应用中,通常会结合使用Lucene和其他库,如Solr或Elasticsearch,来提供更高级的服务,如分布式搜索、多字段搜索、近实时搜索等。 通过以上的...

    Lucene.NET 实例

    而 `ScoreDoc` 和 `HitCollector` 接口则可用于实现分页,限制返回的搜索结果数量。 6. **性能优化**:Lucene.NET 支持批量添加和更新,以提高效率。另外,还可以使用 `MergePolicy` 和 `Directory` 的选择来优化...

    使用Lucene对doc、docx、pdf、txt文档进行全文检索功能的实现 - 干勾鱼的CSDN博客 - CSDN博客1

    根据需要,可以使用 `HitCollector` 或 `TopDocs` 来获取结果集。 总之,通过结合Apache Lucene、Apache POI 和 Apache PDFBox,我们可以实现对doc、docx、pdf、txt等格式文档的全文检索功能。这个过程涉及到文件...

    lucene专题教程代码

    在学习过程中,你可以逐步理解每一行代码的作用,从而掌握Lucene的核心技能。这个过程将帮助你成为熟练的Lucene开发者,能够利用其强大功能解决各种文本检索问题。记得查看提供的博客链接,那里有更多详细的案例和...

    lucene+api搜索引擎引工具源码

    Lucene 是一个高性能、全文本搜索库,由 Apache 软件基金会开发并维护。它提供了高级的索引和搜索功能,广泛应用于各种系统中,包括网站内容搜索、数据库搜索等。C#.NET 是 Microsoft 提供的一种面向对象的编程语言...

    PE1_lucene_

    9. **HitCollector** 和 **TopDocs**: 用于收集和返回搜索结果的前N个最相关文档。 在实际应用中,Lucene常与其他技术结合,如Solr或Elasticsearch,这些是基于Lucene的分布式搜索平台,提供了更高级的管理和集群...

    Lucene加庖丁解牛测试类

    3. **结果处理**:查询结果通过ScoreDoc和HitCollector获取,测试类需要展示这些结果,分析查询的准确性和效率。 4. **性能测试**:通过循环执行查询,观察索引和查询的速度,评估Lucene的性能。 5. **优化实践**...

    lucene3.0-api.CHM

    《Lucene 3.0 API CHM指南》 Lucene是一个高性能、全文本搜索库,由Apache软件基金会开发,广泛应用于各种搜索引擎和信息检索系统。本指南主要关注的是Lucene 3.0版本的API,这是一个强大的工具集,用于在Java环境...

    Lucene 4.7 测试案例

    3. **结果处理**:使用TopDocs和HitCollector获取查询结果,包括文档ID和分数。你可以进一步读取Document对象以获取文档内容。 4. **优化和关闭**:记得在完成操作后调用IndexWriter的optimize()方法来优化索引,并...

    Lucene实战之搜索引擎示例

    最后,通过HitCollector或者TopDocs来获取排名最高的结果。 四、优化与性能 为了提高搜索效率,可以采用多线程并行索引、分片索引和分布式搜索等策略。此外,倒排索引是Lucene的主要优化手段,它将词项与文档ID的...

    基于lucene组件的全文搜索系统

    最后,使用`HitCollector`或`ScoreDoc`遍历结果,展示给用户。 为了提升用户体验,通常还会涉及到一些高级特性。例如,可以使用`Highlighter`高亮显示搜索关键词,`Similarity`类可以调整评分算法以满足特定需求。...

    Lucene-3.0.2 API 下载

    8. **HitCollector** 和 **TopDocs**:用于收集和排序搜索结果,`TopDocs`返回的是排名最高的文档集合。 9. **Filter** 和 **QueryWrapperFilter**:允许在查询时添加过滤条件,如只返回满足特定条件的文档。 10. ...

    lucene2.4+nutch学习笔记三:lucene 在多个文本文档里找出包含一些关键字的文档

    最后,我们从搜索结果中获取Top N的匹配文档,这通常通过ScoreDoc和HitCollector来实现。每个ScoreDoc对象包含了匹配文档的编号和评分,我们可以根据这些信息获取原始的Document对象,进一步展示搜索结果。 总结来...

    Lucene api

    **Lucene API** 是一个强大的全文搜索引擎库,广泛应用于Java开发中,用于构建...通过理解并熟练运用这些知识点,开发者可以构建出满足各种需求的全文搜索引擎,无论是在企业级应用还是个人项目中,都能发挥重要作用。

    lucene-3.6.2

    3. **结果处理**:通过ScoreDoc和HitCollector获取搜索结果,并按照评分排序。 4. **内存管理**:合理配置缓存和内存使用,以平衡搜索速度和资源消耗。 5. **扩展性**:Lucene可以与其他Apache项目如Solr、Nutch...

Global site tag (gtag.js) - Google Analytics