`
qindongliang1922
  • 浏览: 2183707 次
  • 性别: Icon_minigender_1
  • 来自: 北京
博客专栏
7265517b-f87e-3137-b62c-5c6e30e26109
证道Lucene4
浏览量:117525
097be4a0-491e-39c0-89ff-3456fadf8262
证道Hadoop
浏览量:125921
41c37529-f6d8-32e4-8563-3b42b2712a50
证道shell编程
浏览量:59896
43832365-bc15-3f5d-b3cd-c9161722a70c
ELK修真
浏览量:71300
社区版块
存档分类
最新评论

Lucene4.3开发之第七步之合体后期(七)

阅读更多

转载请注明原创地址:
http://qindongliang1922.iteye.com/blog/1942030




今天散仙要写的是关于Lucene里面Collector这个东西,暂且称它为收集器吧,先来看下Lucene内置Collector类的继承图。





我们先来回顾下,一个基本的搜索流程是怎么完成的
1,得到一个索引目录Directory(可能基于内存的或者磁盘的)。
2,得到一个DirectoryReader。
3,实例化查询组件IndexSearcher。
4,检索得到TopDoc查询结果集
5,遍历ScoresDocs处理结果


我们看下这个检索的流程,大概可以分这5步,前1,2,3算是准备工作,后面的2步是我们经常需要进行数据处理的地方,那么我们Collector到底工作在哪一步呢?,其实Collector真正的起作用是在3-4步之间的。

那么Collector的作用是干什么的?为什么需要使用Collector?

在这之前先分析下TopDocs这个类,这个类的工作原理,其实在后台使用的也是一个收集器,收收集我们检索的结果,通过TopDocsCollector这个基类下面的2个子类收集器,来收集一次我们检索的命中数据。
所以collector的作用就是收集某些我们需要定制化的结果集,某些情况下使用collector可以可以极大的提升我们程序的性能,通过collector可以让我们对每一个匹配上的文档做一些特有的定制化操作,当然前提是在我们需要使用的情况下。
下面我们来看下collector基类的几个方法



方法说明
collect()检索时,每匹配上一个文档,都会调用此方法
acceptsDocsOutOfOrder()测试本collector是否能处理无序到达的docid
setScorer(Scorer scorer) 处理检索结果的评分
setNextReader(AtomicReaderContext context) 检索时,在多个索引段结构之间切换的方法



下面我们来看下自定义的一个collector来实现ScoreDoc类的功能,代码如下.

package com.piaoxuexianjing;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

import org.apache.lucene.index.AtomicReaderContext;
import org.apache.lucene.search.Collector;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.Scorer;

/**
 * @author 三劫散仙
 * @version 1.0
 * 
 * 自定义收集器
 * 实现评分收集
 * **/
public class MyScoreCollector extends Collector {
	//private HashMap<String, String> documents=new HashMap<String, String>();
	List<ScoreDoc> docs=new ArrayList<ScoreDoc>();
	private Scorer scorer;//scorer类
	private int docBase;//全局相对段基数
	 

	@Override
	public boolean acceptsDocsOutOfOrder() {
		// TODO Auto-generated method stub
		//返回true是允许无次序的ID
		//返回false必须是有次序的
		return true;
	}

	@Override
	public void collect(int arg0) throws IOException {
		/**
		 * 匹配上一个文档
		 * 就记录其docid与打分情况
		 * 
		 * */
		docs.add(new ScoreDoc(arg0+docBase,scorer.score()));//
	}
//	BinaryDocValues names;//字符类型的内置存储
//	BinaryDocValues bookNames;//字符类型的内置存储
//	BinaryDocValues ids;//字符类型的内置存储
//	BinaryDocValues prices;//字符类型的内置存储
//	FieldCache.Doubles d ; //数值类型的内置存储
//	FieldCache.Ints ints;//数值类型的内置存储
	@Override
	public void setNextReader(AtomicReaderContext arg0) throws IOException {
		this.docBase=arg0.docBase;//记录每个索引段结构的相对位置
	}

	@Override
	public void setScorer(Scorer arg0) throws IOException {
		// TODO Auto-generated method stub
		this.scorer=arg0;//记录改匹配的打分情况
		
	}
	
	
	

}

测试类的核心代码
    //自定义收集器
		   MyScoreCollector  scoreCollector=new MyScoreCollector();
		  searcher.search(new MatchAllDocsQuery(), scoreCollector);
		  /**
		   * 自定义的收集类,实现效果===>ScoreDocs类
		   * **/
		  List<ScoreDoc> s=scoreCollector.docs;
		  for(ScoreDoc sc:s){
			  System.out.println(sc.doc+"===="+sc.score);
		  }

输出结果如下
0====1.0
1====1.0
2====1.0
3====1.0
4====1.0
5====1.0
6====1.0
7====1.0


至此,我们就利用自定义的collector完成了一个简单的收集评分功能,当然我们可以根据自己的业务,来实现各种各样的collector,灵活运用!


转载请注明原创地址:

http://qindongliang1922.iteye.com/blog/1942030


2
2
分享到:
评论

相关推荐

    lucene4.3源码

    Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。Lucene是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会...

    lucene4.3 按坐标距离排序

    在IT领域,Lucene是一个非常著名的全文搜索引擎库,由Apache软件基金会开发。它提供了一个可扩展的、高性能的搜索框架,使得开发者能够轻松地在应用程序中实现全文检索功能。在"lucene4.3 按坐标距离排序"这个主题中...

    lucene4.3工具类

    lucene4.3增删改查的的一个工具类,对新手来说是一份不可多得的入门资料。

    lucene 4.3所用到的包

    全文检索lucene 4.3 所用到的3个jar包,包含lucene-queryparser-4.3.0.jar、 lucene-core-4.3.0.jar、lucene-analyzers-common-4.3.0.jar。

    Lucene4.3src 源代码

    lucene4.3源代码 censed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with * this work for additional information ...

    lucene-4.3.1资源

    Lucene是一个开源的全文搜索引擎库,由Apache软件基金会开发并维护。在Java编程环境中,它为开发者提供了强大的文本检索功能,使得在海量数据中快速查找相关信息变得简单易行。本篇文章将详细探讨Lucene 4.3.1版本的...

    基于lucene4.3的知识图谱搜索引擎XunTa(一种用"知识点"来找人的搜人引擎).zip

    1.XunTa是在lucene4.3上创建的通过“知识点”来找人的搜人引擎。  输入一个关键词(或组合),XunTa返回一个排名列表,排在前面的人是与该关键词(组合)最相关的“达人”。  可访问 http://www.xunta.so立即体验...

    lucene的IKAnalyzer以及兼容4.3

    本文将深入探讨IKAnalyzer的特性和其在Lucene 4.3中的兼容性问题及其解决方案。 **IKAnalyzer简介** IKAnalyzer( Intelligent Keyword Analyzer)是一款基于Java实现的中文分词工具,它主要针对中文的特性进行了...

    基于lucene的开发JavaEE项目

    《基于Lucene的JavaEE项目开发详解》 在信息技术领域,搜索引擎已经成为不可或缺的一部分,而Lucene作为开源全文搜索引擎库,以其高效、灵活的特点被广泛应用于各种JavaEE项目中。本项目将深入探讨如何利用Lucene...

    Lucene3.4开发入门.pdf

    Lucene3.4开发入门.pdf

    lucene2.9开发指南

    - **建立索引**:这是Lucene搜索的第一步,涉及将数据转换为可搜索的索引结构。这通常包括读取数据源(如文件或数据库),然后将内容解析为文档,并使用分析器对文档内容进行分词。 - **搜索索引**:一旦索引建立...

    Lucene.net开发最全文档

    **Lucene.net 开发完全指南** Lucene.net 是一个开源的全文搜索引擎库,它是 Apache Lucene 的 .NET 版本,适用于 .NET 平台。Lucene.net 提供了高效、可扩展的搜索功能,广泛应用于网站内容检索、文档搜索、数据库...

    Lucene开发详解.pdf

    ### Lucene开发详解 #### 一、Lucene简介 Lucene是一个高性能、全功能的文本搜索引擎库,由Doug Cutting创建并捐赠给Apache Software Foundation。它主要用于构建全文搜索应用程序,能够帮助开发者快速地在其应用...

    基于lucene.net开发的个人知识库

    《基于Lucene.Net开发的个人知识库》 在信息技术领域,高效的信息检索和管理是至关重要的。Lucene.Net,作为Apache Lucene项目的一个.NET版本,为开发者提供了强大的全文搜索引擎库,使得开发者能够轻松构建自己的...

    Lucene开发手册

    【Lucene开发手册】 Lucene是一个开源的全文检索库,由Apache软件基金会开发,主要用Java编写。作为一套API,Lucene提供了构建高效、可扩展的搜索引擎所需的核心工具。它并非一个完整的搜索引擎产品,而是一个搜索...

    lucene开发流程

    开发流程的第一步是从各种数据源(如新闻、论坛、博客)中获取信息。这通常涉及到与数据库交互,通过SQL查询或API接口来获取需要的数据。 2. **数据预处理**: 获取到原始数据后,需要对其进行预处理,这包括读取...

    Lucene搜索引擎开发权威经典(附盘源码)【于天恩】.zip

    《Lucene搜索引擎开发权威经典》是由于天恩编著的一本深入探讨Lucene搜索引擎开发的专业书籍,这本书结合源码分析,旨在帮助读者掌握Lucene的核心技术和应用实践。Lucene是Apache软件基金会的一个开放源代码项目,它...

    Lucene开发指南

    《Lucene开发指南》是一份综合性的学习资料,旨在帮助开发者深入理解和熟练运用Apache Lucene这一强大的全文搜索引擎库。Lucene是Java语言实现的开源项目,广泛应用于信息检索、数据分析和大数据处理等领域。本指南...

    lucene 的开发包6.6

    《Apache Lucene 6.6 开发详解》 Apache Lucene 是一个开源全文搜索引擎库,由Java编写,设计为高性能、可扩展的信息检索应用程序。它提供了丰富的搜索功能,包括索引、查询、排序等,被广泛应用于各种信息管理和...

    Lucene开发包

    **Lucene 开发包详解** Lucene 是一个高性能、全文本搜索库,由 Apache 软件基金会开发并维护。这个开发包包含了两个版本:lucene-1.4.3 和 lucene-1.4.1,分别代表了 Lucene 的不同迭代阶段,它们为开发者提供了...

Global site tag (gtag.js) - Google Analytics