Lucene里面Collector -

weitao1026

浏览: 1048277 次
性别:
来自: 上海

最近访客更多访客>>

vicento4

723499280

liuzidong

s1986q

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Lucene里面Collector

博客分类：

lucene/solr/nuth/elasticsearch/MG4J

lucene

我们先来回顾下，一个基本的搜索流程是怎么完成的
1，得到一个索引目录Directory(可能基于内存的或者磁盘的)。
2，得到一个DirectoryReader。
3，实例化查询组件IndexSearcher。
4，检索得到TopDoc查询结果集
5,遍历ScoresDocs处理结果

我们看下这个检索的流程，大概可以分这5步，前1,2,3算是准备工作，后面的2步是我们经常需要进行数据处理的地方，那么我们Collector到底工作在哪一步呢？，其实Collector真正的起作用是在3-4步之间的。

那么Collector的作用是干什么的？为什么需要使用Collector？

在这之前先分析下TopDocs这个类，这个类的工作原理，其实在后台使用的也是一个收集器，收收集我们检索的结果，通过TopDocsCollector这个基类下面的2个子类收集器，来收集一次我们检索的命中数据。
所以collector的作用就是收集某些我们需要定制化的结果集，某些情况下使用collector可以可以极大的提升我们程序的性能，通过collector可以让我们对每一个匹配上的文档做一些特有的定制化操作，当然前提是在我们需要使用的情况下。
下面我们来看下collector基类的几个方法

方法说明
collect() 检索时，每匹配上一个文档，都会调用此方法
acceptsDocsOutOfOrder() 测试本collector是否能处理无序到达的docid
setScorer(Scorer scorer) 处理检索结果的评分
setNextReader(AtomicReaderContext context) 检索时，在多个索引段结构之间切换的方法

下面我们来看下自定义的一个collector来实现ScoreDoc类的功能,代码如下.

Java代码复制代码收藏代码
1.package com.piaoxuexianjing;
2.
3.import java.io.IOException;
4.import java.util.ArrayList;
5.import java.util.List;
6.
7.import org.apache.lucene.index.AtomicReaderContext;
8.import org.apache.lucene.search.Collector;
9.import org.apache.lucene.search.ScoreDoc;
10.import org.apache.lucene.search.Scorer;
11.
12./**
13. * @author 三劫散仙
14. * @version 1.0
15. *
16. * 自定义收集器
17. * 实现评分收集
18. * **/
19.public class MyScoreCollector extends Collector {
20.    //private HashMap<String, String> documents=new HashMap<String, String>();
21.    List<ScoreDoc> docs=new ArrayList<ScoreDoc>();
22.    private Scorer scorer;//scorer类
23.    private int docBase;//全局相对段基数
24.
25.
26.    @Override
27.    public boolean acceptsDocsOutOfOrder() {
28.        // TODO Auto-generated method stub
29.        //返回true是允许无次序的ID
30.        //返回false必须是有次序的
31.        return true;
32.    }
33.
34.    @Override
35.    public void collect(int arg0) throws IOException {
36.        /**
37.         * 匹配上一个文档
38.         * 就记录其docid与打分情况
39.         *
40.         * */
41.        docs.add(new ScoreDoc(arg0+docBase,scorer.score()));//
42.    }
43.// BinaryDocValues names;//字符类型的内置存储
44.// BinaryDocValues bookNames;//字符类型的内置存储
45.// BinaryDocValues ids;//字符类型的内置存储
46.// BinaryDocValues prices;//字符类型的内置存储
47.// FieldCache.Doubles d ; //数值类型的内置存储
48.// FieldCache.Ints ints;//数值类型的内置存储
49.    @Override
50.    public void setNextReader(AtomicReaderContext arg0) throws IOException {
51.        this.docBase=arg0.docBase;//记录每个索引段结构的相对位置
52.    }
53.
54.    @Override
55.    public void setScorer(Scorer arg0) throws IOException {
56.        // TODO Auto-generated method stub
57.        this.scorer=arg0;//记录改匹配的打分情况
58.
59.    }
60.
61.
62.
63.
64.}

测试类的核心代码

Java代码复制代码收藏代码
1.//自定义收集器
2. MyScoreCollector scoreCollector=new MyScoreCollector();
3.searcher.search(new MatchAllDocsQuery(), scoreCollector);
4./**
5. * 自定义的收集类，实现效果===>ScoreDocs类
6. * **/
7.List<ScoreDoc> s=scoreCollector.docs;
8.for(ScoreDoc sc:s){
9. System.out.println(sc.doc+"===="+sc.score);
10.}

输出结果如下

Java代码复制代码收藏代码
1.0====1.0
2.1====1.0
3.2====1.0
4.3====1.0
5.4====1.0
6.5====1.0
7.6====1.0
8.7====1.0

至此，我们就利用自定义的collector完成了一个简单的收集评分功能，当然我们可以根据自己的业务，来实现各种各样的collector，灵活运用！

分享到：

java的工具类 | 高亮功能

2015-12-22 01:01
浏览 525
评论(0)
分类:企业架构
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Lucene里面Collector

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Lucene里面Collector

评论

发表评论

相关推荐

elasticsearch异常信息汇总

Elasticsearch的架构

怎么在Ubuntu上打开端口

Elasticsearch工作原理

Elasticsearch的路由（Routing）特性

Elasticsearch中的segment理解

Elasticsearch的路由（Routing）特性

Elasticsearch 的 Shard 和 Segment

开源大数据查询分析引擎现状

大数据处理方面的 7 个开源搜索引擎

开源大数据查询分析引擎现状

elasticsearch 把很多类型都放在一个索引下面 会不会导致查询慢

腾讯大数据Hermes爱马仕的系统

配置高性能Elasticsearch集群的9个小贴士

Elasticsearch与Solr

大数据杂谈微课堂|Elasticsearch 5.0新版本的特性与改进

ElasticSearch性能优化策略

ES索引优化

分词与索引的关系

Elasticsearch中的segment理解

最近访客更多访客>>

elasticsearch 把很多类型都放在一个索引下面会不会导致查询慢