lucene3.0.3中的CustomerScoreQuery -

suichangkele

浏览: 198163 次
性别:
来自: 北京

最近访客更多访客>>

jieyuan_cg

z9780420

jzhfmm

geeksun

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

lucene3.0.3中的CustomerScoreQuery

博客分类：

lucene

CustomerScoreQuery 自定义得分

我原本以为我已经把lucene3.0.3看的很详细了，结果发现漏了一个很重要的query——CustomerScoreQuery，从名字上看表示用户自定义得分的query，我表示很好奇，因为我花了好大力气才明白了lucene的得分公式，貌似这里竟然可以自己写得分公式了，于是我抱着极大的好奇心看了他的源码，记录在此，方便大家。

CustomerScoreQuery的原理是这样的，它包含一个主query以及一个或者多个valueScourceQuery，主query和我们平时的query是一样的，可以是任意的query的子类，valueSourceQuery是用来完成我们自定义得分的，他不会进行召回，召回是主query的功能，对于主query召回的的每一个doc，valueSourceQuery可以对其得分进行修改，修改的规则由CustomerScoreQuery配置的CustomScoreProvider设置，他的主要思想就是这样。ValueSourceQuery对doc的得分的修改是根据其内部的ValueSource属性来设置的，我们从这个ValueSouce下手。

ValueSource：这个类是个抽象类，他最关键的方法是DocValues getValues(IndexReader reader)，他表示从指定的reader中获得的对于每一个doc的值，用DocValues进行封装，DocValues也是一个抽象类，通过调用它的floatVal(int doc)、intVal(int doc)来获得每一个doc的值，这个值就可以影响最终的doc的打分。我们看一个ValueSource的实现类FieldCacheSource，它的逻辑是从词典表中获得每一个doc对应的term，然后根据term进行打分，所以他必须执行一个域（即term所在的域），并且这个域必须建立索引且不能分词（这个和之前的FieldCache的逻辑是一样的）。他对getValues的实现是这样的：

/**
 * 获得当前的段下当前的域的值，通过DocValues封装，和Sort是一个逻辑。
 */
@Override
public final DocValues getValues(IndexReader reader) throws IOException {
	return getCachedFieldValues(FieldCache.DEFAULT, field, reader);//这里的field就是我们说的term所在的域的名字。
}

FieldCacheSource类也是一个抽象类，他的getCachedFieldValues没有实现，我们看一个他的实现类：IntFieldSource.getCachedFieldValues(FieldCache, String, IndexReader)，即将每个doc所对应的某个域中的term转换为一个int类型的整数的类，他的逻辑和我们在FieldCache中介绍的是一样，代码如下：

@Override
public DocValues getCachedFieldValues(FieldCache cache, String field, IndexReader reader) throws IOException {
	final int[] arr = cache.getInts(reader, field, parser);//将FieldCache中当前的reader下的field域的term用parser转换为int，
	return new DocValues() {
		@Override
		public float floatVal(int doc) {
			return (float) arr[doc];
		}
		@Override
		public int intVal(int doc) {
			return arr[doc];
		}
		@Override
		public String toString(int doc) {
			return description() + '=' + intVal(doc);
		}
		@Override
		Object getInnerArray() {
			return arr;
		}
	};
}

这样就能获得最终的DocValues了，ValueSource的最终目的就是获得DocValues，然后我们再看一下ValueSourceQuery的过程。

一个Query最重要的就两个，一个是召回doc（doc的召回是scorer的功能），一个是对召回的doc的打分（打分是weight和scorer的功能），也就是生成weight、scorer的方法，ValueSourceQuery的最终生成的Scorer是ValueSourceScorer，其里面的termDocs是一个AllTermDocs，也就是从所有的域中获得term的termDocs，从这里可以看出valueSourceQuery是如何召回的doc了，只不过他是召回了所有的doc（也就是说他召回的doc实际上是没有用的）。我们再看一下ValueSourceScorer的得分的计算也就是其score方法

/* (non-Javadoc) @see org.apache.lucene.search.Scorer#score() */
@Override
public float score() throws IOException {
	return qWeight * vals.floatVal(termDocs.doc());//这里的vals就是从ValueSourceQuery中获得的ValueSource属性
}

他的得分的计算是通过DocValues来计算的，也就是将缓存的term转换为数字来作为得分，还有个qWeight，他是weight计算出来的值，在默认的情况下他是1，因为他是由ValueSourceQuery的getBoost来计算的（计算出来是1）。这样我们搞懂了ValueSourceQuery最终的功能是召回所有的doc，并将每个doc的term解析为数字作为得分的。接下来我们回到CustomerScoreQuery来看一下他是如何召回doc和计算得分的。

召回doc和得分都是在CustomerScoreQuery最终生成的Scorer——CustomScorer中计算的，我们看一下召回的方法nextDoc，代码：

/** 查找下一个doc时是优先调用subQueryScorer的id，然后让各个valueSource也指向这个doc*/
@Override
public int nextDoc() throws IOException {
   int doc = subQueryScorer.nextDoc();//先根据主query来召回doc，
   if (doc != NO_MORE_DOCS) {//如果召回了
        for (int i = 0; i < valSrcScorers.length; i++) {
   	    valSrcScorers[i].advance(doc);//将每一个ValueSourceQuery的scorer都前进到主query召回的doc,
	}
   }
   return doc;
}

可以看出召回是根据主query召回的，我们看一下打分：

@Override
public float score() throws IOException {
	for (int i = 0; i < valSrcScorers.length; i++) {
		vScores[i] = valSrcScorers[i].score();//计算当前的doc下所有的valueSourceScorer的得分
	}
	return qWeight * provider.customScore(subQueryScorer.docID(), subQueryScorer.score(), vScores);//最终的得分要看provider的实现。
}

provider通过CustomerScoreQuery的getCustomScoreProvider方法获得，这个类决定了如何计算最终的得分，他的customScore方法：

@Deprecated
public float customScore(int doc, float subQueryScore, float valSrcScores[]) {
if (valSrcScores.length == 1) {
	return customScore(doc, subQueryScore, valSrcScores[0]);//如果只要一个valueSourceQuery，是将两个的得分相乘，
}
if (valSrcScores.length == 0) {
	return customScore(doc, subQueryScore, 1);//如果没有valueSourceQuery，则直接返回subQuerScore,乘以1和没乘一样。
}
float score = subQueryScore;
for (int i = 0; i < valSrcScores.length; i++) {//如果有多个，是将所有的得分乘起来。
	score *= valSrcScores[i];
}
return score;
}

通过上面的分析我们知道了customerScorerQuery的来龙去脉，他就是通过valueSource对通过主Query召回的doc的打分进行修改。那么他的用处是什么呢，我们可以做什么拓展呢？我的理解是我们可以通过对得分进行修改，来影响排序，在CustomerScoreQuery的javadoc中也对此进行了说明：可以通过几成CustomerScoreQuery复写其getCustomScoreProvider方法来实现自己的CustomScoreProvider来实现最终的得分的计算，比如我们在搜电商网站中的商品的时候，对于刚上架的商品要比上架很久的商品排在前面，或者新上架的排在后面，就可以通过自己实现一个CustomScoreProvider，用当前的时间减去doc的上架时间作为一个得分的计算方式，然后再和主query的得分通过一定的方式结合起来做出最后的得分。

分享到：

lucene3.0.3中的Spanquery和Spans介绍 | lucene3.0.3中的FieldCache

2016-12-27 13:54
浏览 853
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

lucene3.0.3中的CustomerScoreQuery

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

lucene3.0.3中的CustomerScoreQuery

评论

发表评论

相关推荐

FST源代码解读6——FST的读取

FST源代码解读5——FST的压缩

FST源代码解读4——结束添加

FST源代码解读3——编译节点

FST源代码解读2——FST的生成

FST源代码解读1——FST是什么

packedints总结

lucene中的PackedInts源码解读(3)-PACKED格式

lucene中的PackedInts源码解读(2)-Packed64SingleBlock

lucene中的PackedInts源码解读-1

SpanQuery的得分

lucene的spanNearQuery（二）——不带有顺序的

solr的facet源码解读（四）——facet.field之非数字单值域类型

solr的facet源码解读（三）——facet.field之数字单值域类型

solr的facet源码解读（二）——facet.field

lucene中关于正向信息的获取——FielldCache

solr对docValue的使用

lucene中的docValue实现源码解读（十二）——总结

lucene中的docValue实现源码解读（十一）——SortedSet的读取

lucene中的docValue实现源码解读（十）——SortedSet的写入

最近访客更多访客>>