`
qindongliang1922
  • 浏览: 2190663 次
  • 性别: Icon_minigender_1
  • 来自: 北京
博客专栏
7265517b-f87e-3137-b62c-5c6e30e26109
证道Lucene4
浏览量:117712
097be4a0-491e-39c0-89ff-3456fadf8262
证道Hadoop
浏览量:126126
41c37529-f6d8-32e4-8563-3b42b2712a50
证道shell编程
浏览量:60066
43832365-bc15-3f5d-b3cd-c9161722a70c
ELK修真
浏览量:71442
社区版块
存档分类
最新评论

Lucene4.3进阶开发之日照光华(十四)

阅读更多
转载请务必注明,原创地址,谢谢配合!
http://qindongliang1922.iteye.com/blog/2008672

接着上篇,散仙介绍的Lucene的几种评分方式,大部分的时候都能满足我们的大多数业务场景,但有些场合下可能我们使用另外一种评分策略,会更加灵活一点,上次介绍的评分主要是围绕着DefaultSimilarity这个类来介绍的,其实这个类控制评分的方式更加倾向于底层控制,而散仙下文要介绍的CustomScoreQuery这个类,则更加倾向于应用层面的控制。


为什么,有时候我们需要借助这个类来完成评分呢?
可能有时候我们会遇到如下类似的需求:
在一份论坛的索引里面有帖子的标题和帖子发布的日期(为了简化程序,假设按年来记录的),这个时候有如下需求,要求我们检索标题时,不仅要检索出与关键词最相关的帖子,而且还得是年份距现在相距不远的帖子,进行提拔加权,综上所述,这里面有2个关键因素,第一内容相关,
第二,近期时间的日期拥有的更高的加权。可以看出那么这个文档的评分是要结合这两个因素来完成最后的总的评分。

到这里可能有些人就会有疑问,为什么不对检索完的内容,按时间排序降序排序呢,这里可能会出现一个问题,如果是硬性的按时间降序排序,可能会破坏评分机制,因为默认的排序是按照评分降序排的,如果按照时间排序可能就会破坏原有的顺序,所以这个时候就需要我们统一下方式,要么用评分的方式来解决问题,那么用排序的问题来解决,显然统一评分的方式会更加适合这个场景。

测试的数据如下:

Document doc=new Document();		
		doc.add(new StringField("id", "1", Store.YES));
		doc.add(new TextField("name", "中国是一个多民族国家", Store.YES));
		doc.add(new IntField("date", 2012, Store.NO));
		writer.addDocument(doc);
				
        doc=new Document();
		
		doc.add(new StringField("id", "2", Store.YES));
		doc.add(new TextField("name", "伟大的人啊", Store.YES));
		doc.add(new IntField("date", 2013, Store.NO));
		writer.addDocument(doc);
				
        doc=new Document();
		
		doc.add(new StringField("id", "3", Store.YES));
		doc.add(new TextField("name", "伟大的祖国", Store.YES));
		doc.add(new IntField("date", 2010, Store.NO));
		writer.addDocument(doc);

没采用自定义评分的时候检索结果:
2    伟大的人啊    0.5
3    伟大的祖国    0.5

我们可以采取两种方式,来完成这个方式,下面看第一种方式:基于CustomScoreProvider的方式, 我们统一对2010年的帖子加权为2,默认是与原来的评分是相乘的关系,代码如下:
package com.qin.lucene20140123;

import java.io.IOException;

import org.apache.lucene.index.AtomicReaderContext;
import org.apache.lucene.queries.CustomScoreProvider;
import org.apache.lucene.search.FieldCache;
import org.apache.lucene.search.FieldCache.Ints;
import org.apache.lucene.search.similarities.DefaultSimilarity;


/**
 * @author 秦东亮
 * Lucene技术交流群:324714439
 * 实现评分提供的方式
 * **/
public class MyScoreProvider extends CustomScoreProvider {
	AtomicReaderContext reader=null;
	public MyScoreProvider(AtomicReaderContext context) {
		super(context);
		reader=context;
		
		// TODO Auto-generated constructor stub
	}

	
	@Override
	public float customScore(int doc, float subQueryScore, float valSrcScore)
			throws IOException {
	 
		//FieldCache.DEFAULT.getTerms(reader.reader(), "date");
		//从域缓存里面加载索引字段的信息
	  Ints ints=FieldCache.DEFAULT.getInts(reader.reader(), "date", false);
	  
	   int date=ints.get(doc);
	  
	   float ss=1;//判断加权 
	   if(date==2010){
		   ss=2;
	   }
	  
		/*
		 * 通过得分相乘放大分数
		 * 此处可以控制与原有得分结合的方式,加减乘除都可以
		 * **/
		return  subQueryScore*valSrcScore*ss;
	}
	

	
	
}

然后我们继承CustomScoreQuery,引用上文,我们定义的评分提供者,代码如下:
package com.qin.lucene20140123;

import java.io.IOException;

import org.apache.lucene.index.AtomicReaderContext;
import org.apache.lucene.queries.CustomScoreProvider;
import org.apache.lucene.queries.CustomScoreQuery;
import org.apache.lucene.search.Query;
/**
 * 重写CustomScoreQuery
 * 的CustomScoreProvider方法
 * 引用我们自己的Provider
 * 
 * **/
public class MyQuery extends CustomScoreQuery {

	public MyQuery(Query subQuery) {
		super(subQuery);
		 
		// TODO Auto-generated constructor stub
	}
	
	
	
	
	
	@Override
	protected CustomScoreProvider getCustomScoreProvider(
			AtomicReaderContext context) throws IOException {
		 
		
		/**
		 * 自定义的评分provider
		 * 
		 * **/
		return new MyScoreProvider(context);
	}
	
	
	
	
	
	

}

最后,在检索的时候,使用我们自定义的的评分query,代码如下:
		QueryParser p=new QueryParser(Version.LUCENE_44, "name", new IKAnalyzer(true));
	    Query query=p.parse(temp);
		MyQuery myq=new MyQuery(query);
	    TopDocs top=searcher.search(myq, 10);


此时的检索结果和我们预期的一样:
3    伟大的祖国    1.0
2    伟大的人啊    0.5


下面散仙,介绍第二种方式基于FunctionQuery的方式,这种方式需要我们自己重写ValueSource,来完成,代码如下:
package com.qin.lucene20140123;

import java.io.IOException;
import java.util.Map;

import org.apache.lucene.index.AtomicReaderContext;
import org.apache.lucene.queries.function.FunctionValues;
import org.apache.lucene.queries.function.ValueSource;
import org.apache.lucene.queries.function.docvalues.FloatDocValues;
import org.apache.lucene.search.FieldCache;
import org.apache.lucene.search.FieldCache.Ints;

/**
 * 
 * @author 秦东亮
 * 
 * 重写ValueSource
 * 返回外部的加权方式
 * 
 * 
 * **/
public class ScoreFunction extends ValueSource {

	
	
	 

	@Override
	public FunctionValues getValues(Map arg0, final AtomicReaderContext arg1)
			throws IOException {
		 
		
		
		return new FloatDocValues(this) {
			
			
			@Override
			public float floatVal(int doc) {
			  float s=1;
				try {
					/**
					 * 从域缓存里面
					 * 读取所需数据
					 * 
					 * */
					Ints ints=FieldCache.DEFAULT.getInts(arg1.reader(),"date", false);
					
					
					int a=ints.get(doc);
					/**
					 * 对2010加权
					 * 
					 * */
					if(a==2010){
						s=2;
					}
				} catch (IOException e) {
					// TODO Auto-generated catch block
					e.printStackTrace();
				}
				
				return s;
			}
		};
	}

	@Override
	public int hashCode() {
		// TODO Auto-generated method stub
		return 0;
	}

	@Override
	public String description() {
		// TODO Auto-generated method stub
		return null;
	}

	@Override
	public boolean equals(Object arg0) {
		// TODO Auto-generated method stub
		return false;
	}
	
	
	

}

然后,在检索时,就可以构造我们自己的自定义评分了,
核心代码如下:

QueryParser p=new QueryParser(Version.LUCENE_44, "name", new IKAnalyzer(true));
	    Query query=p.parse(temp);
	    /*
	     * 
	     * 引用自己的
	     * 评分query
	     * **/
		 CustomScoreQuery csq=new CustomScoreQuery(query,new FunctionQuery(new ScoreFunction()));
	    TopDocs top=searcher.search(csq, 10);


基于上次同样的检索条件,打印输出结果如下:
3    伟大的祖国    0.49999997
2    伟大的人啊    0.24999999


除了,得分方式的不一样,我们发现对结果的排序都是一样的,由此,我们可以灵活选择我们所需要的方式,来完成我们的业务。
转载请务必注明,原创地址,谢谢配合!
http://qindongliang1922.iteye.com/blog/2008672

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics