实现得分的PrefixQuery -

suichangkele

浏览: 204232 次
性别:
来自: 北京

最近访客更多访客>>

jieyuan_cg

z9780420

jzhfmm

geeksun

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

实现得分的PrefixQuery

博客分类：

lucene

lucene prefixQuery 得分前缀匹配

（先声明一下，我使用的lucene的版本是lucene4.7.2）

在lucene中，有一种类型的query叫做MultiTermQuery，故名思议，他是要涉及到很多个term的query，比如我们常用的WildcardQuery、FuzzyQuery、PrefixQuery、TermRangeQuery、NumericRangeQuery等，他们都是需要按照一个或者多个term按照一定的逻辑找到多个term，然后再重写由找到的这些term形成的TermQuery进入一个新的Query（比如BooleanQuery、或者ConstantScoreQuery)，但是有个一指的注意的地方是：有些MultiTermQuery是不得分的，也就是在返回的时候不会按照得分排序，比如PrefixQuery，的不得分是由每个MultiTermQuery使用的rewriteMethod指定，也就是由重写规则指定。本文的目的不在于讨论重写规则，而是想实现一个可以得分的PrefixQuery（业务场景是我们要使用PrefixQuery做搜索框中提示词的排序，所以必须实现得分）。

实现原理很简单，在指定重写规则的时候将重写规则指定为得分的规则（当然这里涉及到重写规则的实现，这里本文不讨论），在org.apache.lucene.search.MultiTermQuery类中含有SCORING_BOOLEAN_QUERY_REWRITE这个重写规则从他的名字中就可以理解是封装为一个BooleanQuery，并且计算分数。他的逻辑很简单，将搜索到的多个termQuery封装成一个booleanQuery，每一个termQuery都是optional的，也就是对多个termQuery取并集。但是Booleanquery有个需要注意的地方，他不能有太多的clause，不然会报错，默认是1024个，所以我们需要修改这个值，做到这里就算是完成了。我的代码如下：

/**
 * 由于solr自带的PrefixQuery是不得分的，不能满足提示词的排序要求，所以重写这个query.
 */
public class ScoredPrefixQuery extends PrefixQuery {

	//从词典表中得到的term的限制，用于做测试的，实际中不用
	private int limit = -1; 
	
	static{
		BooleanQuery.setMaxClauseCount(Integer.MAX_VALUE);//设置BooleanQuery的最多的子query的个数为Integer.MAX_VALUE。
	}
	
	public ScoredPrefixQuery(Term prefix) {
		super(prefix);
		//重置重写规则，使用得分的booleanQuery，此处存在的问题是可能会发生BooleanQuery.TooManyClauses，所以要在得到term的时候需要做限制
		setRewriteMethod(org.apache.lucene.search.MultiTermQuery.SCORING_BOOLEAN_QUERY_REWRITE);
	}
	/**
         * 从词典表中得到前缀匹配的term的方法
         */
	@Override
	public TermsEnum getTermsEnum(Terms terms, AttributeSource atts) throws IOException {
		 TermsEnum tenum = terms.iterator(null);
		 if (getPrefix().bytes().length == 0) {
		      // no prefix -- match all terms for this field:
		     return tenum;
		 }
		 return new PrefixTermsEnum(tenum, getPrefix().bytes()) {
			 int already = 0;
			 final int termLimit =  limit==-1?BooleanQuery.getMaxClauseCount():limit;//设置limit只是用于做测试的。
			 
			 @Override
			public BytesRef next() throws IOException {
				
				BytesRef ref = super.next();//先调用父类方法，即从词典表中读取，
				if(ref == null){//如果真的读完了，就返回null。
					return null;
				}else{//没有读取完，则判断是否已经读取了太多的term
					//最多的BooleanClause的个数
					if(already++ < termLimit){//一个前缀最多从词典表中得到booleanquery的MaxClause个，这样就不会报错了。
						return ref;
					}
					return null;
				}
			}
		 };
	}
	
	public int getLimit() {
		return limit;
	}
	
	//做测试用的
	public void setLimit(int limit) {
		this.limit = limit;
	}
	
//这个测试的前提是我们在索引中仅仅保存了只有id域的100个document，id为从0-99，省略了建立索引的代码。
	public static void main(String[] args) throws IOException {
		
		IndexReader reader = DirectoryReader.open(getDirectory());
		
		IndexSearcher search = new IndexSearcher(reader);
		ScoredPrefixQuery q = new ScoredPrefixQuery(new Term("id","1"));//这一行和下面的PrefixQuery q 这一行是区分的，如果使用这一行则只会搜到3个，并且得分不是1.0f，也就是是得分的。
		q.setLimit(3);//设置最多为3个。
		
//		PrefixQuery q = new PrefixQuery(new Term("id", "1"));//如果使用lucene中默认使用的PrefixQuery则会搜到11个，并且得分都是1.0f，也就是没有得分。
		
		TopDocs td = search.search(q, 100);
		for(ScoreDoc sd:td.scoreDocs){
			System.out.println(sd.score);
		}
		System.out.println(td.scoreDocs.length);
		
	}	
}

这样就完成了得分的前缀匹配的query，如果要在solr中使用，还需要自己定义queryparser的插件，这个留在以后再写博客。

分享到：

solr分布式请求的判断——HttpShardHandler | solrCloud中的路由策略：DocRouter、Comp ...

2017-03-16 19:38
浏览 1526
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

实现得分的PrefixQuery

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

实现得分的PrefixQuery

评论

发表评论

相关推荐

FST源代码解读6——FST的读取

FST源代码解读5——FST的压缩

FST源代码解读4——结束添加

FST源代码解读3——编译节点

FST源代码解读2——FST的生成

FST源代码解读1——FST是什么

packedints总结

lucene中的PackedInts源码解读(3)-PACKED格式

lucene中的PackedInts源码解读(2)-Packed64SingleBlock

lucene中的PackedInts源码解读-1

SpanQuery的得分

lucene的spanNearQuery（二）——不带有顺序的

solr的facet源码解读（四）——facet.field之非数字单值域类型

solr的facet源码解读（三）——facet.field之数字单值域类型

solr的facet源码解读（二）——facet.field

lucene中关于正向信息的获取——FielldCache

solr对docValue的使用

lucene中的docValue实现源码解读（十二）——总结

lucene中的docValue实现源码解读（十一）——SortedSet的读取

lucene中的docValue实现源码解读（十）——SortedSet的写入

最近访客更多访客>>