论坛首页 入门技术论坛

Lucene相关度排序的调整

浏览 13208 次
精华帖 (0) :: 良好帖 (2) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2007-02-12  

如欲转载,请注明作者:caocao,来源http://caocao.iteye.com/

Lucene的搜索结果默认按相关度排序,这个相关度排序是基于内部的Score和DocID,Score又基于关键词的内部评分和做索引时的boost。默认Score高的排前面,如果Score一样,再按索引顺序,先索引的排前面。那么有人问了,如果我要先索引的排后面怎么办呢?隐士研究了源码后发现这是相当简单的事情。以下代码基于Lucene 2.0。

看Sort的默认构造函数,相关度就是SortField.FIELD_SCORE和SortField.FIELD_DOC的组合。

java 代码
  1. /**  
  2.  * Sorts by computed relevance. This is the same sort criteria as calling  
  3.  * {@link Searcher#search(Query) Searcher#search()}without a sort criteria,  
  4.  * only with slightly more overhead.  
  5.  */  
  6. public Sort() {   
  7.   this(new SortField[] { SortField.FIELD_SCORE, SortField.FIELD_DOC });   
  8. }  

那么该如何构造我们需要的SortField呢?请看SortField的一个构造函数,有一个参数reverse可供我们调整结果集的顺序。

java 代码
  1. /** Creates a sort, possibly in reverse, by terms in the given field with the  
  2.    * type of term values explicitly given.  
  3.    * @param field  Name of field to sort by.  Can be <code>null</code> if  
  4.    *               <code>type</code> is SCORE or DOC.  
  5.    * @param type   Type of values in the terms.  
  6.    * @param reverse True if natural order should be reversed.  
  7.    */  
  8.   public SortField (String field, int type, boolean reverse) {   
  9.     this.field = (field != null) ? field.intern() : field;   
  10.     this.type = type;   
  11.     this.reverse = reverse;   
  12.   }  

由此可见,只要构造一个SortField[]就可以实现我们要的功能,请看:

java 代码
  1. // 评分降序,评分一样时后索引的排前面   
  2. new SortField[] { SortField.FIELD_SCORE, new SortField(null, SortField.DOC, true) }   
  3.   
  4. // 评分升序,评分一样时后索引的排前面,呵呵,此为最不相关的排前面,挺有趣的   
  5. new SortField[] { new SortField(null, SortField.SCORE, true), new SortField(null, SortField.DOC, true) }  

呵呵,只要将此SortField[]作为参数传入Sort的构造函数得到Sort的一个instance,将此instance传入searcher.search(query, sort)即可得到了期望的结果。

具体实例可参考隐士做的搜索站http://so.mdbchina.com

   发表时间:2007-02-15  
单个排序时,直接用setSort更方便

  /**
   * Sets the sort to the terms in <code>field</code> possibly in reverse,
   * then by index order (document number).
   */
  public void setSort(String field, boolean reverse)
0 请登录后投票
   发表时间:2007-03-17  
lucene搜索如果不按docid或者score sort的话,那将会是非常慢的。代码不管你怎么优化、索引库不管你如何建都是徒劳的。

我曾经使用过lucene搭建搜索平台,当记录达到50万以上,索引库达到2G以上时,lucene的搜索、优化索引等效率就非常底了(P3 500Mhz CPU、1G Ram),并且不可接受。
0 请登录后投票
论坛首页 入门技术版

跳转论坛:
Global site tag (gtag.js) - Google Analytics