`
qindongliang1922
  • 浏览: 2172449 次
  • 性别: Icon_minigender_1
  • 来自: 北京
博客专栏
7265517b-f87e-3137-b62c-5c6e30e26109
证道Lucene4
浏览量:117131
097be4a0-491e-39c0-89ff-3456fadf8262
证道Hadoop
浏览量:125454
41c37529-f6d8-32e4-8563-3b42b2712a50
证道shell编程
浏览量:59562
43832365-bc15-3f5d-b3cd-c9161722a70c
ELK修真
浏览量:71041
社区版块
存档分类
最新评论

Lucene4.3开发之第五步之融丹筑基(五)

阅读更多


  本文章允许转载,转载请注明原创地址
http://qindongliang1922.iteye.com/blog/1924608


排序是对于全文检索来言是一个必不可少的功能,在实际运用中,排序功能能在某些时候给我们带来很大的方便,比如在淘宝,京东等一些电商网站我们可能通过排序来快速找到价格最便宜的商品,或者通过排序来找到评论数最高或卖的最好的商品,再比如在Iteye里的博客栏里,每天都会以降序的方式,来显示出最新发出的几篇博客,有了排序,我们就能在某些时候很方便快速的得到某些有效信息,所以说排序功能,无处不在 ^_^。


那么,本篇散仙就来看下我们在Lucene中怎么使用其丰富的排序功能。

在这之前,我们先来熟悉下lucene中排序的基本知识,在默认情况下,Lucene使用的是以关联性降序的方式为默认的排序方式,这样可以使得我们搜索的结果通常是最优的,因为它会尽可能的使得首先出现的几个结果是与我们搜索的内容最相关,而不需要我们翻页寻找我们最想要的内容,这一点是与数据库相比,是全文检索一个很大的优点。当然,在实际开发中我们也需要根据业务的实际情况来给我们的客户提供多种不同的排序方式。我们先来看下在Lucene中比较特殊的两种基本的排序方式


Sort里的属性SortField里的属性含义
Sort.INDEXORDERSortField.FIELD_DOC按照索引的顺序进行排序
Sort.RELEVANCESortField.FIELD_SCORE按照关联性评分进行排序


我们再来看几个检索时需要用的方法
 =========SortField类============
//field是排序字段type是排序类型
public SortField(String field, Type type);
//field是排序字段type是排序类型reverse是指定升序还是降序
//reverse 为true是降序  false为升序
  public SortField(String field, Type type, boolean reverse)

  =========Sort类============
  public Sort();//Sort对象构造方法默认是按文档评分排序
  public Sort(SortField field);//排序的一个SortField
  public Sort(SortField... fields)//排序的多个SortField可以传入一个数组
 
  =========IndexSearche类r========
//query是查询的Query对象 filter是过滤  n返回的数量  sort是排序
search(Query query, Filter filter, int n, Sort sort) 
//doDocScores 为true情况下每个命中的结果下都会被评分
//doMaxScore  为true情况下对最大分值的搜索结果进行评分
search(Query query, Filter filter, int n, Sort sort, boolean doDocScores, boolean doMaxScore) 
 


1,在还没有进行一点排序前我们先来看下索引里的内容,核心代码如下:
        TopDocs topDocs=searcher.search(new MatchAllDocsQuery(),10000);     


2,使用默认的关联性评分后,核心代码和运行效果图如下:
   Sort sort=new Sort();//默认使用关联性评分
		     TopDocs topDocs=searcher.search(new MatchAllDocsQuery(),10000,sort);




关于上图中乱码字符原因是因为默认排序情况下lucene是不会对搜索结果进行评分操作的,因为评分操作会降低性能,所以关于score的那一列返回的是NAN的字符串,出于格式的需要,散仙在用DecimalFormat类给其评分结果保留2位小数时,因为是一个特殊字符,所以就出现了上图情况。

3,按照日期降序排序,,核心代码和运行效果图如下:
 Sort sort=new Sort(new SortField("date", Type.INT,true));//true为降序排列
		     TopDocs topDocs=searcher.search(new MatchAllDocsQuery(),10000,sort);



3,按照价格升序排序,,核心代码和运行效果图如下:
 Sort sort=new Sort(new SortField("price", Type.DOUBLE,false));//false为降序排列
		     TopDocs topDocs=searcher.search(new MatchAllDocsQuery(),10000,sort);



4,多字段排序,按照日期降序的情况下,因为id为7和8的日期相同,所以我们就新增一个排序字段按ename升序排列,,核心代码和运行效果图如下:
 // Sort sort=new Sort(new SortField("date", Type.INT, true),new SortField("ename", Type.STRING, false));
		    //这两段代码效果一样
		    Sort sort=new Sort(new SortField[]{new SortField("date", Type.INT, true),new SortField("ename", Type.STRING, false)});
		     TopDocs topDocs=searcher.search(new MatchAllDocsQuery(),10000,sort);



5,带评分的排序,注意后面两个布尔类型的变量可以控制是否评分,特别是在没有要求需要打分时,建议别开启,大数量时对性能影响较大,检索“编程”得到的结果,默认按评分降序排序,核心代码和运行效果图如下:
    Sort sort=Sort.RELEVANCE;
		    TopDocs topDocs=searcher.search(new TermQuery(new Term("bookname", "编程")),null,100,sort,true,true);



上面的编程,编程因为在切分时编程的tf出现了2次,所以在查询时有较高的得分,所以排在首位。

6,注意几点
(1)排序对一个文档里什么域都没存储,使用字符串排序会排在首位
(2)排序对一个文档里什么域都没存储,使用数字类型排序会默认给其赋值为0进行排序
(3)我们可以对数字类型的null值的文档进行代码控制,可以将其设置为最大,所以将会排在最后面,代码如下

 SortField sortField = new SortField("value", SortField.Type.INT);
    sortField.setMissingValue(Integer.MAX_VALUE);

最后声明一点,允许转载,转载请注明原创地址
http://qindongliang1922.iteye.com/blog/1924608,谢谢合作。

  • 大小: 42.5 KB
  • 大小: 48.5 KB
  • 大小: 41.8 KB
  • 大小: 42.7 KB
  • 大小: 44.8 KB
  • 大小: 22 KB
5
1
分享到:
评论

相关推荐

    基于lucene 的简单搜索引擎.rar

    分词器将字段内容划分为一系列的关键词,这是建立索引的第一步。Lucene提供了多种分词器,如标准分词器(StandardTokenizer),适用于大多数语言。 **1.4 索引(Index)** 索引是Lucene的核心,它将文档的内容转换...

    微信公众平台应用开发:方法、技巧与案例.(机械工业.柳峰)

    刘运强,网名“柳峰”,资深微信公众平台应用开发工程师,国内微信公众平台应用开发的先驱之一,项目经验丰富。他还是一位资深的Java软件开发工程师和Android/iOS移动应用开发工程师,活跃于CocoaChina、开源中国、...

    开源软件之道(中文高清版)

    第5章 正确使用开源软件 5.1 管理体制 5.2 法律风险 5.2.1 法律因素之著作权 5.2.2 法律因素之许可证 5.2.3 法律因素之专利 5.2.4 问题解析 5.2.5 验证著作权,正本清源 5.2.6 调查专利,借力打力 5.2.7 解读许可证...

    开源软件之道.part2of2

    第5章 正确使用开源软件 32 5.1 管理体制 32 5.2 法律风险 33 5.2.1 法律因素之著作权 34 5.2.2 法律因素之许可证 35 5.2.3 法律因素之专利 36 5.2.4 问题解析 37 5.2.5 验证著作权,正本清源 38 5.2.6 调查专利,...

    solr开发指南.pdf

    ### Solr开发指南知识点概述 #### 一、Solr简介 **1.1.1 官网介绍** Solr是一款由Apache基金会维护的开源搜索引擎服务器,其核心是基于Lucene的Java实现。Solr提供了丰富的功能,如层级搜索、命中高亮显示、支持...

    JAVA WEB典型模块与项目实战大全

    第5章 验证模块(jsp+servlet+jsvaildation)  5.1 表单基础  5.2 客户端表单验证框架  5.3 服务器端验证  5.4 实现图形验证码  5.5 避免重复提交功能  5.6 缩略加水印图像  5.7 小结  第6章 网络...

    solr基本总结

    - **基本定义**:Solr 是一个高性能的全文搜索服务器,它基于 Java 5 并依赖于 Lucene 这一核心库。 - **技术特点**:Solr 支持通过 HTTP 协议将文档添加到搜索集合中,并允许通过 XML 或 JSON 格式进行查询和获取...

    search engine

    获取数据是构建搜索引擎的第一步。数据来源多样,包括网页、数据库和本地文件等。 - **3.1 自己的网络蜘蛛**:通过自定义爬虫抓取网页数据。 - **3.2 抓取数据库中的内容**:利用JDBC等技术抓取数据库中的信息。 - ...

    高清彩版 自己动手写搜索引擎

    #### 第5章:自然语言处理 - **5.1 中文分词处理**:深入探讨中文分词的各种技术和方法。 - **5.2 语法解析树**:介绍语法解析树的概念及其在自然语言处理中的应用。 - **5.3 文档排重**:避免重复文档被多次索引,...

    开源企业搜索引擎SOLR的应用教程

    - **1.2.1 Solr使用Lucene并且进行了扩展**:Solr基于Lucene开发,继承了Lucene的所有优点,并在此基础上添加了更多的高级特性,例如高可用性和分布式处理能力。 - **1.2.2 Schema(模式)**:Solr通过Schema来定义...

    solr教材-PDF版

    1. **基于Lucene自封装实现站内搜索**:这种方式需要较大的开发投入,并且在后续维护和扩展上也会比较复杂,因此在本教材中并未推荐此方法。 2. **调用第三方搜索引擎API**(如Google或Baidu API):虽然这种方式...

    Solrj 中文教程

    - **基于Lucene自封装实现站内搜索**:这种方式可以提供高度的定制化能力,但开发工作量大且后期维护成本较高。 - **调用Google或Baidu等第三方搜索引擎API**:虽然这种方式能够快速实现站内搜索功能,但存在数据...

    OpenCMS内容管理入门指南(300页中文).pdf

    #### 第5章 OpenCMS标签 ##### 5.1 标签介绍 - **作用**: - 提供动态内容生成的功能。 - 方便地插入CMS特有的元素。 ##### 5.2 - **功能**: - 显示当前登录用户的个人信息。 ##### 5.3 - **用途**: - 获取...

Global site tag (gtag.js) - Google Analytics