`
sunney2010
  • 浏览: 59162 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

Lucene 3.5 提供深度分页支持 searchAfter方法 方法的应用

阅读更多

      最近Lucene项目管理委员会宣布Apache Lucene 3.5.0和Apache Solr 3.5.0已经可以使用。Lucene是一个高性能、支持全文搜索的文本搜索开发库。Solr是一个独立的搜索服务器,其核心使用了Lucene来做索引和搜索。
      Lucene 3.5其中一个最新的特征就是深度分页支持,在之前的版本是提供分页的方法,只能根据自己的应用场景去写分页的方法!在《lucene in action》一书中提现两种分页的方法:1、将首次搜索获得的多页搜索结果收集起来并保存在ScoreDocs和IndexSearcher实例中,并在用户换页浏览时展现这几页的结果。
     2、每次用户换页浏览时都重新进行查询操作。
按这两个方法是可以做出分页的,只是效果及性能影响大小而已!
     现在Lucene 3.5 加入IndexSearcher.searchAfter方法,它在特定的ScoreDoc之后会返回结果。你可以将上一页的最后一个document传递给searchAfter方法,以得到下一页的结果。

实例如下:

@Override
public List<BlogsDO> searchBlogsList(String content,String bTypeId,String sDate,String eDate,Page page) throws IOException, ParseException {
		List<BlogsDO> blogList=new ArrayList<BlogsDO>() ;
		// TODO Auto-generated method stub
		 TokenStream tokenStream=null;
		 try{
			analyzer = new IKAnalyzer();
			//获取IndexSearcher 对象
		        IndexSearcher indexSearch =commonIndexWriter.getIndexSearcher();
		        QueryParser queryParser= commonIndexWriter.getQueryParser();
		        //搜索条件的结合
		        String str="";
		        if(StringUtils.isNotEmpty(content)){
		        	str="title:"+content+" content:"+content;
		        }
		        if(StringUtils.isNotEmpty(bTypeId) && !bTypeId.equals("-1")){
		           if(StringUtils.isNotEmpty(str)){
		        	 str=str+" AND bTypeId:"+bTypeId;
		           }else{
		        	 str=str+" bTypeId:"+bTypeId;
		           }
		        }
		        if(StringUtils.isNotEmpty(sDate)){
		        	 if(StringUtils.isNotEmpty(str)){
		        		 str=str+" AND gmt_create:["+sDate+" TO "+eDate+"]";
		        	 }else{
		        		 str=str+" gmt_create:["+sDate+" TO "+eDate+"]";
		        	 }
		        }
		        //设置搜索条件
		        Query query=queryParser.parse(str);
		        //查询搜索引擎
		        TopDocs result = indexSearch.search(query, 10);

		        //上一页的最后一个document索引
		        int index=(page.getCurrentPage()-1)*page.getPerPageSize();
		        ScoreDoc scoreDoc=null;
		        //如果当前页是第一页面scoreDoc=null。
		        if(index>0){
		        	//因为索引是从0开始所以要index-1
		        	scoreDoc=result.scoreDocs[index-1];
		        }
		        //分页处理
		        TopDocs hits= indexSearch.searchAfter(scoreDoc, query, page.getPerPageSize());

		        //设置分页的总记录数
		        page.setCounts(hits.totalHits);
		        BlogsDO blog=null;
		        //循环hits.scoreDocs数据,并使用indexSearch.doc方法把Document还原,再拿出对应的字段的值
		        for (int i = 0; i < hits.scoreDocs.length; i++) {
		            ScoreDoc sdoc = hits.scoreDocs[i];
		            Document doc = indexSearch.doc(sdoc.doc);
		            blog=new BlogsDO();
		            String title=doc.get("title");
		            String mark=doc.get("content");
		            //加亮处理
		            SimpleHTMLFormatter simplehtml=new SimpleHTMLFormatter("<font color='red'>", "</font>");
		            Highlighter highlighter = new Highlighter(simplehtml,new QueryScorer(query));  
		            if(title!=null){
			            	tokenStream = analyzer.tokenStream("title",new StringReader(title));    
							String highLightText = highlighter.getBestFragment(tokenStream, title);
							blog.setTitle(highLightText==null?title:highLightText);
		            }else{
		            	blog.setTitle(title);
		            }
		            //加亮处理
		            if(mark!=null){
		            	tokenStream = analyzer.tokenStream("content",new StringReader(mark));    
						String highLightText = highlighter.getBestFragment(tokenStream, mark);
						blog.setContent(highLightText==null?mark:highLightText);
		            }else{
		            	blog.setContent(mark);
		            }
		            blog.setBlogsId(Integer.valueOf(doc.get("blogsId")));
		            blog.setNickName(doc.get("nickName"));
		            blog.setbTypeId(doc.get("bTypeId"));
		            blog.setbTypeName(doc.get("bTypeName"));
		            blog.setRevDate(doc.get("gmt_create"));
		            SimpleDateFormat sdf =  new  SimpleDateFormat("yyyyMMddHHmmss"); 
		            blog.setGmtCreate(sdf.parse(doc.get("gmt_create")));
		            blogList.add(blog);
		        }    
		        indexSearch.close();
		 }catch (java.text.ParseException e) {
				// TODO Auto-generated catch block
				e.printStackTrace();
		 }catch (InvalidTokenOffsetsException e) {
				// TODO Auto-generated catch block
				e.printStackTrace();
		 } 
	     return blogList;
	}
 




Lucene 3.5 在学习中,请多多指教!呵呵!

 

分享到:
评论
8 楼 2047699523 2015-04-28  
apache lucene开源框架demo使用实例教程源代码下载:http://www.zuidaima.com/share/klucene-p1-s1.htm
7 楼 cl1154781231 2013-05-13  
HI,第一种的性能是不是会高很多?
而且这两种分页都是需要查询出大量数据,有可能导致内存溢出,请问,有没有防止内存溢出的办法???
6 楼 cl1154781231 2013-05-13  
请问TopDocs result = indexSearch.search(query, 100000);
如何防止内存溢出吗??
5 楼 caili314 2013-02-10  
searchAfter可以很好地支持下一页, 可是上一页呢?
4 楼 markhai_85 2012-04-28  
TopDocs result = indexSearch.search(query, 10);


这里的 10,经过翻页时,是不是一直在增加啊?

否则的话

if(index>0){ 
                    //因为索引是从0开始所以要index-1 
                    scoreDoc=result.scoreDocs[index-1]; 
                }

肯定会报错的
3 楼 markhai_85 2012-04-28  
TopDocs result = indexSearch.search(query, 10);
2 楼 sunlightcs 2012-03-01  
引用
TopDocs result = indexSearch.search(query, 10);


这跟最原始的分页方式没有啥子区别,也就是

“2、每次用户换页浏览时都重新进行查询操作。”
1 楼 baojyy1 2012-02-28  
不支持排序的啊

相关推荐

    Lucene3.5源码jar包

    它为Java开发者提供了强大的文本检索功能,被广泛应用于各种搜索引擎和信息检索系统中。本压缩包包含的是Lucene 3.5.0版本的全部源码,对于想要深入理解Lucene工作原理、进行二次开发或者进行搜索引擎相关研究的...

    lucene3.5的各种包

    在3.5版本中,Lucene 提供了多种功能,使得开发者能够轻松地在应用程序中集成搜索功能。这个压缩包包含了Lucene 3.5版本的一些关键组件,如中文分词器、核心包和高亮包等,这些对于构建高效、精确的文本搜索系统至关...

    lucene 3.5 官网 源代码

    Lucene 3.5提供了多种优化策略,如近实时搜索(NRT)、段合并(Merge Policy)以及缓存机制。同时,用户可以根据需求扩展Lucene,创建自定义分析器、查询解析器或者搜索策略。 四、实际应用 Lucene 3.5广泛应用于...

    luke3.5 查看lucene3.5索引

    luke3.5 可查看lucene3.5索引

    lucene3.5 IKAnalyzer3.2.5 实例中文分词通过

    lucene3.5 IKAnalyzer3.2.5 实例中文分词通过,目前在网上找的lucene 和IKAnalyzer 的最新版本测试通过。内含:示例代码,以及最新jar包。 lucene lucene3.5 IKAnalyzer IKAnalyzer3.2.5 jar 中文 分词

    lucene3.5的创建和增删改查

    在3.5版本中,Lucene 提供了强大的文本分析和索引功能,以及对文档的高效检索。本文将详细介绍如何在Lucene 3.5中进行索引的创建、文档的添加、删除、修改和查询操作。 一、创建索引 1. 初始化环境:首先,我们...

    lucene3.5全文检索案例lucene+demo

    在“lucene3.5全文检索案例”中,我们可以看到一个完整的Lucene应用流程: 1. 首先,初始化索引目录,创建Analyzer对象,用于文本分词。 2. 创建IndexWriter对象,设置相应的参数,如写入模式、缓冲区大小等。 3....

    Lucene3.5实例

    《Lucene3.5实例详解:构建全文搜索引擎》 Apache Lucene是一个开源的全文检索库,为Java开发者提供了强大的文本搜索功能。在本实例中,我们将深入探讨如何使用Lucene 3.5版本来构建一个基本的全文搜索引擎,主要...

    Lucene3.5的学习研究报告

    其次,IndexSearcher引入了searchAfter方法,这是一个重要的功能增强,允许在指定的ScoreDoc之后返回搜索结果,这在实现深度分页或者导航搜索时非常有用,能够提供更好的用户体验。 SearcherManager的加入是为了...

    Lucene 3.5 api HTML版

    Lucene 3.5 API 是一个强大的工具集,提供了全面的文本检索功能,让开发者可以轻松地在应用程序中实现高效的全文搜索。无论是简单还是复杂的搜索需求,都能通过理解和运用这个 API 来实现。通过阅读提供的 HTML 版 ...

    lucene3.5高亮jar

    lucene3.5高亮

    Lucene3.5帮助文档

    chm格式的Lucene帮助文档,Lucene3.5

    lucene3.5中文分词案例

    总结,Lucene 3.5在处理中文分词上提供了强大的支持,结合IK Analyzer或其他分词库,开发者可以轻松构建出高效、准确的中文信息检索系统。通过理解分词原理,配置合适的Analyzer,以及不断优化和调整,我们可以...

    lucene 3.5学习笔记

    本文将深入探讨Lucene 3.5版本的相关知识点,帮助读者理解和掌握其核心功能和使用方法。 一、Lucene概述 Lucene是Java开发的全文检索引擎,由Doug Cutting创建,现为Apache软件基金会的顶级项目。它提供了索引和...

    lucene3.5的API

    - **近实时搜索**:Lucene 3.5 支持 Near Real Time (NRT) 搜索,即使在持续索引时,也能快速反映最新的索引变化。 - **多字段搜索**:允许同时在多个字段上进行搜索,提高查询效率。 - **命中高亮**:...

    lucene3.5源码

    Lucene 3.5是Apache Lucene项目的一个重要版本,它是一个高性能、全文本搜索库,为开发者提供了强大的文本搜索功能。作为开源软件,Lucene的源码对学习和理解搜索引擎技术具有极高的价值。下面我们将详细探讨Lucene ...

    关于lucene3.5的使用

    在“关于lucene3.5的使用”这个主题中,我们将深入探讨Lucene 3.5的关键特性、核心组件以及如何通过实例进行应用。首先,我们需要了解以下几个核心概念: 1. **索引(Index)**:Lucene 的工作基于索引,就像书籍的...

    Lucene 3.5&API,最新版

    Lucene 是一个由 Apache 软件基金会开发的全文搜索引擎库,它提供了强大的文本分析和索引功能,广泛应用于各种信息检索系统。在本文中,我们将深入探讨 Lucene 3.5 API,这是一个相对早期但仍然具有重要参考价值的...

    lucene3.5学习笔记

    `IndexSearcher` 是执行搜索操作的主要类,它提供了一个 `search` 方法用于执行查询并返回结果。 **1.2.2 IndexReader** `IndexReader` 用于读取索引文件,是 `IndexSearcher` 的基础。它可以打开一个索引,并提供...

    Lucene3.5视频教程(内含分享链接)

    Lucene3.5视频教程(内含分享链接) 一共50集, 包含各部分讲解及源码

Global site tag (gtag.js) - Google Analytics