Lucene 3.5 提供深度分页支持 searchAfter方法方法的应用

sunney2010

浏览: 59652 次
性别:
来自: 深圳

最近访客更多访客>>

tianshiguishu

cyrano_why

宇智波唐嫣

xtnp

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

lucene

Lucene3.5 深度分页支持 searchAfter lucene apache

      最近Lucene项目管理委员会宣布Apache Lucene 3.5.0和Apache Solr 3.5.0已经可以使用。Lucene是一个高性能、支持全文搜索的文本搜索开发库。Solr是一个独立的搜索服务器，其核心使用了Lucene来做索引和搜索。
      Lucene 3.5其中一个最新的特征就是深度分页支持，在之前的版本是提供分页的方法，只能根据自己的应用场景去写分页的方法！在《lucene in action》一书中提现两种分页的方法：1、将首次搜索获得的多页搜索结果收集起来并保存在ScoreDocs和IndexSearcher实例中，并在用户换页浏览时展现这几页的结果。
     2、每次用户换页浏览时都重新进行查询操作。
按这两个方法是可以做出分页的，只是效果及性能影响大小而已！
     现在Lucene 3.5 加入IndexSearcher.searchAfter方法，它在特定的ScoreDoc之后会返回结果。你可以将上一页的最后一个document传递给searchAfter方法，以得到下一页的结果。

实例如下：

@Override
public List<BlogsDO> searchBlogsList(String content,String bTypeId,String sDate,String eDate,Page page) throws IOException, ParseException {
		List<BlogsDO> blogList=new ArrayList<BlogsDO>() ;
		// TODO Auto-generated method stub
		 TokenStream tokenStream=null;
		 try{
			analyzer = new IKAnalyzer();
			//获取IndexSearcher 对象
		        IndexSearcher indexSearch =commonIndexWriter.getIndexSearcher();
		        QueryParser queryParser= commonIndexWriter.getQueryParser();
		        //搜索条件的结合
		        String str="";
		        if(StringUtils.isNotEmpty(content)){
		        	str="title:"+content+" content:"+content;
		        }
		        if(StringUtils.isNotEmpty(bTypeId) && !bTypeId.equals("-1")){
		           if(StringUtils.isNotEmpty(str)){
		        	 str=str+" AND bTypeId:"+bTypeId;
		           }else{
		        	 str=str+" bTypeId:"+bTypeId;
		           }
		        }
		        if(StringUtils.isNotEmpty(sDate)){
		        	 if(StringUtils.isNotEmpty(str)){
		        		 str=str+" AND gmt_create:["+sDate+" TO "+eDate+"]";
		        	 }else{
		        		 str=str+" gmt_create:["+sDate+" TO "+eDate+"]";
		        	 }
		        }
		        //设置搜索条件
		        Query query=queryParser.parse(str);
		        //查询搜索引擎
		        TopDocs result = indexSearch.search(query, 10);

		        //上一页的最后一个document索引
		        int index=(page.getCurrentPage()-1)*page.getPerPageSize();
		        ScoreDoc scoreDoc=null;
		        //如果当前页是第一页面scoreDoc=null。
		        if(index>0){
		        	//因为索引是从0开始所以要index-1
		        	scoreDoc=result.scoreDocs[index-1];
		        }
		        //分页处理
		        TopDocs hits= indexSearch.searchAfter(scoreDoc, query, page.getPerPageSize());

		        //设置分页的总记录数
		        page.setCounts(hits.totalHits);
		        BlogsDO blog=null;
		        //循环hits.scoreDocs数据，并使用indexSearch.doc方法把Document还原，再拿出对应的字段的值
		        for (int i = 0; i < hits.scoreDocs.length; i++) {
		            ScoreDoc sdoc = hits.scoreDocs[i];
		            Document doc = indexSearch.doc(sdoc.doc);
		            blog=new BlogsDO();
		            String title=doc.get("title");
		            String mark=doc.get("content");
		            //加亮处理
		            SimpleHTMLFormatter simplehtml=new SimpleHTMLFormatter("<font color='red'>", "</font>");
		            Highlighter highlighter = new Highlighter(simplehtml,new QueryScorer(query));  
		            if(title!=null){
			            	tokenStream = analyzer.tokenStream("title",new StringReader(title));    
							String highLightText = highlighter.getBestFragment(tokenStream, title);
							blog.setTitle(highLightText==null?title:highLightText);
		            }else{
		            	blog.setTitle(title);
		            }
		            //加亮处理
		            if(mark!=null){
		            	tokenStream = analyzer.tokenStream("content",new StringReader(mark));    
						String highLightText = highlighter.getBestFragment(tokenStream, mark);
						blog.setContent(highLightText==null?mark:highLightText);
		            }else{
		            	blog.setContent(mark);
		            }
		            blog.setBlogsId(Integer.valueOf(doc.get("blogsId")));
		            blog.setNickName(doc.get("nickName"));
		            blog.setbTypeId(doc.get("bTypeId"));
		            blog.setbTypeName(doc.get("bTypeName"));
		            blog.setRevDate(doc.get("gmt_create"));
		            SimpleDateFormat sdf =  new  SimpleDateFormat("yyyyMMddHHmmss"); 
		            blog.setGmtCreate(sdf.parse(doc.get("gmt_create")));
		            blogList.add(blog);
		        }    
		        indexSearch.close();
		 }catch (java.text.ParseException e) {
				// TODO Auto-generated catch block
				e.printStackTrace();
		 }catch (InvalidTokenOffsetsException e) {
				// TODO Auto-generated catch block
				e.printStackTrace();
		 } 
	     return blogList;
	}

Lucene 3.5 在学习中，请多多指教！呵呵！

分享到：

日志组件logback的介绍及配置使用方法(一 ... | Linux上安装ImageMagick和JMagick

2012-02-09 15:32
浏览 7796
评论(8)
分类:互联网
查看更多

8 楼 2047699523 2015-04-28

apache lucene开源框架demo使用实例教程源代码下载:http://www.zuidaima.com/share/klucene-p1-s1.htm

7 楼 cl1154781231 2013-05-13

HI，第一种的性能是不是会高很多？
而且这两种分页都是需要查询出大量数据，有可能导致内存溢出，请问，有没有防止内存溢出的办法？？？

6 楼 cl1154781231 2013-05-13

请问TopDocs result = indexSearch.search(query, 100000);
如何防止内存溢出吗？？

5 楼 caili314 2013-02-10

searchAfter可以很好地支持下一页, 可是上一页呢?

4 楼 markhai_85 2012-04-28

TopDocs result = indexSearch.search(query, 10);

这里的 10，经过翻页时，是不是一直在增加啊？

否则的话

if(index>0){
                    //因为索引是从0开始所以要index-1
                    scoreDoc=result.scoreDocs[index-1];
                }

肯定会报错的

3 楼 markhai_85 2012-04-28

TopDocs result = indexSearch.search(query, 10);

2 楼 sunlightcs 2012-03-01

引用

TopDocs result = indexSearch.search(query, 10);

这跟最原始的分页方式没有啥子区别，也就是

“2、每次用户换页浏览时都重新进行查询操作。”

1 楼 baojyy1 2012-02-28

不支持排序的啊

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论