`
qindongliang1922
  • 浏览: 2183692 次
  • 性别: Icon_minigender_1
  • 来自: 北京
博客专栏
7265517b-f87e-3137-b62c-5c6e30e26109
证道Lucene4
浏览量:117522
097be4a0-491e-39c0-89ff-3456fadf8262
证道Hadoop
浏览量:125921
41c37529-f6d8-32e4-8563-3b42b2712a50
证道shell编程
浏览量:59896
43832365-bc15-3f5d-b3cd-c9161722a70c
ELK修真
浏览量:71300
社区版块
存档分类
最新评论

Lucene4.3开发之插曲之斗转星移

阅读更多


允许转载,转载请注明原创地址:
http://qindongliang1922.iteye.com/blog/1931191
谢谢配合


散仙在上篇文章中,总结了几个Lucene的特殊的分词需求,以及怎么定制我们自己的Tokenizer和Analyzer用来处理他们,那么本篇我们依旧是分析用户需求(哈哈,也不算是用户需求,群里面(324714439)朋友们提问的问题),然后找到最合适的解决方法。

我们先来看下下面的问题,现在我们的索引里有2亿多的数据,那么现在的需求是,把索引里的全部数据,读取然后写入txt文本里,对于这么一个量级的数据,显然是不可能一下子全部读取完的,那得要多大的内存才能够支持下来,是一个很恐怖的内存量,所以就引入散仙今天要给大家介绍的一个功能,Lucene的分页技术。


在介绍分页之前,我们先来看看上面的那个需求,不用分页的解决办法,
其实在lucene里面,每一个索引都会对应一个不重复的docid,而这一点跟Oralce数据库的伪列rownum一样,恰恰正是由于这个docid的存在,所以让lucene在海量数据检索时从而拥有更好的性能,我们都知道Oracle数据库在分页时,使用的就是伪列进行分页,那么我的lucene也是一样,既然有一个docid的存在,那么上面的需求就很简单了。


方法一:依次根据每个docid获取文档然后写入txt中,这样的以来,就避免了内存不足的缺点,但是这样单条读取的话,速度上可能会慢一点,但能满足需求无可厚非。伪代码如下

	try{
		directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹
		IndexReader  reader=DirectoryReader.open(directory);//读取目录
		IndexSearcher search=new IndexSearcher(reader);//初始化查询组件
		for(int i=0;i<reader.numDocs();i++){//numDocs可能很大
		 Document doc=search.doc(i);//依次获取每个docid对应的Document
		//可以在此部,做个批量操作,加快写入速度
		}  
		
		 reader.close();//关闭资源
		 directory.close();//关闭连接
		
		}catch(Exception e){
			e.printStackTrace();
		}


Lucene的分页,总的来说有两种形式,散仙总结如下图表格。(如果存在不合适之处,欢迎指正!)

编号方式优点缺点
1在ScoresDocs里进行分页无需再次查询索引,速度很快在海量数据时,会内存溢出
2利用SearchAfter,再次查询分页适合大批量数据的分页再次查询,速度相对慢一点,但可以利用缓存弥补


从上图我们可以分析出,ScoreDocs适合在数据量不是很大的场景下进行分页,而SearchAfter则都适合,所以,我们要根据自己的业务需求,合理的选出适合自己的分页方式。

在我们了解这2中分页技术的优缺点之后,我们再来探讨下上面那个读2亿数据存入txt文本里,在这里,SocreDocs不适合这种场景,当然如果你内存足够大的话,可以尝试下,通用分页分批读取的方式,可以提升我们的写入效率,效果是比单条单条读取的速度是要快很多的。虽然ScoresDocs的分页方式在本需求上不适合,但是作为示例,下面散仙给出使用ScoreDocs进行分页的代码:
	try{
		directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹
		IndexReader  reader=DirectoryReader.open(directory);//读取目录
		IndexSearcher search=new IndexSearcher(reader);//初始化查询组件
		
 
	     TopDocs all=search.search(new MatchAllDocsQuery(), 50000);
	     int offset=0;//起始位置
	     int pageSize=30;//分页的条数
	     int total=30;//结束条数
	     int z=0;
	     while(z<=50){//总分页数
	     System.out.println("==============================");
	     pageScoreDocs(offset,total,search, all.scoreDocs);//调用分页打印
	     offset=(z*pageSize+pageSize);//下一页的位置增量
	     z++;//分页数+1;
	  	   total=offset+pageSize;//下一次的结束分页量
	     }
		 reader.close();//关闭资源
		 directory.close();//关闭连接
		
		}catch(Exception e){
			e.printStackTrace();
		}


public void pageScoreDocs(int offset,int total,IndexSearcher searcher,ScoreDoc[] doc) throws Exception{
		//System.out.println("offset:"+offset+"===>"+total);
		for(int i=offset;i<total;i++){
			//System.out.println("i"+i+"==>"+doc.length);
		    if(i>doc.length-1){//当分页的长度数大于总数就停止
		    	
		    	break;
		    }else{
		
		       Document dosc=searcher.doc(doc[i].doc);
			   System.out.println(dosc.get("name"));
		   
		    }
		}


最后我们来看下使用SearcherAfter进行分页的方式,代码如下:

	try{
		directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹
		IndexReader  reader=DirectoryReader.open(directory);//读取目录
		IndexSearcher search=new IndexSearcher(reader);//初始化查询组件
	    
		 int pageStart=0;
		 ScoreDoc lastBottom=null;//相当于pageSize
		 while(pageStart<10){//这个只有是paged.scoreDocs.length的倍数加一才有可能翻页操作
			 TopDocs paged=null;
			 paged=search.searchAfter(lastBottom, new MatchAllDocsQuery(),null,30);//查询首次的30条
			 if(paged.scoreDocs.length==0){
				 break;//如果下一页的命中数为0的情况下,循环自动结束
			 }
			 page(search,paged);//分页操作,此步是传到方法里对数据做处理的
			 
			 pageStart+=paged.scoreDocs.length;//下一次分页总在上一次分页的基础上
			 lastBottom=paged.scoreDocs[paged.scoreDocs.length-1];//上一次的总量-1,成为下一次的lastBottom
		 }
		 reader.close();//关闭资源
		 directory.close();//关闭连接
		
		}catch(Exception e){
			e.printStackTrace();
		}
		


至此,我们已经了解了lucene中的分页技术,至于,我们在项目中该如何使用,都要根据我们的实际情况处理,因为分页技术常常会跟其他的,排序,过滤,评分等一些技术结合使用。


允许转载,转载请注明原创地址:
http://qindongliang1922.iteye.com/blog/1931191
谢谢配合



5
4
分享到:
评论

相关推荐

    lucene4.3 按坐标距离排序

    在"lucene4.3 按坐标距离排序"这个主题中,我们将探讨如何在Lucene 4.3版本中利用地理位置信息进行文档排序,特别是在处理地理空间搜索时的应用。 首先,Lucene 4.3引入了对地理空间搜索的支持,这允许我们根据地理...

    lucene4.3源码

    Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。Lucene是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会...

    lucene4.3工具类

    lucene4.3增删改查的的一个工具类,对新手来说是一份不可多得的入门资料。

    lucene 4.3所用到的包

    全文检索lucene 4.3 所用到的3个jar包,包含lucene-queryparser-4.3.0.jar、 lucene-core-4.3.0.jar、lucene-analyzers-common-4.3.0.jar。

    Lucene4.3src 源代码

    lucene4.3源代码 censed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with * this work for additional information ...

    lucene-4.3.1资源

    Lucene是一个开源的全文搜索引擎库,由Apache软件基金会开发并维护。在Java编程环境中,它为开发者提供了强大的文本检索功能,使得在海量数据中快速查找相关信息变得简单易行。本篇文章将详细探讨Lucene 4.3.1版本的...

    基于lucene4.3的知识图谱搜索引擎XunTa(一种用"知识点"来找人的搜人引擎).zip

    1.XunTa是在lucene4.3上创建的通过“知识点”来找人的搜人引擎。  输入一个关键词(或组合),XunTa返回一个排名列表,排在前面的人是与该关键词(组合)最相关的“达人”。  可访问 http://www.xunta.so立即体验...

    lucene的IKAnalyzer以及兼容4.3

    本文将深入探讨IKAnalyzer的特性和其在Lucene 4.3中的兼容性问题及其解决方案。 **IKAnalyzer简介** IKAnalyzer( Intelligent Keyword Analyzer)是一款基于Java实现的中文分词工具,它主要针对中文的特性进行了...

    基于lucene的开发JavaEE项目

    《基于Lucene的JavaEE项目开发详解》 在信息技术领域,搜索引擎已经成为不可或缺的一部分,而Lucene作为开源全文搜索引擎库,以其高效、灵活的特点被广泛应用于各种JavaEE项目中。本项目将深入探讨如何利用Lucene...

    Lucene3.4开发入门.pdf

    Lucene3.4开发入门.pdf

    Lucene.net开发最全文档

    **Lucene.net 开发完全指南** Lucene.net 是一个开源的全文搜索引擎库,它是 Apache Lucene 的 .NET 版本,适用于 .NET 平台。Lucene.net 提供了高效、可扩展的搜索功能,广泛应用于网站内容检索、文档搜索、数据库...

    lucene2.9开发指南

    《Lucene2.9开发指南》是一份专为初级开发者准备的资料,旨在详细介绍如何使用开源全文搜索工具包Lucene2.9.1。Lucene作为一个强大的文本搜索库,其核心功能包括建立索引和执行搜索。以下是关于Lucene2.9开发的一些...

    基于lucene.net开发的个人知识库

    Lucene.Net的设计理念是将复杂的搜索引擎技术封装在简单易用的API之下,使得开发者可以专注于应用逻辑,而无需深入理解搜索引擎的底层原理。 在这个个人知识库项目中,开发者可能已经实现了以下关键功能: 1. **...

    Lucene搜索引擎开发权威经典(附盘源码)【于天恩】.zip

    《Lucene搜索引擎开发权威经典》是由于天恩编著的一本深入探讨Lucene搜索引擎开发的专业书籍,这本书结合源码分析,旨在帮助读者掌握Lucene的核心技术和应用实践。Lucene是Apache软件基金会的一个开放源代码项目,它...

    Lucene开发手册

    【Lucene开发手册】 Lucene是一个开源的全文检索库,由Apache软件基金会开发,主要用Java编写。作为一套API,Lucene提供了构建高效、可扩展的搜索引擎所需的核心工具。它并非一个完整的搜索引擎产品,而是一个搜索...

    Lucene开发详解.pdf

    ### Lucene开发详解 #### 一、Lucene简介 Lucene是一个高性能、全功能的文本搜索引擎库,由Doug Cutting创建并捐赠给Apache Software Foundation。它主要用于构建全文搜索应用程序,能够帮助开发者快速地在其应用...

    lucene开发流程

    Lucene 是一个高性能、全文本搜索库,广泛应用于开发全文检索系统。要理解Lucene的开发流程,我们首先需要了解其基本概念和步骤。以下是对Lucene开发流程的详细说明: 1. **数据获取**: 开发流程的第一步是从各种...

    lucene 的开发包6.6

    《Apache Lucene 6.6 开发详解》 Apache Lucene 是一个开源全文搜索引擎库,由Java编写,设计为高性能、可扩展的信息检索应用程序。它提供了丰富的搜索功能,包括索引、查询、排序等,被广泛应用于各种信息管理和...

    Lucene开发指南

    《Lucene开发指南》是一份综合性的学习资料,旨在帮助开发者深入理解和熟练运用Apache Lucene这一强大的全文搜索引擎库。Lucene是Java语言实现的开源项目,广泛应用于信息检索、数据分析和大数据处理等领域。本指南...

    lucene4.7 开发简单实例

    查询是Lucene的核心功能之一。我们可以使用QueryParser创建复杂的查询表达式,比如布尔查询、短语查询、范围查询等。查询结果会根据评分排序,评分反映了文档与查询的相关性。如果需要自定义排序规则,可以实现...

Global site tag (gtag.js) - Google Analytics