我们先来看下下面的问题,现在我们的索引里有2亿多的数据,那么现在的需求是,把索引里的全部数据,读取然后写入txt文本里,对于这么一个量级的数据,显然是不可能一下子全部读取完的,那得要多大的内存才能够支持下来,是一个很恐怖的内存量,所以就引入散仙今天要给大家介绍的一个功能,Lucene的分页技术。
在介绍分页之前,我们先来看看上面的那个需求,不用分页的解决办法,
其实在lucene里面,每一个索引都会对应一个不重复的docid,而这一点跟Oralce数据库的伪列rownum一样,恰恰正是由于这个docid的存在,所以让lucene在海量数据检索时从而拥有更好的性能,我们都知道Oracle数据库在分页时,使用的就是伪列进行分页,那么我的lucene也是一样,既然有一个docid的存在,那么上面的需求就很简单了。
方法一:依次根据每个docid获取文档然后写入txt中,这样的以来,就避免了内存不足的缺点,但是这样单条读取的话,速度上可能会慢一点,但能满足需求无可厚非。伪代码如下
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
|
try {
directory=FSDirectory.open( new File(indexReadPath)); //打开索引文件夹
IndexReader reader=DirectoryReader.open(directory); //读取目录
IndexSearcher search= new IndexSearcher(reader); //初始化查询组件
for ( int i= 0 ;i<reader.numDocs();i++){ //numDocs可能很大
Document doc=search.doc(i); //依次获取每个docid对应的Document
//可以在此部,做个批量操作,加快写入速度
}
reader.close(); //关闭资源
directory.close(); //关闭连接
} catch (Exception e){
e.printStackTrace();
}
|
Lucene的分页,总的来说有两种形式,总结如下图表格。(如果存在不合适之处,欢迎指正!)
编号 | 方式 | 优点 | 缺点 |
1 | 在ScoresDocs里进行分页 | 无需再次查询索引,速度很快 | 在海量数据时,会内存溢出 |
2 | 利用SearchAfter,再次查询分页 | 适合大批量数据的分页 | 再次查询,速度相对慢一点,但可以利用缓存弥补 |
从上图我们可以分析出,ScoreDocs适合在数据量不是很大的场景下进行分页,而SearchAfter则都适合,所以,我们要根据自己的业务需求,合理的选出适合自己的分页方式。
在我们了解这2中分页技术的优缺点之后,我们再来探讨下上面那个读2亿数据存入txt文本里,在这里,SocreDocs不适合这种场景,当然如果你内存足够大的话,可以尝试下,通用分页分批读取的方式,可以提升我们的写入效率,效果是比单条单条读取的速度是要快很多的。虽然ScoresDocs的分页方式在本需求上不适合,但是作为示例,下面散仙给出使用ScoreDocs进行分页的代码:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
|
try {
directory=FSDirectory.open( new File(indexReadPath)); //打开索引文件夹
IndexReader reader=DirectoryReader.open(directory); //读取目录
IndexSearcher search= new IndexSearcher(reader); //初始化查询组件
TopDocs all=search.search( new MatchAllDocsQuery(), 50000 );
int offset= 0 ; //起始位置
int pageSize= 30 ; //分页的条数
int total= 30 ; //结束条数
int z= 0 ;
while (z<= 50 ){ //总分页数
System.out.println( "==============================" );
pageScoreDocs(offset,total,search, all.scoreDocs); //调用分页打印
offset=(z*pageSize+pageSize); //下一页的位置增量
z++; //分页数+1;
total=offset+pageSize; //下一次的结束分页量
}
reader.close(); //关闭资源
directory.close(); //关闭连接
} catch (Exception e){
e.printStackTrace();
}
|
1
2
3
4
5
6
7
8
9
10
11
12
13
14
|
public void pageScoreDocs( int offset, int total,IndexSearcher searcher,ScoreDoc[] doc) throws Exception{
//System.out.println("offset:"+offset+"===>"+total);
for ( int i=offset;i<total;i++){
//System.out.println("i"+i+"==>"+doc.length);
if (i>doc.length- 1 ){ //当分页的长度数大于总数就停止
break ;
} else {
Document dosc=searcher.doc(doc[i].doc);
System.out.println(dosc.get( "name" ));
}
}
|
最后我们来看下使用SearcherAfter进行分页的方式,代码如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
|
try {
directory=FSDirectory.open( new File(indexReadPath)); //打开索引文件夹
IndexReader reader=DirectoryReader.open(directory); //读取目录
IndexSearcher search= new IndexSearcher(reader); //初始化查询组件
int pageStart= 0 ;
ScoreDoc lastBottom= null ; //相当于pageSize
while (pageStart< 10 ){ //这个只有是paged.scoreDocs.length的倍数加一才有可能翻页操作
TopDocs paged= null ;
paged=search.searchAfter(lastBottom, new MatchAllDocsQuery(), null , 30 ); //查询首次的30条
if (paged.scoreDocs.length== 0 ){
break ; //如果下一页的命中数为0的情况下,循环自动结束
}
page(search,paged); //分页操作,此步是传到方法里对数据做处理的
pageStart+=paged.scoreDocs.length; //下一次分页总在上一次分页的基础上
lastBottom=paged.scoreDocs[paged.scoreDocs.length- 1 ]; //上一次的总量-1,成为下一次的lastBottom
}
reader.close(); //关闭资源
directory.close(); //关闭连接
} catch (Exception e){
e.printStackTrace();
}
|
至此,我们已经了解了lucene中的分页技术,至于,我们在项目中该如何使用,都要根据我们的实际情况处理,因为分页技术常常会跟其他的,排序,过滤,评分等一些技术结合使用。
http://my.oschina.net/MrMichael/blog/220782
相关推荐
【Lucene4.7+IK Analyzer中文分词入门教程】 Lucene是一个开源的全文检索库,它提供了文本分析、索引和搜索的核心工具。在这个入门教程中,我们将使用Lucene 4.7版本,结合IK Analyzer,一个专门针对中文分词的开源...
《Lucene4.7在Web应用中的实践:结合SpringMVC与MyBatis3》 在信息化时代,搜索引擎已经成为我们日常获取信息的重要工具。Apache Lucene作为一款强大的全文搜索引擎库,为开发者提供了丰富的功能,帮助构建高效、可...
《Lucene 4.7:官方完整包详解》 Lucene是一个开源的全文搜索引擎库,由Apache软件基金会开发并维护。作为Java平台上的一个高性能、可扩展的信息检索库,Lucene为开发者提供了强大的文本搜索功能。本文将深入探讨...
在4.7这个版本中,Lucene引入了许多优化和新特性,旨在提高搜索效率和用户体验。本测试案例将深入探讨Lucene 4.7的使用方法和关键功能。 首先,让我们了解Lucene的核心概念。Lucene的主要任务是索引文本数据,以便...
在本实例中,我们将深入探讨Lucene 4.7版本,涵盖索引的创建、修改、删除,以及查询时的排序、分页、优化和高亮显示等功能。此外,我们还将了解如何使用不同的分词器,以适应不同场景的需求。 首先,让我们从基础...
标题中的“使用Lucene4.7实现搜索功能,分页+高亮”表明我们要讨论的是如何利用Apache Lucene 4.7版本来构建一个具备搜索、分页和高亮显示功能的系统。Lucene是一个高性能、全文本搜索引擎库,它提供了强大的文本...
在这个“ssh集成Lucene4.7demo”项目中,开发者将SSH框架与Lucene 4.7版本的全文搜索引擎进行了整合,同时还引入了IKAnalyzer作为中文分词器,以支持对中文文本的处理。这个示例项目不仅包含了基本的整合工作,还...
Apache Lucene 4.7是该库的一个版本,它提供了丰富的功能和改进,使得开发者能够轻松地在他们的应用中实现复杂的搜索功能。 首先,Lucene的核心功能包括分词、索引和搜索。分词是将输入的文本拆分成可搜索的单词或...
Lucene 4.7 是一个高性能、全文本检索库,由Apache软件基金会开发并维护。这个版本的Lucene提供了一套强大的工具,用于在大量文本数据中进行高效的搜索和索引。Lucene的核心功能包括文档的索引、查询解析、评分、...
lucene4.7相关jar包 以及IKAnalyzer分词jar包
在这个"Lucene 4.7 常用jar集合"中,包含了Lucene 4.7版本的一些核心组件,旨在提供一个精简的、适用于常见用途的库。 首先,我们来看一下这个集合中的关键组件: 1. **lucene-core-4.7.0.jar**:这是 Lucene 的...
这个"lucene 4.7 jar"文件是Lucene 4.7.0版本的归档包,包含了所有必要的类库,使得开发者可以直接在自己的项目中使用,而无需从头构建或理解复杂的搜索引擎实现细节。它在自然语言处理和搜索引擎领域有着广泛的应用...
【Lucene 4.7.0 全套JAR包详解】 Lucene是一个开源全文搜索引擎库,由Apache软件基金会开发并维护。它提供了一个高级、灵活的文本搜索API,允许开发者轻松地在应用程序中实现复杂的搜索功能。这次提供的“lucene-...
SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part3 SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part2 SSH + Lucene + 分页 + 排序 + 高亮 ...
SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part3 SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part2 SSH + Lucene + 分页 + 排序 + 高亮 ...
SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part3 SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part2 SSH + Lucene + 分页 + 排序 + 高亮 ...
SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part3 SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part2 SSH + Lucene + 分页 + 排序 + 高亮 ...
SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part3 SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part2 SSH + Lucene + 分页 + 排序 + 高亮 ...
SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part3 SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part2 SSH + Lucene + 分页 + 排序 + 高亮 ...
ReadMe里面有与运行介绍。 TextFileIndexer.java 用来建立索引,支持选择不同的分析器analyzer。 Demo.java用来运行搜索引擎。 由于版权问题,拿来建立索引的Json文件这里就不提供了,可以自行编写几条来建立索引。