利用bobo-browse 实现lucene的分组统计功能
package org.shirdrn.lucene;
import java.io.IOException;
import java.util.Date;
import java.util.List;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Fieldable;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.Term;
import org.apache.lucene.index.TermDocs;
import org.apache.lucene.search.Filter;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.search.TermsFilter;
public class MySearcher {
public static void main(String[] args) {
String indexPath = "E:\\Lucene\\myindex";
try {
IndexSearcher searcher = new IndexSearcher(indexPath);
String keyword = "的";
Term term = new Term("contents",keyword);
IndexReader indexReader = IndexReader.open(indexPath);
int numberOfDocumentIncludingGivenTerm = indexReader.docFreq(term);
System.out.println("IndexReader的版本为 : "+indexReader.getVersion());
System.out.println("包含词条 ("+term.field()+","+term.text()+") 的Document的数量为 : "+numberOfDocumentIncludingGivenTerm);
Query query = new TermQuery(term);
Date startTime = new Date();
Hits hits = searcher.search(query);
int No = 1;
for(int i=0;i<hits.length();i++){
System.out.println("【 序号 】: " + No++);
TermDocs termDocs = searcher.getIndexReader().termDocs(term);
if(termDocs.doc() == hits.id(i)){
System.out.println("Document的内部编号为 : "+hits.id(i));
Document doc = hits.doc(i);
List fieldList = doc.getFields();
System.out.println("Document(编号) "+hits.id(i)+" 的Field的信息: ");
System.out.println(" ------------------------------------");
for(int j=0;j<fieldList.size();j++){
Fieldable field = (Fieldable)fieldList.get(j);
System.out.println(" Field的名称为 : "+field.name());
System.out.println(" Field的内容为 : "+field.stringValue());
System.out.println(" ------------------------------------");
System.out.println("Document的内容为 : "+doc);
System.out.println("Document的得分为 : "+hits.score(i));
System.out.println("搜索的该关键字【"+keyword+"】在Document(编号) "+hits.id(i)+" 中,出现过 "+termDocs.freq()+" 次");
Date finishTime = new Date();
long timeOfSearch = finishTime.getTime() - startTime.getTime();
System.out.println("本次搜索所用的时间为 "+timeOfSearch+" ms");
} catch (CorruptIndexException e) {
} catch (IOException e) {
首先要保证索引目录E:\\Lucene\\myindex下面已经存在索引文件,可以通过文章 Lucene-2.2.0 源代码阅读学习(4) 中一个使用Lucene的Demo中的递归建立索引的方法,将建立的索引文件存放到E:\\Lucene\\myindex目录之下。
IndexReader的版本为 : 1207548172961
包含词条 (contents,的) 的Document的数量为 : 23
【 序号 】: 1
Document的内部编号为 : 24
Document(编号) 24 的Field的信息:
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\FAQ.txt
Field的名称为 : modified
Field的内容为 : 200604130754
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\FAQ.txt> stored/uncompressed,indexed<modified:200604130754>>
Document的得分为 : 0.5279752
搜索的该关键字【的】在Document(编号) 24 中,出现过 291 次
【 序号 】: 2
Document的内部编号为 : 5
Document(编号) 5 的Field的信息:
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\3实验题目.txt
Field的名称为 : modified
Field的内容为 : 200710300744
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\3实验题目.txt> stored/uncompressed,indexed<modified:200710300744>>
Document的得分为 : 0.5252467
搜索的该关键字【的】在Document(编号) 5 中,出现过 2 次
【 序号 】: 3
Document的内部编号为 : 12
Document(编号) 12 的Field的信息:
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\CustomKeyInfo.txt
Field的名称为 : modified
Field的内容为 : 200406041814
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\CustomKeyInfo.txt> stored/uncompressed,indexed<modified:200406041814>>
Document的得分为 : 0.51790017
搜索的该关键字【的】在Document(编号) 12 中,出现过 70 次
【 序号 】: 4
Document的内部编号为 : 41
Document(编号) 41 的Field的信息:
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\Update.txt
Field的名称为 : modified
Field的内容为 : 200707050028
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\Update.txt> stored/uncompressed,indexed<modified:200707050028>>
Document的得分为 : 0.5059122
搜索的该关键字【的】在Document(编号) 41 中,出现过 171 次
【 序号 】: 5
Document的内部编号为 : 0
Document(编号) 0 的Field的信息:
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\120E升级包安装说明.txt
Field的名称为 : modified
Field的内容为 : 200803271123
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\120E升级包安装说明.txt> stored/uncompressed,indexed<modified:200803271123>>
Document的得分为 : 0.43770555
搜索的该关键字【的】在Document(编号) 0 中,出现过 2 次
【 序号 】: 6
Document的内部编号为 : 3
Document(编号) 3 的Field的信息:
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\1实验题目.txt
Field的名称为 : modified
Field的内容为 : 200710160733
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\1实验题目.txt> stored/uncompressed,indexed<modified:200710160733>>
Document的得分为 : 0.4333064
搜索的该关键字【的】在Document(编号) 3 中,出现过 1 次
【 序号 】: 7
Document的内部编号为 : 60
Document(编号) 60 的Field的信息:
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\猫吉又有个忙,需要大家帮忙一下.txt
Field的名称为 : modified
Field的内容为 : 200706161112
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\猫吉又有个忙,需要大家帮忙一下.txt> stored/uncompressed,indexed<modified:200706161112>>
Document的得分为 : 0.4106042
搜索的该关键字【的】在Document(编号) 60 中,出现过 11 次
【 序号 】: 8
Document的内部编号为 : 59
Document(编号) 59 的Field的信息:
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\汉化说明.txt
Field的名称为 : modified
Field的内容为 : 200708210247
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\汉化说明.txt> stored/uncompressed,indexed<modified:200708210247>>
Document的得分为 : 0.39057708
搜索的该关键字【的】在Document(编号) 59 中,出现过 13 次
【 序号 】: 9
Document的内部编号为 : 44
Document(编号) 44 的Field的信息:
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\Visual Studio 2005注册升级.txt
Field的名称为 : modified
Field的内容为 : 200801300512
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\Visual Studio 2005注册升级.txt> stored/uncompressed,indexed<modified:200801300512>>
Document的得分为 : 0.37525433
搜索的该关键字【的】在Document(编号) 44 中,出现过 3 次
【 序号 】: 10
Document的内部编号为 : 56
Document(编号) 56 的Field的信息:
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\新1建 文本文档.txt
Field的名称为 : modified
Field的内容为 : 200710311142
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\新1建 文本文档.txt> stored/uncompressed,indexed<modified:200710311142>>
Document的得分为 : 0.36621076
搜索的该关键字【的】在Document(编号) 56 中,出现过 35 次
【 序号 】: 11
Document的内部编号为 : 46
Document(编号) 46 的Field的信息:
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\使用技巧集萃.txt
Field的名称为 : modified
Field的内容为 : 200511210413
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\使用技巧集萃.txt> stored/uncompressed,indexed<modified:200511210413>>
Document的得分为 : 0.35693806
搜索的该关键字【的】在Document(编号) 46 中,出现过 133 次
【 序号 】: 12
Document的内部编号为 : 30
Document(编号) 30 的Field的信息:
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\MyEclipse 注册码.txt
Field的名称为 : modified
Field的内容为 : 200712061059
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\MyEclipse 注册码.txt> stored/uncompressed,indexed<modified:200712061059>>
Document的得分为 : 0.3460366
搜索的该关键字【的】在Document(编号) 30 中,出现过 5 次
【 序号 】: 13
Document的内部编号为 : 63
Document(编号) 63 的Field的信息:
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\疑问即时记录.txt
Field的名称为 : modified
Field的内容为 : 200711141408
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\疑问即时记录.txt> stored/uncompressed,indexed<modified:200711141408>>
Document的得分为 : 0.30325133
搜索的该关键字【的】在Document(编号) 63 中,出现过 6 次
【 序号 】: 14
Document的内部编号为 : 37
Document(编号) 37 的Field的信息:
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\readme.txt
Field的名称为 : modified
Field的内容为 : 200803101314
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\readme.txt> stored/uncompressed,indexed<modified:200803101314>>
Document的得分为 : 0.26262334
搜索的该关键字【的】在Document(编号) 37 中,出现过 8 次
【 序号 】: 15
Document的内部编号为 : 48
Document(编号) 48 的Field的信息:
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\剑心补丁使用说明(readme).txt
Field的名称为 : modified
Field的内容为 : 200803101357
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\剑心补丁使用说明(readme).txt> stored/uncompressed,indexed<modified:200803101357>>
Document的得分为 : 0.26262334
搜索的该关键字【的】在Document(编号) 48 中,出现过 8 次
【 序号 】: 16
Document的内部编号为 : 47
Document(编号) 47 的Field的信息:
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\关系记录.txt
Field的名称为 : modified
Field的内容为 : 200802201145
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\关系记录.txt> stored/uncompressed,indexed<modified:200802201145>>
Document的得分为 : 0.23161201
搜索的该关键字【的】在Document(编号) 47 中,出现过 14 次
【 序号 】: 17
Document的内部编号为 : 40
Document(编号) 40 的Field的信息:
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\Struts之AddressBooks学习笔记.txt
Field的名称为 : modified
Field的内容为 : 200710131711
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\Struts之AddressBooks学习笔记.txt> stored/uncompressed,indexed<modified:200710131711>>
Document的得分为 : 0.21885277
搜索的该关键字【的】在Document(编号) 40 中,出现过 8 次
【 序号 】: 18
Document的内部编号为 : 51
Document(编号) 51 的Field的信息:
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\密码强度检验.txt
Field的名称为 : modified
Field的内容为 : 200712010901
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\密码强度检验.txt> stored/uncompressed,indexed<modified:200712010901>>
Document的得分为 : 0.12380183
搜索的该关键字【的】在Document(编号) 51 中,出现过 1 次
【 序号 】: 19
Document的内部编号为 : 50
Document(编号) 50 的Field的信息:
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\史上最强天籁之声及欧美流行曲超级精选【 FLAC分轨】.txt
Field的名称为 : modified
Field的内容为 : 200712231241
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\史上最强天籁之声及欧美流行曲超级精选【 FLAC分轨】.txt> stored/uncompressed,indexed<modified:200712231241>>
Document的得分为 : 0.1083266
搜索的该关键字【的】在Document(编号) 50 中,出现过 1 次
【 序号 】: 20
Document的内部编号为 : 57
Document(编号) 57 的Field的信息:
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\新建 文本文档.txt
Field的名称为 : modified
Field的内容为 : 200710270258
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\新建 文本文档.txt> stored/uncompressed,indexed<modified:200710270258>>
Document的得分为 : 0.09285137
搜索的该关键字【的】在Document(编号) 57 中,出现过 4 次
【 序号 】: 21
Document的内部编号为 : 45
Document(编号) 45 的Field的信息:
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\书籍网站.txt
Field的名称为 : modified
Field的内容为 : 200708071255
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\书籍网站.txt> stored/uncompressed,indexed<modified:200708071255>>
Document的得分为 : 0.0670097
搜索的该关键字【的】在Document(编号) 45 中,出现过 3 次
【 序号 】: 22
Document的内部编号为 : 61
Document(编号) 61 的Field的信息:
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\网络查询大全.txt
Field的名称为 : modified
Field的内容为 : 200111200655
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\网络查询大全.txt> stored/uncompressed,indexed<modified:200111200655>>
Document的得分为 : 0.065655835
搜索的该关键字【的】在Document(编号) 61 中,出现过 2 次
【 序号 】: 23
Document的内部编号为 : 14
Document(编号) 14 的Field的信息:
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\CustomKeysSample.txt
Field的名称为 : modified
Field的内容为 : 200610100451
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\CustomKeysSample.txt> stored/uncompressed,indexed<modified:200610100451>>
Document的得分为 : 0.051179506
搜索的该关键字【的】在Document(编号) 14 中,出现过 7 次
本次搜索所用的时间为 187 ms
public static IndexReader open(String path) throws CorruptIndexException, IOException { // 通过String的索引目录的路径
return open(FSDirectory.getDirectory(path), true, null);
public static IndexReader open(File path) throws CorruptIndexException, IOException { // 通过File构造的索引目录文件
return open(FSDirectory.getDirectory(path), true, null);
public static IndexReader open(final Directory directory) throws CorruptIndexException, IOException { // 直接通过Directory来打开
return open(directory, false, null);
public static IndexReader open(final Directory directory, IndexDeletionPolicy deletionPolicy) throws CorruptIndexException, IOException { // 直接通过Directory来打开,并指定一种索引文件删除策略,可以对索引文件进行维护(删除操作)
return open(directory, false, deletionPolicy);
private static IndexReader open(final Directory directory, final boolean closeDirectory, final IndexDeletionPolicy deletionPolicy) throws CorruptIndexException, IOException {
return (IndexReader) new SegmentInfos.FindSegmentsFile(directory) {
protected Object doBody(String segmentFileName) throws CorruptIndexException, IOException {
SegmentInfos infos = new SegmentInfos();
infos.read(directory, segmentFileName);
IndexReader reader;
if (infos.size() == 1) { // index is optimized
reader = SegmentReader.get(infos, infos.info(0), closeDirectory);
} else {
// To reduce the chance of hitting FileNotFound
// (and having to retry), we open segments in
// reverse because IndexWriter merges & deletes
// the newest segments first.
IndexReader[] readers = new IndexReader[infos.size()];
for (int i = infos.size()-1; i >= 0; i--) {
try {
readers[i] = SegmentReader.get(infos.info(i));
} catch (IOException e) {
// Close all readers we had opened:
for(i++;i<infos.size();i++) {
throw e;
reader = new MultiReader(directory, infos, closeDirectory, readers);
reader.deletionPolicy = deletionPolicy;
return reader;
TermDocs termDocs = searcher.getIndexReader().termDocs(term);
// 构造一个Field,这个Field可以从一个文件流中读取,必须保证由f所构造的文件流是打开的
doc.add(new Field("contents", new FileReader(f)));
public Field(String name, Reader reader) {
(name, reader, TermVector.NO);
public Field
(String name, Reader reader, TermVector termVector) {
if (name == null)
throw new NullPointerException("name cannot be null");
if (reader == null)
throw new NullPointerException("reader cannot be null");
this.name = name.intern(); // field names are interned
this.fieldsData = reader;
this.isStored = false; // 指定不进行存储
this.isCompressed = false;
this.isIndexed = true; // 要进行索引
this.isTokenized = true; // 要进行分词
this.isBinary = false;
《Lucene-2.3.1 源代码阅读学习》 Lucene是Apache软件基金会的一个开放源码项目,它是一个高性能、全文本搜索库,为开发者提供了在Java应用程序中实现全文检索功能的基础架构。本篇文章将深入探讨Lucene 2.3.1版本...
总而言之,Lucene 2.3.1作为一款经典的搜索引擎框架,它的源代码不仅提供了学习信息检索理论的机会,也是实践和掌握Java编程、数据结构和算法的宝贵资源。通过对压缩包中的文件进行分析,开发者可以深入了解Lucene的...
通过深入学习和理解这些源代码文件,开发者可以更好地掌握 Lucene.Net 的核心功能,如索引构建、查询解析、搜索排序、分词和性能优化。这有助于在实际项目中实现高效、精确的全文搜索引擎。同时,研究源码也能提升对...
4.其中src文件夹内为全部源代码,WebRoot为web应用部署文件 5.本系统的最小有效组件集合为:(约定:以下“*.*”均表示目录下的所有单独文件,不包括文件夹,而“/s”则表示所有的文件夹及其内部内容) src\*.* /s ...
### Lucene+Solor知识点概述 #### 一、搜索引擎基础理论 **1.1 Google神话** - **起源与发展:** - Google成立于1998年,由Larry Page和Sergey Brin创立。 - 初期以PageRank算法为核心,有效解决了当时互联网...
- **开源协议**:使用Apache License 2.0协议,源代码完全开源,没有商业限制。 - **技术栈成熟**:使用当前最主流的J2EE开发框架和技术,易于学习和维护。 - **数据库支持广泛**:支持多种数据库,如MySQL、Oracle...
- **1.4.1 目录结构说明**:Solr项目的目录结构清晰,主要包括src/main/java下的源代码、src/main/resources下的资源文件等。 - **1.4.2 Solrhome说明**:Solrhome是Solr实例的工作目录,包含了索引数据、配置文件等...
- **1.4.1 目录结构说明**:Solr的核心源码主要由几个关键部分组成,如`src/main/java`包含Java源代码,`src/main/resources`存放配置文件等。 - **1.4.2 Solrhome说明**:Solrhome是Solr运行时使用的根目录,包含了...
CAS (Central Authentication Service) 是一种开放源代码的单点登录协议和服务实现,主要用于Web应用的安全身份验证。CAS支持跨域的身份验证管理,允许用户通过一个中心服务进行一次登录即可访问多个应用系统。 **...
2.3.1. 保存 ACL 数据确保持久性 2.3.2. 使用声明(Assert)来编写条件性的 ACL 规则 3. Zend_Auth 3.1. 简介 3.1.1. 适配器 3.1.2. 结果 3.1.3. 身份的持久(Persistence) 在PHP Session 中的缺省...