- 浏览: 930903 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (445)
- 备忘 (0)
- java基础 (28)
- jsp (15)
- css (4)
- javascript (30)
- struts (7)
- servlet (2)
- struts2 (7)
- jdbc (16)
- hibernate (22)
- ibatis (0)
- jpa (1)
- spring (17)
- spring定时任务 (8)
- 整合开发 (12)
- JavaArticle (0)
- php (6)
- velocity (2)
- mysql (19)
- sqlserver (52)
- oracle (23)
- lucene (49)
- ajax (13)
- dwr (5)
- JFreeChart (1)
- service (14)
- tools (18)
- c#基础 (20)
- 程序安全 (0)
- 学习网站 (1)
- 社会需求 (2)
- flash (1)
- 流媒体 (1)
- java_code (1)
- htmlparser (1)
- 速动画教程 (5)
- 设计模式 (1)
- xml操作 (2)
- uml操作 (4)
- 测试 (1)
- linux (8)
- 版本控制 (4)
- 服务器 (12)
- 安全 (6)
- 美工 (2)
最新评论
-
Zhang_amao:
我想问一下, 你用的lucene版本和highligher的版 ...
使用Lucene的Highlighter实现文件摘要的自动提取 -
wangmengfanwangzhi:
博主,你的QQ是什么啊?有关于lucene的问题想要请教啊~~ ...
Lucene下载及测试 -
cutesunshineriver:
讲得很好,理解起来很顺,对个人学习的帮助性很大,谢谢博主。
velocity入门一 -
libin2722:
我这里有一个任务调度,在晚上3点时候会自动将数据库中某表的数据 ...
Lucene-2.2.0 源代码阅读学习(16) -
greatwqs:
java -cp $JVM_ARGS $classpath ...
java的cp命令
关于Lucene的检索(IndexSearcher)的内容。
通过一个例子,然后从例子所涉及到的内容出发,一点点地仔细研究每个类的实现和用法。
先写一个简单的使用Lucene实现的能够检索的类,如下所示:
package org.shirdrn.lucene;
import java.io.IOException;
import java.util.Date;
import java.util.List;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Fieldable;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.Term;
import org.apache.lucene.index.TermDocs;
import org.apache.lucene.search.Filter;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.search.TermsFilter;
public class MySearcher {
public static void main(String[] args) {
String indexPath = "E:\\Lucene\\myindex";
try {
IndexSearcher searcher = new IndexSearcher(indexPath);
String keyword = "的";
Term term = new Term("contents",keyword);
IndexReader indexReader = IndexReader.open(indexPath);
int numberOfDocumentIncludingGivenTerm = indexReader.docFreq(term);
System.out.println("IndexReader的版本为 : "+indexReader.getVersion());
System.out.println("包含词条 ("+term.field()+","+term.text()+") 的Document的数量为 : "+numberOfDocumentIncludingGivenTerm);
Query query = new TermQuery(term);
Date startTime = new Date();
Hits hits = searcher.search(query);
System.out.println("********************************************************************");
int No = 1;
for(int i=0;i<hits.length();i++){
System.out.println("【 序号 】: " + No++);
TermDocs termDocs = searcher.getIndexReader().termDocs(term);
while(termDocs.next()){
if(termDocs.doc() == hits.id(i)){
System.out.println("Document的内部编号为 : "+hits.id(i));
Document doc = hits.doc(i);
List fieldList = doc.getFields();
//System.out.println("==========="+fieldList.size());
System.out.println("Document(编号) "+hits.id(i)+" 的Field的信息: ");
System.out.println(" ------------------------------------");
for(int j=0;j<fieldList.size();j++){
Fieldable field = (Fieldable)fieldList.get(j);
System.out.println(" Field的名称为 : "+field.name());
System.out.println(" Field的内容为 : "+field.stringValue());
System.out.println(" ------------------------------------");
}
System.out.println("Document的内容为 : "+doc);
System.out.println("Document的得分为 : "+hits.score(i));
System.out.println("搜索的该关键字【"+keyword+"】在Document(编号) "+hits.id(i)+" 中,出现过 "+termDocs.freq()+" 次");
}
}
System.out.println("********************************************************************");
}
Date finishTime = new Date();
long timeOfSearch = finishTime.getTime() - startTime.getTime();
System.out.println("本次搜索所用的时间为 "+timeOfSearch+" ms");
} catch (CorruptIndexException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
}
}
首先要保证索引目录E:\\Lucene\\myindex下面已经存在索引文件,可以通过文章 Lucene-2.2.0 源代码阅读学习(4) 中一个使用Lucene的Demo中的递归建立索引的方法,将建立的索引文件存放到E:\\Lucene\\myindex目录之下。
执行上面的主函数,输出结果如下所示:
IndexReader的版本为 : 1207548172961
包含词条 (contents,的) 的Document的数量为 : 23
********************************************************************
【 序号 】: 1
Document的内部编号为 : 24
Document(编号) 24 的Field的信息:
------------------------------------
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\FAQ.txt
------------------------------------
Field的名称为 : modified
Field的内容为 : 200604130754
------------------------------------
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\FAQ.txt> stored/uncompressed,indexed<modified:200604130754>>
Document的得分为 : 0.5279752
搜索的该关键字【的】在Document(编号) 24 中,出现过 291 次
********************************************************************
【 序号 】: 2
Document的内部编号为 : 5
Document(编号) 5 的Field的信息:
------------------------------------
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\3实验题目.txt
------------------------------------
Field的名称为 : modified
Field的内容为 : 200710300744
------------------------------------
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\3实验题目.txt> stored/uncompressed,indexed<modified:200710300744>>
Document的得分为 : 0.5252467
搜索的该关键字【的】在Document(编号) 5 中,出现过 2 次
********************************************************************
【 序号 】: 3
Document的内部编号为 : 12
Document(编号) 12 的Field的信息:
------------------------------------
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\CustomKeyInfo.txt
------------------------------------
Field的名称为 : modified
Field的内容为 : 200406041814
------------------------------------
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\CustomKeyInfo.txt> stored/uncompressed,indexed<modified:200406041814>>
Document的得分为 : 0.51790017
搜索的该关键字【的】在Document(编号) 12 中,出现过 70 次
********************************************************************
【 序号 】: 4
Document的内部编号为 : 41
Document(编号) 41 的Field的信息:
------------------------------------
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\Update.txt
------------------------------------
Field的名称为 : modified
Field的内容为 : 200707050028
------------------------------------
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\Update.txt> stored/uncompressed,indexed<modified:200707050028>>
Document的得分为 : 0.5059122
搜索的该关键字【的】在Document(编号) 41 中,出现过 171 次
********************************************************************
【 序号 】: 5
Document的内部编号为 : 0
Document(编号) 0 的Field的信息:
------------------------------------
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\120E升级包安装说明.txt
------------------------------------
Field的名称为 : modified
Field的内容为 : 200803271123
------------------------------------
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\120E升级包安装说明.txt> stored/uncompressed,indexed<modified:200803271123>>
Document的得分为 : 0.43770555
搜索的该关键字【的】在Document(编号) 0 中,出现过 2 次
********************************************************************
【 序号 】: 6
Document的内部编号为 : 3
Document(编号) 3 的Field的信息:
------------------------------------
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\1实验题目.txt
------------------------------------
Field的名称为 : modified
Field的内容为 : 200710160733
------------------------------------
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\1实验题目.txt> stored/uncompressed,indexed<modified:200710160733>>
Document的得分为 : 0.4333064
搜索的该关键字【的】在Document(编号) 3 中,出现过 1 次
********************************************************************
【 序号 】: 7
Document的内部编号为 : 60
Document(编号) 60 的Field的信息:
------------------------------------
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\猫吉又有个忙,需要大家帮忙一下.txt
------------------------------------
Field的名称为 : modified
Field的内容为 : 200706161112
------------------------------------
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\猫吉又有个忙,需要大家帮忙一下.txt> stored/uncompressed,indexed<modified:200706161112>>
Document的得分为 : 0.4106042
搜索的该关键字【的】在Document(编号) 60 中,出现过 11 次
********************************************************************
【 序号 】: 8
Document的内部编号为 : 59
Document(编号) 59 的Field的信息:
------------------------------------
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\汉化说明.txt
------------------------------------
Field的名称为 : modified
Field的内容为 : 200708210247
------------------------------------
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\汉化说明.txt> stored/uncompressed,indexed<modified:200708210247>>
Document的得分为 : 0.39057708
搜索的该关键字【的】在Document(编号) 59 中,出现过 13 次
********************************************************************
【 序号 】: 9
Document的内部编号为 : 44
Document(编号) 44 的Field的信息:
------------------------------------
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\Visual Studio 2005注册升级.txt
------------------------------------
Field的名称为 : modified
Field的内容为 : 200801300512
------------------------------------
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\Visual Studio 2005注册升级.txt> stored/uncompressed,indexed<modified:200801300512>>
Document的得分为 : 0.37525433
搜索的该关键字【的】在Document(编号) 44 中,出现过 3 次
********************************************************************
【 序号 】: 10
Document的内部编号为 : 56
Document(编号) 56 的Field的信息:
------------------------------------
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\新1建 文本文档.txt
------------------------------------
Field的名称为 : modified
Field的内容为 : 200710311142
------------------------------------
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\新1建 文本文档.txt> stored/uncompressed,indexed<modified:200710311142>>
Document的得分为 : 0.36621076
搜索的该关键字【的】在Document(编号) 56 中,出现过 35 次
********************************************************************
【 序号 】: 11
Document的内部编号为 : 46
Document(编号) 46 的Field的信息:
------------------------------------
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\使用技巧集萃.txt
------------------------------------
Field的名称为 : modified
Field的内容为 : 200511210413
------------------------------------
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\使用技巧集萃.txt> stored/uncompressed,indexed<modified:200511210413>>
Document的得分为 : 0.35693806
搜索的该关键字【的】在Document(编号) 46 中,出现过 133 次
********************************************************************
【 序号 】: 12
Document的内部编号为 : 30
Document(编号) 30 的Field的信息:
------------------------------------
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\MyEclipse 注册码.txt
------------------------------------
Field的名称为 : modified
Field的内容为 : 200712061059
------------------------------------
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\MyEclipse 注册码.txt> stored/uncompressed,indexed<modified:200712061059>>
Document的得分为 : 0.3460366
搜索的该关键字【的】在Document(编号) 30 中,出现过 5 次
********************************************************************
【 序号 】: 13
Document的内部编号为 : 63
Document(编号) 63 的Field的信息:
------------------------------------
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\疑问即时记录.txt
------------------------------------
Field的名称为 : modified
Field的内容为 : 200711141408
------------------------------------
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\疑问即时记录.txt> stored/uncompressed,indexed<modified:200711141408>>
Document的得分为 : 0.30325133
搜索的该关键字【的】在Document(编号) 63 中,出现过 6 次
********************************************************************
【 序号 】: 14
Document的内部编号为 : 37
Document(编号) 37 的Field的信息:
------------------------------------
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\readme.txt
------------------------------------
Field的名称为 : modified
Field的内容为 : 200803101314
------------------------------------
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\readme.txt> stored/uncompressed,indexed<modified:200803101314>>
Document的得分为 : 0.26262334
搜索的该关键字【的】在Document(编号) 37 中,出现过 8 次
********************************************************************
【 序号 】: 15
Document的内部编号为 : 48
Document(编号) 48 的Field的信息:
------------------------------------
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\剑心补丁使用说明(readme).txt
------------------------------------
Field的名称为 : modified
Field的内容为 : 200803101357
------------------------------------
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\剑心补丁使用说明(readme).txt> stored/uncompressed,indexed<modified:200803101357>>
Document的得分为 : 0.26262334
搜索的该关键字【的】在Document(编号) 48 中,出现过 8 次
********************************************************************
【 序号 】: 16
Document的内部编号为 : 47
Document(编号) 47 的Field的信息:
------------------------------------
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\关系记录.txt
------------------------------------
Field的名称为 : modified
Field的内容为 : 200802201145
------------------------------------
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\关系记录.txt> stored/uncompressed,indexed<modified:200802201145>>
Document的得分为 : 0.23161201
搜索的该关键字【的】在Document(编号) 47 中,出现过 14 次
********************************************************************
【 序号 】: 17
Document的内部编号为 : 40
Document(编号) 40 的Field的信息:
------------------------------------
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\Struts之AddressBooks学习笔记.txt
------------------------------------
Field的名称为 : modified
Field的内容为 : 200710131711
------------------------------------
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\Struts之AddressBooks学习笔记.txt> stored/uncompressed,indexed<modified:200710131711>>
Document的得分为 : 0.21885277
搜索的该关键字【的】在Document(编号) 40 中,出现过 8 次
********************************************************************
【 序号 】: 18
Document的内部编号为 : 51
Document(编号) 51 的Field的信息:
------------------------------------
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\密码强度检验.txt
------------------------------------
Field的名称为 : modified
Field的内容为 : 200712010901
------------------------------------
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\密码强度检验.txt> stored/uncompressed,indexed<modified:200712010901>>
Document的得分为 : 0.12380183
搜索的该关键字【的】在Document(编号) 51 中,出现过 1 次
********************************************************************
【 序号 】: 19
Document的内部编号为 : 50
Document(编号) 50 的Field的信息:
------------------------------------
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\史上最强天籁之声及欧美流行曲超级精选【 FLAC分轨】.txt
------------------------------------
Field的名称为 : modified
Field的内容为 : 200712231241
------------------------------------
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\史上最强天籁之声及欧美流行曲超级精选【 FLAC分轨】.txt> stored/uncompressed,indexed<modified:200712231241>>
Document的得分为 : 0.1083266
搜索的该关键字【的】在Document(编号) 50 中,出现过 1 次
********************************************************************
【 序号 】: 20
Document的内部编号为 : 57
Document(编号) 57 的Field的信息:
------------------------------------
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\新建 文本文档.txt
------------------------------------
Field的名称为 : modified
Field的内容为 : 200710270258
------------------------------------
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\新建 文本文档.txt> stored/uncompressed,indexed<modified:200710270258>>
Document的得分为 : 0.09285137
搜索的该关键字【的】在Document(编号) 57 中,出现过 4 次
********************************************************************
【 序号 】: 21
Document的内部编号为 : 45
Document(编号) 45 的Field的信息:
------------------------------------
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\书籍网站.txt
------------------------------------
Field的名称为 : modified
Field的内容为 : 200708071255
------------------------------------
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\书籍网站.txt> stored/uncompressed,indexed<modified:200708071255>>
Document的得分为 : 0.0670097
搜索的该关键字【的】在Document(编号) 45 中,出现过 3 次
********************************************************************
【 序号 】: 22
Document的内部编号为 : 61
Document(编号) 61 的Field的信息:
------------------------------------
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\网络查询大全.txt
------------------------------------
Field的名称为 : modified
Field的内容为 : 200111200655
------------------------------------
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\网络查询大全.txt> stored/uncompressed,indexed<modified:200111200655>>
Document的得分为 : 0.065655835
搜索的该关键字【的】在Document(编号) 61 中,出现过 2 次
********************************************************************
【 序号 】: 23
Document的内部编号为 : 14
Document(编号) 14 的Field的信息:
------------------------------------
Field的名称为 : path
Field的内容为 : E:\Lucene\txt1\mytxt\CustomKeysSample.txt
------------------------------------
Field的名称为 : modified
Field的内容为 : 200610100451
------------------------------------
Document的内容为 : Document<stored/uncompressed,indexed<path:E:\Lucene\txt1\mytxt\CustomKeysSample.txt> stored/uncompressed,indexed<modified:200610100451>>
Document的得分为 : 0.051179506
搜索的该关键字【的】在Document(编号) 14 中,出现过 7 次
********************************************************************
本次搜索所用的时间为 187 ms
其中,IndexReader是一个用于读取索引文件的抽象类,可以参考该类的源代码。IndexReader类可以很方便地打开一个索引目录(即创建一个输入流),这要使用到它的静态(static)方法open()打开即可,然后就可以访问索引文件了,从而实现对索引文件的维护。
IndexReader类实现了各种打开索引文件的方式,由于定义为static的,所以非常方便地调用,如下所示:
public static IndexReader open(String path) throws CorruptIndexException, IOException { // 通过String的索引目录的路径
return open(FSDirectory.getDirectory(path), true, null);
}
public static IndexReader open(File path) throws CorruptIndexException, IOException { // 通过File构造的索引目录文件
return open(FSDirectory.getDirectory(path), true, null);
}
public static IndexReader open(final Directory directory) throws CorruptIndexException, IOException { // 直接通过Directory来打开
return open(directory, false, null);
}
public static IndexReader open(final Directory directory, IndexDeletionPolicy deletionPolicy) throws CorruptIndexException, IOException { // 直接通过Directory来打开,并指定一种索引文件删除策略,可以对索引文件进行维护(删除操作)
return open(directory, false, deletionPolicy);
}
其中,最核心的实现是在一个私有的open()方法中实现的,如下所示:
private static IndexReader open(final Directory directory, final boolean closeDirectory, final IndexDeletionPolicy deletionPolicy) throws CorruptIndexException, IOException {
return (IndexReader) new SegmentInfos.FindSegmentsFile(directory) {
protected Object doBody(String segmentFileName) throws CorruptIndexException, IOException {
SegmentInfos infos = new SegmentInfos();
infos.read(directory, segmentFileName);
IndexReader reader;
if (infos.size() == 1) { // index is optimized
reader = SegmentReader.get(infos, infos.info(0), closeDirectory);
} else {
// To reduce the chance of hitting FileNotFound
// (and having to retry), we open segments in
// reverse because IndexWriter merges & deletes
// the newest segments first.
IndexReader[] readers = new IndexReader[infos.size()];
for (int i = infos.size()-1; i >= 0; i--) {
try {
readers[i] = SegmentReader.get(infos.info(i));
} catch (IOException e) {
// Close all readers we had opened:
for(i++;i<infos.size();i++) {
readers[i].close();
}
throw e;
}
}
reader = new MultiReader(directory, infos, closeDirectory, readers);
}
reader.deletionPolicy = deletionPolicy;
return reader;
}
}.run();
}
上面测试程序中,IndexSearcher类是实现检索的核心类。它提供了很多中不同的检索方式,返回的对象也可以适用于不同的需要,比如Hits、TopFieldDocs、TopDocs,而且,还可以指定排序Sort、权重Weight、过滤器Filter作为search()方法的参数,用起来的灵活、方便。
通过程序中,红色标注的代码行:
TermDocs termDocs = searcher.getIndexReader().termDocs(term);
其实,一个IndexSearcher实例化以后,可以通过它获取到一个IndexReader的实例,从而打开一个索引目录。
然后从就可以从创建的输入流中读取索引文件的详细信息:
1、每个Document的内部编号(是唯一的,可以通过这个编号对其进行维护);
2、每个Document中都有多个Field,可以读取Field的名称、路径、Field的内容等等。
上面的测试程序中,没有输出名称为“contents”的Field,是因为在索引文件中没有存储Fielde的内容(即文本信息)。因为Field的内容是根据从指定的数据源中获取,而数据源可能是数据量非常大的一些文件,如果直接将它们保存到索引文件中,会占用很大的磁盘空间。
其实,可以根据需要存储。上面之所以没有存储,可以追溯到Lucene自带的Demo中的设置,在org.apache.lucene.demo.FileDocument中创建Field,如下所示:
// 构造一个Field,这个Field可以从一个文件流中读取,必须保证由f所构造的文件流是打开的
doc.add(new Field("contents", new FileReader(f)));
然后,看Field的该构造方法的定义:
public Field(String name, Reader reader) {
this(name, reader, TermVector.NO);
}
这个构造方法指定了要为这个创建的Field进行分词、索引,但是不存储。
可以参考调用的另一个构造方法:
public Field(String name, Reader reader, TermVector termVector) {
if (name == null)
throw new NullPointerException("name cannot be null");
if (reader == null)
throw new NullPointerException("reader cannot be null");
this.name = name.intern(); // field names are interned
this.fieldsData = reader;
this.isStored = false; // 指定不进行存储
this.isCompressed = false;
this.isIndexed = true; // 要进行索引
this.isTokenized = true; // 要进行分词
this.isBinary = false;
setStoreTermVector(termVector);
}
上面测试程序中,Hits是一个内容非常丰富的实现类。
通过检索返回Hits类的对象,可以通过Hits类的实例来获取Document的id,以及计算该Document的得分,并且在search()执行之后,返回的结果按照得分的高低来排序输出,得分值高的在前面。
以此做个引子,之后再详细学习研究。
发表评论
-
创建索引的时候出现的错误
2010-01-04 10:13 1712<OFMsg>251658517"1&q ... -
SQLServer2005获取大数据集时内存不足的解决办法
2009-02-12 10:59 2004今天在修改search的建立索引的程序的时候,发现了这个错误 ... -
使用Lucene的Highlighter实现文件摘要的自动提取
2009-02-06 16:52 6661使用Lucene自带的Highlighter就可以实现对原始文 ... -
Lucene倒排索引原理
2009-02-06 16:08 1158Lucene是一个高性能的java全文检索工具包,它使用的是倒 ... -
Lucene 2.2.0发布自带的HTMLParser的使用
2009-02-06 16:00 2551Lucene 2.2.0发行包中自带 ... -
Lucene关键字高亮显示
2009-02-06 15:53 2383在Lucene的org.apache.lucene.s ... -
Lucene-2.2.0 源代码阅读学习(42)
2009-02-06 15:46 1337关于Hits类。这个Hits类 ... -
Lucene-2.2.0 源代码阅读学习(41)
2009-02-06 15:40 1116当执行Hits htis = search(query);这一 ... -
Lucene-2.2.0 源代码阅读学习(40)
2009-02-06 15:34 1197关于Lucene检索结果的排序问题。 已经知道,Lucene的 ... -
Lucene-2.2.0 源代码阅读学习(39)
2009-02-06 15:31 1125关于Lucene得分的计算。 在IndexSearcher类中 ... -
Lucene-2.2.0 源代码阅读学习(38)
2009-02-06 15:13 1134关于QueryParser。 QueryParser是用来解析 ... -
Lucene-2.2.0 源代码阅读学习(37)
2009-02-06 15:06 1070关于MultiTermQuery查询。 这里研究继承自Mult ... -
Lucene-2.2.0 源代码阅读学习(36)
2009-02-06 15:05 1023关于MultiTermQuery查询。 这里研究FuzzyQu ... -
Lucene-2.2.0 源代码阅读学习(35)
2009-02-06 15:03 947于MultiPhraseQuery(多短语查询)。 Multi ... -
Lucene-2.2.0 源代码阅读学习(34)
2009-02-06 15:02 974关于PhraseQuery。 PhraseQuery查询是将多 ... -
Lucene-2.2.0 源代码阅读学习(33)
2009-02-06 15:01 1001关于范围查询RangeQuery。 ... -
Lucene-2.2.0 源代码阅读学习(32)
2009-02-06 15:00 894关于SpanQuery(跨度搜索),它是Query的子类,但是 ... -
Lucene-2.2.0 源代码阅读学习(31)
2009-02-06 14:58 952关于前缀查询PrefixQuery(前缀查询)。 准备工作就是 ... -
Lucene-2.2.0 源代码阅读学习(30)
2009-02-06 14:57 759关于Query的学习。 主要使用TermQuery和Boole ... -
Lucene-2.2.0 源代码阅读学习(29)
2009-02-06 14:54 1163关于IndexSearcher检索器。 ...
相关推荐
lucene-analyzers-2.2.0.jarlucene-analyzers-2.2.0.jarlucene-analyzers-2.2.0.jarlucene-analyzers-2.2.0.jarlucene-analyzers-2.2.0.jarlucene-analyzers-2.2.0.jarlucene-analyzers-2.2.0.jarlucene-analyzers-...
标题中的"lucene-2.2.0zip"指的是Lucene的2.2.0版本,这是一个较早的版本,对于学习和理解Lucene的基础概念非常有帮助。 Lucene 2.2.0的主要特性包括: 1. **全文检索**:Lucene支持对文档内容进行全文检索,允许...
lucene-highlighter-2.2.0.jarlucene-highlighter-2.2.0.jarlucene-highlighter-2.2.0.jarlucene-highlighter-2.2.0.jarlucene-highlighter-2.2.0.jarlucene-highlighter-2.2.0.jarlucene-highlighter-2.2.0.jar
《Lucene-2.3.1 源代码阅读学习》 Lucene是Apache软件基金会的一个开放源码项目,它是一个高性能、全文本搜索库,为开发者提供了在Java应用程序中实现全文检索功能的基础架构。本篇文章将深入探讨Lucene 2.3.1版本...
《深入解析Lucene高亮显示源码:剖析`lucene-highlighter-2.2.0-src.zip`》 Lucene,作为一个开源全文检索库,以其高效、灵活的特点在信息检索领域广泛应用。在处理搜索结果时,为了提升用户体验,通常会采用高亮...
《深入剖析Lucene 2.2.0源代码》 Lucene是一款强大的开源全文搜索引擎库,由Apache软件基金会开发并维护。它为Java开发者提供了一种高性能、可扩展的文本检索核心工具。本文将深入探讨Lucene 2.2.0版本的源代码,...
在前面Lucene-2.2.0 源代码阅读学习(1)中,根据Lucene提供的一个Demo,详细分析研究一下索引器org.apache.lucene.index.IndexWriter类,看看它是如果定义的,掌握它建立索引的机制。 通过IndexWriter类的实现源代码...
赠送源代码:lucene-analyzers-smartcn-7.7.0-sources.jar; 赠送Maven依赖信息文件:lucene-analyzers-smartcn-7.7.0.pom; 包含翻译后的API文档:lucene-analyzers-smartcn-7.7.0-javadoc-API文档-中文(简体)版....
赠送源代码:lucene-core-7.7.0-sources.jar; 赠送Maven依赖信息文件:lucene-core-7.7.0.pom; 包含翻译后的API文档:lucene-core-7.7.0-javadoc-API文档-中文(简体)版.zip; Maven坐标:org.apache.lucene:lucene...
- 通过阅读源代码,可以理解Lucene的内部工作原理,如如何构建索引、执行查询等。 - 分析器部分的源码有助于了解文本预处理过程,包括分词、去除停用词等。 - 探究查询解析器的实现,掌握如何将自然语言转化为...
赠送源代码:lucene-analyzers-common-6.6.0-sources.jar; 赠送Maven依赖信息文件:lucene-analyzers-common-6.6.0.pom; 包含翻译后的API文档:lucene-analyzers-common-6.6.0-javadoc-API文档-中文(简体)版.zip;...
这是一个java开发用的.jar文件,用它和Lucene-core-2.0.0.jar可以实现搜索引擎
赠送源代码:lucene-core-7.2.1-sources.jar; 赠送Maven依赖信息文件:lucene-core-7.2.1.pom; 包含翻译后的API文档:lucene-core-7.2.1-javadoc-API文档-中文(简体)版.zip; Maven坐标:org.apache.lucene:lucene...
赠送源代码:lucene-suggest-6.6.0-sources.jar; 赠送Maven依赖信息文件:lucene-suggest-6.6.0.pom; 包含翻译后的API文档:lucene-suggest-6.6.0-javadoc-API文档-中文(简体)版.zip; Maven坐标:org.apache....
赠送源代码:lucene-backward-codecs-7.3.1-sources.jar; 赠送Maven依赖信息文件:lucene-backward-codecs-7.3.1.pom; 包含翻译后的API文档:lucene-backward-codecs-7.3.1-javadoc-API文档-中文(简体)-英语-对照...
赠送源代码:lucene-core-6.6.0-sources.jar; 赠送Maven依赖信息文件:lucene-core-6.6.0.pom; 包含翻译后的API文档:lucene-core-6.6.0-javadoc-API文档-中文(简体)版.zip; Maven坐标:org.apache.lucene:lucene...
赠送源代码:lucene-spatial-extras-7.3.1-sources.jar; 赠送Maven依赖信息文件:lucene-spatial-extras-7.3.1.pom; 包含翻译后的API文档:lucene-spatial-extras-7.3.1-javadoc-API文档-中文(简体)-英语-对照版....
赠送源代码:lucene-memory-6.6.0-sources.jar; 赠送Maven依赖信息文件:lucene-memory-6.6.0.pom; 包含翻译后的API文档:lucene-memory-6.6.0-javadoc-API文档-中文(简体)版.zip; Maven坐标:org.apache.lucene:...
赠送源代码:lucene-suggest-7.7.0-sources.jar; 赠送Maven依赖信息文件:lucene-suggest-7.7.0.pom; 包含翻译后的API文档:lucene-suggest-7.7.0-javadoc-API文档-中文(简体)版.zip; Maven坐标:org.apache....
赠送源代码:lucene-analyzers-smartcn-7.7.0-sources.jar; 赠送Maven依赖信息文件:lucene-analyzers-smartcn-7.7.0.pom; 包含翻译后的API文档:lucene-analyzers-smartcn-7.7.0-javadoc-API文档-中文(简体)-英语...