Lucene学习总结之七：Lucene搜索过程解析(5)转

博客分类：

索引技术

2.4、搜索查询对象 2.4.2、创建Scorer及SumScorer对象树当创建完Weight对象树的时候，调用IndexSearcher.search(Weight, Filter, int)，代码如下： //(a)创建文档号收集器 TopScoreDocCollector collector = TopScoreDocCollector.create(nDocs, !weight.scoresDocsOutOfOrder()); search(weight, filter, collector); //(b)返回搜索结果 return coll ...

2010-06-08 11:19
浏览 1066
评论(0)
分类:编程语言

Lucene学习总结之七：Lucene搜索过程解析(4)转

博客分类：

索引技术

lucene Apple Blog

2.4、搜索查询对象 2.4.1.2、创建Weight对象树 BooleanQuery.createWeight(Searcher) 最终返回return new BooleanWeight(searcher)，BooleanWeight构造函数的具体实现如下： public BooleanWeight(Searcher searcher) { this.similarity = getSimilarity(searcher); weights = new ArrayList<Weight>(clauses.size()); //也是一个 ...

2010-06-08 11:18
浏览 880
评论(0)
分类:编程语言

Lucene学习总结之七：Lucene搜索过程解析(3)转

博客分类：

索引技术

lucene Apple J#算法 UP

2.3、QueryParser解析查询语句生成查询对象代码为： QueryParser parser = new QueryParser(Version.LUCENE_CURRENT, "contents", new StandardAnalyzer(Version.LUCENE_CURRENT)); Query query = parser.parse("+(+apple* -boy) (cat* dog) -(eat~ foods)"); 此过程相对复杂，涉及JavaCC，QueryParser，分词器，查询语法等，本章不会 ...

2010-06-08 11:17
浏览 1094
评论(0)
分类:编程语言

Lucene学习总结之七：Lucene搜索过程解析(2)转

博客分类：

索引技术

lucene Apple J#Cache Blog

二、Lucene搜索详细过程为了解析Lucene对索引文件搜索的过程，预先写入索引了如下几个文件： file01.txt: apple apples cat dog file02.txt: apple boy cat category file03.txt: apply dog eat etc file04.txt: apply cat foods 2.1、打开IndexReader指向索引文件夹代码为： IndexReader reader = IndexReader.open(FSDirectory.open(indexDir)); 其实是调用了DirectoryRea ...

2010-06-08 11:16
浏览 913
评论(0)
分类:编程语言

Lucene学习总结之七：Lucene搜索过程解析(1)转

博客分类：

索引技术

lucene Blog

一、Lucene搜索过程总论搜索的过程总的来说就是将词典及倒排表信息从索引中读出来，根据用户输入的查询语句合并倒排表，得到结果文档集并对文档进行打分的过程。其可用如下图示：总共包括以下几个过程： IndexReader打开索引文件，读取并打开指向索引文件的流。用户输入查询语句将查询语句转换为查询对象Query对象树构造Weight对象树，用于计算词的权重Term Weight，也即计算打分公式中与仅与搜索语句相关与文档无关的部分(红色部分)。构造Scorer对象树，用于计算打分(TermScorer.score())。在构造Scorer对象 ...

2010-06-08 11:15
浏览 919
评论(0)
分类:编程语言

Lucene学习总结之六：Lucene打分公式的数学推导（转）

博客分类：

索引技术

lucene 全文检索 Blog F#

在进行Lucene的搜索过程解析之前，有必要单独的一张把Lucene score公式的推导，各部分的意义阐述一下。因为Lucene的搜索过程，很重要的一个步骤就是逐步的计算各部分的分数。 Lucene的打分公式非常复杂，如下：在推导� ...

2010-06-08 11:13
浏览 963
评论(0)
分类:编程语言

Lucene学习总结之五：Lucene段合并(merge)过程分析（转）

博客分类：

索引技术

lucene J#数据结构算法 F#

一、段合并过程总论 IndexWriter中与段合并有关的成员变量有： HashSet<SegmentInfo> mergingSegments = new HashSet<SegmentInfo>(); //保存正在合并的段，以防止合并期间再次选中被合并。 MergePolicy mergePolicy = new LogByteSizeMergePolicy(this);//合并策略，也即选取哪些段来进行合并。 MergeScheduler mergeScheduler = new ConcurrentMergeScheduler();//段合并器 ...

2010-06-08 11:12
浏览 1104
评论(0)
分类:编程语言

Lucene学习总结之四：Lucene索引过程分析(4)转

博客分类：

索引技术

lucene 数据结构 J#thread Blog

6、关闭IndexWriter对象代码： writer.close(); --> IndexWriter.closeInternal(boolean) --> (1) 将索引信息由内存写入磁盘: flush(waitForMerges, true, true); --> (2) 进行段合并: mergeScheduler.merge(this); 对段的合并将在后面的章节进行讨论，此处仅仅讨论将索引信息由写入磁盘的过程。代码： IndexWriter.flush(boolean triggerMerge, boo ...

2010-06-08 11:08
浏览 815
评论(0)
分类:编程语言

Lucene学习总结之四：Lucene索引过程分析(3)转

博客分类：

索引技术

lucene Blog

5、DocumentsWriter对CharBlockPool，ByteBlockPool，IntBlockPool的缓存管理在索引的过程中，DocumentsWriter将词信息(term)存储在CharBlockPool中，将文档号(doc ID)，词频(freq)和位置(prox)信息存储在ByteBlockPool中。在ByteBlockPool中，缓存是分块(slice)分配的，块(slice)是分层次的，层次越高，此层的块越大，每一层的块大小事相同的。 nextLevelArray表示的是当前层的下一层是第几层，可见第9层的下一层还是第9层，也就是说最高有9层。 ...

2010-06-08 11:07
浏览 916
评论(0)
分类:编程语言

Lucene学习总结之四：Lucene索引过程分析(2)转

博客分类：

索引技术

lucene 多线程 FP Apache IE

3、将文档加入IndexWriter 代码： writer.addDocument(doc); -->IndexWriter.addDocument(Document doc, Analyzer analyzer) -->doFlush = docWriter.addDocument(doc, analyzer); --> DocumentsWriter.updateDocument(Document, Analyzer, Term) 注：--> 代表一级函数调用 IndexWriter继而调用DocumentsWriter.ad ...

2010-06-08 11:06
浏览 863
评论(0)
分类:编程语言

Lucene学习总结之四：Lucene索引过程分析(1)转

博客分类：

索引技术

lucene 多线程 IE JVM Linux

对于Lucene的索引过程，除了将词(Term)写入倒排表并最终写入Lucene的索引文件外，还包括分词(Analyzer)和合并段(merge segments)的过程，本次不包括这两部分，将在以后的文章中进行分析。 Lucene的索引过程，很多的博客，文章都有介绍，推荐大家上网搜一篇文章：《Annotated Lucene》，好像中文名称叫《Lucene源码剖析》是很不错的。想要真正了解Lucene索引文件过程，最好的办法是跟进代码调试，对着文章看代码，这样不但能够最详细准确的掌握索引过程(描述都是有偏差的，而代码是不会骗你的)，而且还能够学习Lucene的一些优秀的实现，能够在以后的 ...

2010-06-08 11:05
浏览 859
评论(0)
分类:编程语言

Lucene学习总结之三：Lucene的索引文件格式 (3)转

博客分类：

索引技术

lucene 数据结构全文检索 Blog

四、具体格式 4.2. 反向信息反向信息是索引文件的核心，也即反向索引。反向索引包括两部分，左面是词典(Term Dictionary)，右面是倒排表(Posting List)。在Lucene中，这两部分是分文件存储的，词典是存储在tii，tis中的，倒排表又包括两部分，一部分是文档号及词频，保存在frq中，一部分是词的位置信息，保存在prx中。 Term Dictionary (tii, tis) –> Frequencies (.frq) –> Positions (.prx) 4.2.1. 词典(tis)及词典索引(tii)信息 ...

2010-06-08 11:02
浏览 911
评论(0)
分类:编程语言

Lucene学习总结之三：Lucene的索引文件格式 (2)转

博客分类：

索引技术

lucene J#数据结构 Go Blog

四、具体格式上面曾经交代过，Lucene保存了从Index到Segment到Document到Field一直到Term的正向信息，也包括了从Term到Document映射的反向信息，还有其他一些Lucene特有的信息。下面对这三种信息一一介绍。 4.1. 正向信息 Index –> Segments (segments.gen, segments_N) –> Field(fnm, fdx, fdt) –> Term (tvx, tvd, tvf) 上面的层次结构不是十分的准确，因为segments.gen和segments_N保存的是段(segment)的元数据信息( ...

2010-06-08 11:01
浏览 890
评论(0)
分类:编程语言

Lucene学习总结之三：Lucene的索引文件格式 (1)转

博客分类：

索引技术

lucene 数据结构 Apache 全文检索算法

Lucene的索引里面存了些什么，如何存放的，也即Lucene的索引文件格式，是读懂Lucene源代码的一把钥匙。当我们真正进入到Lucene源代码之中的时候，我们会发现: Lucene的索引过程，就是按照全文检索的基本过程，将倒排表写成此� ...

2010-06-08 11:00
浏览 916
评论(0)
分类:编程语言

Lucene学习总结之二：Lucene的总体架构（转）

博客分类：

索引技术

lucene 搜索引擎全文检索网络应用 Blog

Lucene总的来说是：一个高效的，可扩展的，全文检索库。全部用Java实现，无须配置。仅支持纯文本文件的索引(Indexing)和搜索(Search)。不负责由其他格式的文件抽取纯文本文件，或从网络中抓取文件的过程。在Lucene in action中，Lucene 的构架和过程如下图，说明Lucene是有索引和搜索的两个过程，包含索引创建，索引，搜索三个要点。让我们更细一些看Lucene的各组件：被索引的文档用Document对象表示。 IndexWriter通过函数addDocument将文档添加到索引中，实现创建索 ...

2010-06-08 10:59
浏览 871
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Lucene学习总结之七：Lucene搜索过程解析(5)转

Lucene学习总结之七：Lucene搜索过程解析(4)转

Lucene学习总结之七：Lucene搜索过程解析(3)转

Lucene学习总结之七：Lucene搜索过程解析(2)转

Lucene学习总结之七：Lucene搜索过程解析(1)转

Lucene学习总结之六：Lucene打分公式的数学推导（转）

Lucene学习总结之五：Lucene段合并(merge)过程分析（转）

Lucene学习总结之四：Lucene索引过程分析(4)转

Lucene学习总结之四：Lucene索引过程分析(3)转

Lucene学习总结之四：Lucene索引过程分析(2)转

Lucene学习总结之四：Lucene索引过程分析(1)转

Lucene学习总结之三：Lucene的索引文件格式 (3)转

Lucene学习总结之三：Lucene的索引文件格式 (2)转

Lucene学习总结之三：Lucene的索引文件格式 (1)转

Lucene学习总结之二：Lucene的总体架构（转）

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>