Lucene学习总结之七：Lucene搜索过程解析(2)

博客分类：

Lucene 学习总结

二、Lucene搜索详细过程为了解析Lucene对索引文件搜索的过程，预先写入索引了如下几个文件： file01.txt: apple apples cat dog file02.txt: apple boy cat category file03.txt: apply dog eat etc file04.txt: apply cat foods 2.1、打开IndexReader指向索引文件夹代码为： IndexReader reader = IndexReader.open(FSDirectory.open(indexDir)); 其实是调用了DirectoryRea ...

2010-04-04 20:10
浏览 4949
评论(0)
分类:编程语言

Lucene学习总结之七：Lucene搜索过程解析(1)

博客分类：

Lucene 学习总结

lucene

一、Lucene搜索过程总论搜索的过程总的来说就是将词典及倒排表信息从索引中读出来，根据用户输入的查询语句合并倒排表，得到结果文档集并对文档进行打分的过程。其可用如下图示：总共包括以下几个过程： IndexReader打开索引文件，读取并打开指向索引文件的流。用户输入查询语句将查询语句转换为查询对象Query对象树构造Weight对象树，用于计算词的权重Term Weight，也即计算打分公式中与仅与搜索语句相关与文档无关的部分(红色部分)。构造Scorer对象树，用于计算打分(TermScorer.score())。在构造Scorer对象 ...

2010-04-04 20:07
浏览 5305
评论(0)
分类:编程语言

Hadoop 学习总结之一：HDFS简介

博客分类：

Hadoop学习总结

Hadoop 数据结构 lucene

一、HDFS的基本概念 1.1、数据块(block) HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件系统相同的是，HDFS中的文件是被分成64M一块的数据块存储的。不同于普通文件系统的是，HDFS中，如果一个文件小于一个数据块的大小，并不占用整个数据块存储空间。 1.2、元数据节点(Namenode)和数据节点(datanode) 元数据节点用来管理文件系统的命名空间其将所有的文件和文件夹的元数据保存在一个文件系统树中。这些信息也会在硬盘上保存成以下文件：命名空间镜像(names ...

2010-03-14 02:05
浏览 12383
评论(7)
分类:编程语言

Lucene学习总结之六：Lucene打分公式的数学推导

博客分类：

Lucene 学习总结

lucene Google 全文检索 F#

在进行Lucene的搜索过程解析之前，有必要单独的一张把Lucene score公式的推导，各部分的意义阐述一下。因为Lucene的搜索过程，很重要的一个步骤就是逐步的计算各部分的分数。 Lucene的打分公式非常复杂，如下：在推导之前，先逐个介绍每部分的意义： t：Term，这里的Term是指包含域信息的Term，也即title:hello和content:hello是不同的Term coord(q,d)：一次搜索可能包含多个搜索词，而一篇文档中也可能包含多个搜索词，此项表示，当一篇文档中包含的搜索词越多，则此文档则打分越高。 queryNorm(q)： ...

2010-03-07 00:41
浏览 6134
评论(8)
论坛回复 / 浏览 (6 / 8725)
分类:编程语言

Lucene学习总结之五：Lucene段合并(merge)过程分析

博客分类：

Lucene 学习总结

lucene J#数据结构算法 F#

一、段合并过程总论 IndexWriter中与段合并有关的成员变量有： HashSet<SegmentInfo> mergingSegments = new HashSet<SegmentInfo>(); //保存正在合并的段，以防止合并期间再次选中被合并。 MergePolicy mergePolicy = new LogByteSizeMergePolicy(this);//合并策略，也即选取哪些段来进行合并。 MergeScheduler mergeScheduler = new ConcurrentMergeScheduler();//段合并器 ...

2010-03-06 11:35
浏览 6431
评论(3)
分类:编程语言

Lucene 3.0 原理与代码分析

博客分类：

Lucene 学习总结

lucene Blog IDEA 全文检索

本系列文章将详细描述几乎最新版本的Lucene的基本原理和代码分析。其中总体架构和索引文件格式是Lucene 2.9的，索引过程分析是Lucene 3.0的。鉴于索引文件格式没有太大变化，因而原文没有更新，原理和架构的文章中引用了前辈的一些图，可能属于早期的Lucene，但不影响对原理和架构的理解。本系列文章尚在撰写之中，将会有分词器，段合并，QueryParser，查询语句与查询对象，搜索过程，打分公式的推导等章节。提前给大家分享，希望大家批评指正。 Lucene学习总结之一：全文检索的基本原理

2010-02-24 11:04
浏览 8755
评论(16)
分类:编程语言

有关Lucene的问题(4):影响Lucene对文档打分的四种方式

博客分类：

有关Lucene的问题

lucene IDEA F#领域模型数据结构

在索引阶段设置Document Boost和Field Boost，存储在(.nrm)文件中。如果希望某些文档和某些域比其他的域更重要，如果此文档和此域包含所要查询的词则应该得分较高，则可以在索引阶段设定文档的boost和域的boost值。这些值是在索引阶段就写入索引文件的，存储在标准化因子(.nrm)文件中，一旦设定，除非删除此文档，否则无法改变。如果不进行设定，则Document Boost和Field Boost默认为1。 Document Boost及FieldBoost的设定方式如下： Document doc = new Document(); Field f ...

2010-02-09 00:00
浏览 14347
评论(9)
分类:编程语言

有关Lucene的问题(3): 向量空间模型与Lucene的打分机制

博客分类：

有关Lucene的问题

lucene J#F#

问题：在你的文章中提到了：于是我们把所有此文档中词(term)的权重(term weight) 看作一个向量。 Document = {term1, term2, …… ,term N} Document Vector = {weight1, weight2, …… ,weight N} 同样我们把查询语句看作一个简单的� ...

2010-02-06 12:44
浏览 6959
评论(4)
分类:编程语言

有关Lucene的问题(2):stemming和lemmatization

博客分类：

有关Lucene的问题

lucene 算法 Linux 全文检索 UP

问题：我试验了一下文章中提到的 stemming 和 lemmatization 将单词缩减为词根形式，如“cars”到“car”等。这种操作称为：stemming。将单词转变为词根形式，如“drove”到“drive”等。这种操作称为：lemmatization。试验没有成� ...

2010-02-06 12:40
浏览 4782
评论(1)
分类:编程语言

有关Lucene的问题(1):为什么能搜的到“中华 AND 共和国”却搜不到“中华共和国”?

博客分类：

有关Lucene的问题

lucene 搜索引擎

问题：使用中科院的中文分词对“中华人民共和国” 进行索引，它被分词为"中华", "人民", "共和国"，用“人民共和国”进行搜索，可以搜到，而搜索"中华共和国"却搜索不到，用“中华 AND 共和国”却可以搜出来，为什么？回答：我下载了http://ictclas.org/Download.html中科院的词做了简单的分析，如果索引的时候“中华人民共和国”被分成了“中华”“人民”“共和国”，而搜索的时候，搜“中华共和国”，则被分为了“中华共和国”，然而构建Query Parser构建Query Objec ...

2010-02-06 12:37
浏览 4755
评论(3)
分类:编程语言

Lucene学习总结之四：Lucene索引过程分析(4)

博客分类：

Lucene 学习总结

lucene 数据结构 J#thread

6、关闭IndexWriter对象代码： writer.close(); --> IndexWriter.closeInternal(boolean) --> (1) 将索引信息由内存写入磁盘: flush(waitForMerges, true, true); --> (2) 进行段合并: mergeScheduler.merge(this); 对段的合并将在后面的章节进行讨论，此处仅仅讨论将索引信息由写入磁盘的过程。代码： IndexWriter.flush(boolean triggerMerge, boo ...

2010-02-03 23:01
浏览 6317
评论(0)
分类:编程语言

Lucene学习总结之四：Lucene索引过程分析(3)

博客分类：

Lucene 学习总结

lucene

5、DocumentsWriter对CharBlockPool，ByteBlockPool，IntBlockPool的缓存管理在索引的过程中，DocumentsWriter将词信息(term)存储在CharBlockPool中，将文档号(doc ID)，词频(freq)和位置(prox)信息存储在ByteBlockPool中。在ByteBlockPool中，缓存是分块(slice)分配的，块(slice)是分层次的，层次越高，此层的块越大，每一层的块大小事相同的。 nextLevelArray表示的是当前层的下一层是第几层，可见第9层的下一层还是第9层，也就是说最高有9层。 ...

2010-02-03 23:00
浏览 5152
评论(4)
分类:编程语言

Lucene学习总结之四：Lucene索引过程分析(2)

博客分类：

Lucene 学习总结

lucene 多线程 FP Apache IE

3、将文档加入IndexWriter 代码： writer.addDocument(doc); -->IndexWriter.addDocument(Document doc, Analyzer analyzer) -->doFlush = docWriter.addDocument(doc, analyzer); --> DocumentsWriter.updateDocument(Document, Analyzer, Term) 注：--> 代表一级函数调用 IndexWriter继而调用DocumentsWriter.ad ...

2010-02-03 22:50
浏览 6521
评论(2)
分类:编程语言

Lucene学习总结之四：Lucene索引过程分析(1)

博客分类：

Lucene 学习总结

lucene 多线程 IE JVM Linux

对于Lucene的索引过程，除了将词(Term)写入倒排表并最终写入Lucene的索引文件外，还包括分词(Analyzer)和合并段(merge segments)的过程，本次不包括这两部分，将在以后的文章中进行分析。 Lucene的索引过程，很多的博客，文章都有介绍，推荐大家上网搜一篇文章：《Annotated Lucene》，好像中文名称叫《Lucene源码剖析》是很不错的。想要真正了解Lucene索引文件过程，最好的办法是跟进代码调试，对着文章看代码，这样不但能够最详细准确的掌握索引过程(描述都是有偏差的，而代码是不会骗你的)，而且还能够学习Lucene的一些优秀的实现，能够在以后的 ...

2010-02-03 22:47
浏览 8349
评论(1)
分类:编程语言

Lucene学习总结之三：Lucene的索引文件格式 (3)

博客分类：

Lucene 学习总结

lucene 数据结构全文检索 Blog

本文在csdn中的位置http://blog.csdn.net/forfuture1978/archive/2009/12/10/4976794.aspx 四、具体格式 4.2. 反向信息反向信息是索引文件的核心，也即反向索引。反向索引包括两部分，左面是词典(Term Dictionary)，右面是倒排表(Posting List)。在Lucene中，这两部分是分文件存储的，词典是存储在tii，tis中的，倒排表又包括两部分，一部分是文档号及词频，保存在frq中，一部分是词的位置信息，保存在prx中。 Term Dictionary (tii, tis) –> ...

2009-12-12 00:26
浏览 10092
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Lucene学习总结之七：Lucene搜索过程解析(2)

Lucene学习总结之七：Lucene搜索过程解析(1)

Hadoop 学习总结之一：HDFS简介

Lucene学习总结之六：Lucene打分公式的数学推导

Lucene学习总结之五：Lucene段合并(merge)过程分析

Lucene 3.0 原理与代码分析

有关Lucene的问题(4):影响Lucene对文档打分的四种方式

有关Lucene的问题(3): 向量空间模型与Lucene的打分机制

有关Lucene的问题(2):stemming和lemmatization

有关Lucene的问题(1):为什么能搜的到“中华 AND 共和国”却搜不到“中华共和国”?

Lucene学习总结之四：Lucene索引过程分析(4)

Lucene学习总结之四：Lucene索引过程分析(3)

Lucene学习总结之四：Lucene索引过程分析(2)

Lucene学习总结之四：Lucene索引过程分析(1)

Lucene学习总结之三：Lucene的索引文件格式 (3)

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>