`

Lucene 倒排文件索引结构

阅读更多
Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下:

0)设有两篇文章1和2
文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too.
文章2的内容为:He once lived in Shanghai.

1)由于lucene是基于关键词索引和查询的,首先我们要取得这两篇文章的关键词,通常我们需要如下处理措施
a.我们现在有的是文章内容,即一个字符串,我们先要找出字符串中的所有单词,即分词。英文单词由于用空格分隔,比较好处理。中文单词间是连在一起的需要特殊的分词处理。
b.文章中的”in”, “once” “too”等词没有什么实际意义,中文中的“的”“是”等字通常也无具体含义,这些不代表概念的词可以过滤掉
c.用户通常希望查“He”时能把含“he”,“HE”的文章也找出来,所以所有单词需要统一大小写。
d.用户通常希望查“live”时能把含“lives”,“lived”的文章也找出来,所以需要把“lives”,“lived”还原成“live”
e.文章中的标点符号通常不表示某种概念,也可以过滤掉
在lucene中以上措施由Analyzer类完成

经过上面处理后
文章1的所有关键词为:[tom] [live] [guangzhou] [i] [live] [guangzhou]
文章2的所有关键词为:[he] [live] [shanghai]

2) 有了关键词后,我们就可以建立倒排索引了。上面的对应关系是:“文章号”对“文章中所有关键词”。倒排索引把这个关系倒过来,变成:“关键词”对“拥有该关键词的所有文章号”。文章1,2经过倒排后变成
关键词 文章号
guangzhou 1
he 2
i 1
live 1,2
shanghai 2
tom 1

通常仅知道关键词在哪些文章中出现还不够,我们还需要知道关键词在文章中出现次数和出现的位置,通常有两种位置:a)字符位置,即记录该词是文章中第几个字符(优点是关键词亮显时定位快);b)关键词位置,即记录该词是文章中第几个关键词(优点是节约索引空间、词组(phase)查询快),lucene中记录的就是这种位置。

加上“出现频率”和“出现位置”信息后,我们的索引结构变为:
关键词 文章号[出现频率] 出现位置
guangzhou 1[2] 3,6
he 2[1] 1
i 1[1] 4
live 1[2],2[1] 2,5,2
shanghai 2[1] 3
tom 1[1] 1

以live 这行为例我们说明一下该结构:live在文章1中出现了2次,文章2中出现了一次,它的出现位置为“2,5,2”这表示什么呢?我们需要结合文章号和出现频率来分析,文章1中出现了2次,那么“2,5”就表示live在文章1中出现的两个位置,文章2中出现了一次,剩下的“2”就表示live是文章2中第 2个关键字。

以上就是lucene索引结构中最核心的部分。我们注意到关键字是按字符顺序排列的(lucene没有使用B树结构),因此lucene可以用二元搜索算法快速定位关键词。

实现时 lucene将上面三列分别作为词典文件(Term Dictionary)、频率文件(frequencies)、位置文件 (positions)保存。其中词典文件不仅保存有每个关键词,还保留了指向频率文件和位置文件的指针,通过指针可以找到该关键字的频率信息和位置信息。

Lucene中使用了field的概念,用于表达信息所在位置(如标题中,文章中,url中),在建索引中,该field信息也记录在词典文件中,每个关键词都有一个field信息(因为每个关键字一定属于一个或多个field)。

为了减小索引文件的大小,Lucene对索引还使用了压缩技术。首先,对词典文件中的关键词进行了压缩,关键词压缩为<前缀长度,后缀>,例如:当前词为“阿拉伯语”,上一个词为“阿拉伯”,那么“阿拉伯语”压缩为<3,语>。其次大量用到的是对数字的压缩,数字只保存与上一个值的差值(这样可以减小数字的长度,进而减少保存该数字需要的字节数)。例如当前文章号是16389(不压缩要用3个字节保存),上一文章号是16382,压缩后保存7(只用一个字节)。

下面我们可以通过对该索引的查询来解释一下为什么要建立索引。
假设要查询单词 “live”,lucene先对词典二元查找、找到该词,通过指向频率文件的指针读出所有文章号,然后返回结果。词典通常非常小,因而,整个过程的时间是毫秒级的。
而用普通的顺序匹配算法,不建索引,而是对所有文章的内容进行字符串匹配,这个过程将会相当缓慢,当文章数目很大时,时间往往是无法忍受的。


终于看懂一篇,可把我累坏了,吓傻了。
分享到:
评论
1 楼 Chunxian 2014-02-25  

相关推荐

    Lucene 倒排原理.docx

    通过对Lucene倒排索引原理的详细介绍,我们可以看到,正是这种独特的数据组织方式使得搜索引擎能够在海量文档中迅速找到相关的文档。通过细致入微的预处理和高效的索引结构设计,Lucene能够极大地提高检索的效率,让...

    lucene

    ### Lucene倒排文件索引结构详解 #### 一、Lucene简介 Lucene是一款高性能、全功能的文本搜索引擎库,由Java编写而成。它能够为应用程序提供强大的搜索能力,并且具有高度可定制化的特点。Lucene的核心在于其高效...

    lucene索引结构原理

    4. **倒排索引(Inverted Index)**:这是Lucene的核心索引结构。每个词项在倒排索引中对应一个倒排列表(Posting List),记录了该词项在哪些文档中出现以及其在文档中的位置。倒排列表通常存储在磁盘上,以节省...

    深入了解Lucene之二 索引结构.ppt

    对于被索引的字段,项会形成倒排索引,即从项到包含该项的文档的引用,而存储字段则保留原始内容以便于检索。 代码示例展示了如何定义一个领域,如`channelID`,并指定它被存储、分词且保存词频和词向量。 在...

    Lucene读取索引文件

    .fdx和.fdt是Field Data Index和Data,用于处理字段的倒排索引;而.fdt则存储了实际的字段值。 阅读和解析Lucene索引文件通常需要借助于Lucene提供的API。首先,通过`Directory`接口打开索引目录,如`FSDirectory....

    深入 Lucene 索引机制

    3. 工具支持:Lucene提供了丰富的工具和API,如Luke工具可以查看索引结构,Solr和Elasticsearch则是基于Lucene的全文搜索引擎服务,提供了更高级的功能和服务。 综上,深入理解Lucene的索引机制有助于优化搜索性能...

    lucene索引结构原理.docx

    【Lucene 索引结构原理】 Lucene 是一个高性能、全文检索的开源库,它主要处理非结构化的数据,如邮件、Word 文档等。与传统的数据库不同,Lucene 更专注于文本的检索,而非存储和管理结构化数据。本文将深入探讨...

    lucene索引查看工具及源码

    Luke 提供了诸如查看文档字段、搜索索引、查看倒排索引结构等功能,对于开发者来说是了解和调试 Lucene 索引的利器。 Luke 的源码也公开在 GitHub 上,这对于想深入理解 Lucene 内部机制的开发者来说是一个宝贵的...

    倒排索引java实现

    倒排索引是一种高效的数据结构,常用于全文搜索引擎中,以快速定位文档中包含特定关键词的位置。在Java中实现倒排索引,可以利用标准库或者其他第三方库,如Apache Lucene,但这里我们主要讨论基于自定义代码的实现...

    Lucene对本地文件多目录创建索引

    在这个过程中,Lucene会分析文档内容,建立倒排索引,以便快速查找包含特定关键词的文件。 描述中提到的博客链接可能提供了具体的实现步骤或示例代码,但具体内容未给出,所以我们将基于Lucene的一般用法进行讲解。...

    Lucene之删除索引

    Lucene的索引删除过程并不像传统的文件系统删除那么简单,它涉及到对倒排索引结构的修改。 1. **删除文档**:在Lucene中,删除操作并不是真正地从磁盘上移除文档,而是通过添加一个删除标记到索引中。当你调用`...

    Hadoop倒排索引程序

    此外,还可以考虑使用更高级的分布式索引结构,如Bloom Filter或Lucene等,以提高索引质量和查询效率。 总的来说,“Hadoop倒排索引程序”是Hadoop并行框架在文本处理和信息检索领域的成功实践,它展示了大数据处理...

    经典的lucene实例代码及详细解析以及lucene结构流程介绍

    Lucene索引结构主要由三个部分组成:索引文件、词典和倒排索引。索引文件是Lucene索引的物理存储单元,词典是词项的集合,倒排索引是词项到文档的映射关系。 在Lucene中,索引文件是以目录形式存储的,每个索引文件...

    Lucene索引文件查看工具lukeall4.7.1

    6. **倒排索引查看**:倒排索引是Lucene的核心,LukeAll能够展示倒排索引的详细信息,包括词典、文档频率、Posting列表等,让开发者能够深入理解Lucene如何高效地执行搜索操作。 7. **字段统计**:工具提供对字段的...

    lucene全文检索简单索引和搜索实例

    通过分词器(Analyzer),将文本分解成单词(Token),然后构建倒排索引(Inverted Index),使得我们可以高效地查找包含特定单词的文档。 二、Lucene索引创建流程 1. 初始化:首先,我们需要导入Lucene库,并创建...

    lucene3.0庖丁+索引搜索程序

    1. 文档索引:Lucene通过分词器(Tokenizer)将输入的文本分解成一系列的词语(Term),并为每个词语创建一个文档频率(Document Frequency, DF)。同时,使用Term频率-逆文档频率(Term Frequency-Inverse Document...

    基于Lucene的分布式并行索引.pdf

    Lucene的倒排索引结构是其索引技术的核心,这种结构的特点是能够快速进行关键字查询。除了倒排索引,Lucene还支持增量索引,这意味着可以只对文档的更改部分进行索引更新,而不是重新对整个文档集进行索引,从而节省...

    基于Lucene索引的分析与实现

    倒排索引是Lucene的核心索引结构。不同于顺序扫描中存储文件内容与字符串的对应关系,倒排索引存储的是字符串到文件的映射,即知道某个词汇出现在哪些文件中及其位置。这大大提升了搜索效率。在Lucene中,索引由多个...

    lucene索引结构与时空优化

    第一章 Lucene是个倒排索引 第二章 Lucene与数据库 第三章 Lucene的索引建立及文件结构 第四章 Lucene的检索机制及文档得分 第五章 Lucene的存储优化 第六章 Lucene的效率优化 第七章 用Lucene加快web开发!

Global site tag (gtag.js) - Google Analytics