`
kjkhi
  • 浏览: 185143 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

大数据处理--倒排索引

阅读更多

简介

  倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(inverted file)。

 

用途
  倒排文件(倒排索引),索引对象是文档或者文档集合中的单词等,用来存储这些单词在一个文档或者一组文档中的存储位置,是对文档或者文档集合的一种最常用的索引机制。

 

原理
  Lucene倒排索引原理 
  Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下: 
  0)设有两篇文章1和2 
  文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too. 
  文章2的内容为:He once lived in Shanghai.
取得关键词
  1)由于lucene是基于关键词索引和查询的,首先我们要取得这两篇文章的关键词,通常我们需要如下处理措施 
  a.我们现在有的是文章内容,即一个字符串,我们先要找出字符串中的所有单词,即分词。英文单词由于用空格分隔,比较好处理。中文单词间是连在一起的需要特殊的分词处理。 
  b.文章中的”in”, “once” “too”等词没有什么实际意义,中文中的“的”“是”等字通常也无具体含义,这些不代表概念的词可以过滤掉 
  c.用户通常希望查“He”时能把含“he”,“HE”的文章也找出来,所以所有单词需要统一大小写。 
  d.用户通常希望查“live”时能把含“lives”,“lived”的文章也找出来,所以需要把“lives”,“lived”还原成“live” 
  e.文章中的标点符号通常不表示某种概念,也可以过滤掉 
  在lucene中以上措施由Analyzer类完成 
  经过上面处理后 
  文章1的所有关键词为:[tom] [live] [guangzhou] [i] [live] [guangzhou] 
  文章2的所有关键词为:[he] [live] [shanghai]
建立倒排索引
  2) 有了关键词后,我们就可以建立倒排索引了。上面的对应关系是:“文章号”对“文章中所有关键词”。倒排索引把这个关系倒过来,变成:“关键词”对“拥有该关键词的所有文章号”。文章1,2经过倒排后变成 
  关键词 文章号 
  guangzhou 1 
  he 2 
  i 1 
  live 1,2 
  shanghai 2 
  tom 1 
  通常仅知道关键词在哪些文章中出现还不够,我们还需要知道关键词在文章中出现次数和出现的位置,通常有两种位置:a)字符位置,即记录该词是文章中第几个字符(优点是关键词亮显时定位快);b)关键词位置,即记录该词是文章中第几个关键词(优点是节约索引空间、词组(phase)查询快),lucene中记录的就是这种位置。 
  加上“出现频率”和“出现位置”信息后,我们的索引结构变为: 
  关键词 文章号[出现频率] 出现位置 
  guangzhou 1[2] 3,6 
  he 2[1] 1 
  i 1[1] 4 
  live 1[2],2[1] 2,5,2 
  shanghai 2[1] 3 
  tom 1[1] 1 
  以live 这行为例我们说明一下该结构:live在文章1中出现了2次,文章2中出现了一次,它的出现位置为“2,5,2”这表示什么呢?我们需要结合文章号和出现频率来分析,文章1中出现了2次,那么“2,5”就表示live在文章1中出现的两个位置,文章2中出现了一次,剩下的“2”就表示live是文章2中第 2个关键字。 
  以上就是lucene索引结构中最核心的部分。我们注意到关键字是按字符顺序排列的(lucene没有使用B树结构),因此lucene可以用二元搜索算法快速定位关键词。

 

实现
  实现时 lucene将上面三列分别作为词典文件(Term Dictionary)、频率文件(frequencies)、位置文件 (positions)保存。其中词典文件不仅保存有每个关键词,还保留了指向频率文件和位置文件的指针,通过指针可以找到该关键字的频率信息和位置信息。 
  Lucene中使用了field的概念,用于表达信息所在位置(如标题中,文章中,url中),在建索引中,该field信息也记录在词典文件中,每个关键词都有一个field信息(因为每个关键字一定属于一个或多个field)。

 

压缩算法
  为了减小索引文件的大小,Lucene对索引还使用了压缩技术。首先,对词典文件中的关键词进行了压缩,关键词压缩为<前缀长度,后缀>,例如:当前词为“阿拉伯语”,上一个词为“阿拉伯”,那么“阿拉伯语”压缩为<3,语>。其次大量用到的是对数字的压缩,数字只保存与上一个值的差值(这样可以减小数字的长度,进而减少保存该数字需要的字节数)。例如当前文章号是16389(不压缩要用3个字节保存),上一文章号是16382,压缩后保存7(只用一个字节)。

 

应用原因
  下面我们可以通过对该索引的查询来解释一下为什么要建立索引。 
  假设要查询单词 “live”,lucene先对词典二元查找、找到该词,通过指向频率文件的指针读出所有文章号,然后返回结果。词典通常非常小,因而,整个过程的时间是毫秒级的。 
  而用普通的顺序匹配算法,不建索引,而是对所有文章的内容进行字符串匹配,这个过程将会相当缓慢,当文章数目很大时,时间往往是无法忍受的。

 

转载声明: 本文转自 http://baike.baidu.com/view/676861.htm?fr=ala0_1_1(百度百科)

=================================================================================

 

倒排索引介绍

 

倒排索引是一种面向单词的索引机制,利用它可以提高检索时的速度。通常情况下,倒排索引结构由“词典”和“出现情况”两部分组成。对于每一个单词,都会有一 个词汇列表记录单词在所有文档中出现的位置,这些位置可以是单词的位置(文本中的第几个单词)也可以是字符的位置(文本中的第几个字符)。

如果使用正常的索引结构,建立的是“文档到单词”的映射关系,在使用倒排索引技术后,建立的是“单词到文档”的映射关系,那么这两种映射关系到底有何不同呢?它们各自有什么有缺点呢?下面举例向大家说明这两种映射关系的差别。

假设现在有两篇文档:文档A和文档B。文档A的内容是:This is a dog。文档B的内容是:The dog is a kind of animal。

下面对这两个文档建立索引结构。

注意:在这里只是为了介绍倒排索引与一般索引的区别,真正的索引格式会比此处介绍得复杂很多。

如果建立的是一般的索引结构,那么会有如表8-1所示的关系。

从中可以看出,一般的索引结构是以文档为标准建立索引结构的,即它记录的是一篇文档中所有单词出现的情况。比如在文档B中dog,kind,animal均出现了一次。然而,用户在进行检索时,都是输入关键字进行查询,如果使用这种索引结构,在查询某一关键字时往往需要遍历所有的索引,当索引量非常大时,效率会成为一个很大的问题。

倒排索引恰恰解决了这个问题,它是以关键字为标准建立索引的。

从表8-2可以看出,倒排索引是以单词为标准建立的索引结构,它描述了一个单词在所有文档中的出现情况,比如说单词“dog”在文档A和文档B中分别出现了一次,而单词“kind”只在文档B中出现了一次。

通过比较可以发现,一般的索引结构建立的是一种“文档到单词”的映射关系,而倒排索引建立的则是一种“单词到文档”的映射关系。因为在日常的检索中,通常都是按照关键字进行搜索的,所以,倒排索引可以更好地适合这种检索机制的需要。这也是倒排索引如今被大规模使用的原因

 

 

转载声明: 本文转自 http://hi.baidu.com/nullzone/blog/item/b0a432df4a823a1149540327.html(百度Hi)

=================================================================================

 

倒排索引,反向索引

 

倒排索引(英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。

有两种不同的反向索引形式:
一条记录的水平反向索引(或者反向档案索引)包含每个引用单词的文档的列表。
一个单词的水平反向索引(或者完全反向索引)又包含每个单词在一个文档中的位置。

后者的形式提供了更多的兼容性(比如短语搜索),但是需要更多的时间和空间来创建。

例子

以英文为例,下面是要被索引的文本:
T0 = "it is what it is" 
T1 = "what is it" 
T2 = "it is a banana" 

我们就能得到下面的反向文件索引:
 "a":      {2}
 "banana": {2}
 "is":     {0, 1, 2}
 "it":     {0, 1, 2}
 "what":   {0, 1}

检索的条件"what", "is" 和 "it" 将对应这个集合:。

对相同的文字,我们得到后面这些完全反向索引,有文档数量和当前查询的单词结果组成的的成对数据。 同样,文档数量和当前查询的单词结果都从零开始。所以,"banana": {(2, 3)} 就是说 "banana"在第三个文档里 (T2),而且在第三个文档的位置是第四个单词(地址为 3)。
"a":      {(2, 2)}
"banana": {(2, 3)}
"is":     {(0, 1), (0, 4), (1, 1), (2, 1)}
"it":     {(0, 0), (0, 3), (1, 2), (2, 0)} 
"what":   {(0, 2), (1, 0)}

如果我们执行短语搜索"what is it" 我们得到这个短语的全部单词各自的结果所在文档为文档0和文档1。但是这个短语检索的连续的条件仅仅在文档1得到。

 

转载声明: 本文转自http://seraph115.javaeye.com/blog/378879 (JavaEye博客)

=================================================================================

 

关于倒排索引、倒排表

 

在搜索引擎实际的应用之中,有时需要按照关键字的某些值查找记录,所以我们是按照关键字建立索引,这个索引我们就称之为——倒排索引,而带有倒排索引的文件我们又称作——倒排索引文件,也可以叫它为——倒排文件,来实现快速的检索与高速的效率。

倒排文件:用记录的非主属性值(也叫副键)来查找记录而组织的文件叫倒排文件,即次索引。

倒排文件中包括了所有副键值,并列出了与之有关的所有记录主键值,主要用于复杂查询。

用记录的非主属性值(也叫副键)来查找记录而组织的文件叫倒排文件,即次索引。

倒排文件中包括了所有副键值,并列出了与之有关的所有记录主键值,主要用于复杂查询。

其主要优点是:

在处理复杂的多关键字查询时,可在倒排表中先完成查询的交、并等逻辑运算,得到结果后再对记录进行存取。

这样不必对每个记录随机存取,把对记录的查询转换为地址集合的运算,从而提高查找速度!

 

转载声明: 本文转自http://blog.sina.com.cn/s/blog_465f50b90100fqko.html (新浪博客)

=================================================================================

 

分享到:
评论

相关推荐

    算法-理论基础- 索引- 倒排索引(包含源程序).rar

    在这个压缩包中,"算法-理论基础- 索引- 倒排索引(包含源程序).pdf" 文件很可能是对倒排索引的深入讲解,可能包含了理论介绍、实现细节以及实际的源代码示例。 倒排索引的基本思想是将文档集合中的每个单词与包含...

    c++实现倒排索引算法

    1. 内存管理:由于倒排索引可能涉及大量数据,需考虑内存限制,可能需要采用外部存储或分块处理。 2. 效率优化:为了提高搜索效率,可以使用哈希表来加速关键词查找,使用STL容器(如`std::unordered_map`)存储倒排...

    MapReduce操作实例-倒排索引.pdf

    在计算机科学领域,尤其是大数据处理和搜索引擎技术中,倒排索引(Inverted Index)是一种高效的数据结构,常用于快速定位文档中特定关键词的位置。MapReduce是Apache Hadoop框架下的并行计算模型,用于处理和生成...

    搜索引擎核心技术与算法-——-倒排索引初体验.rar

    2. 倒排索引更新:搜索引擎需要处理动态的数据,因此倒排索引必须支持在线更新,包括新文档的添加、已有文档的修改和删除。 3. 倒排索引压缩:采用更高级的压缩算法,如变长编码、前缀共享等,可以在不牺牲太多查询...

    倒排索引处理文档

    倒排索引(英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。 ...

    文本全文搜索引擎 利用倒排索引实现

    倒排索引是实现这种搜索引擎的关键技术,它极大地优化了文本匹配和搜索过程。在这个主题中,我们将深入探讨倒排索引的概念、工作原理以及在Python中的实现。 **倒排索引概念** 倒排索引(Inverted Index)是一种...

    C++倒排索引

    倒排索引是一种高效的信息检索方法,常用于搜索引擎和文本处理系统中,它允许我们快速找到包含特定词汇的所有文档。在C++中实现倒排索引可以帮助我们理解其背后的算法和数据结构。在这个项目中,我们将关注如何读入...

    基于HADOOP的倒排索引实现

    此外,Hadoop的可扩展性使得它能够处理非常大的数据集,即使单个节点的内存不足以容纳整个倒排索引,也能通过分布式存储和计算来应对。这对于大规模的搜索引擎和数据分析至关重要。 总的来说,基于Hadoop的倒排索引...

    搜索引擎-倒排索引基础知识

    搜索引擎的索引是实现“单词-文档矩阵”的具体数据结构,倒排索引是实现单词到文档映射关系的最佳实现方式。“倒排索引”是一种特殊的索引结构,它可以根据单词快速获取包含这个单词的文档列表。下面是搜索引擎-倒排...

    c++构建倒排索引并搜索

    在计算机科学领域,倒排索引(Inverted Index)是一种高效的数据结构,常用于全文搜索引擎中,以便快速地找出文档中包含特定词汇的所有位置。在这个C++项目中,我们将探讨如何构建倒排索引以及如何进行搜索操作。 ...

    实体识别与倒排索引优化实验数据

    在处理"Amazon_small.csv"和"Google_small.csv"这类大量文本数据时,构建倒排索引能显著提高搜索效率。例如,当用户搜索特定商品时,通过倒排索引可以直接找到包含该搜索词的商品记录,而无需遍历所有记录。 实验...

    倒排索引倒排索引.docx

    倒排索引是一种数据结构,用于快速检索包含特定单词的文档。它是搜索引擎的核心技术之一,对搜索引擎的性能和效率产生了重要的影响。本文将详细介绍倒排索引的概念、特点和实现方式。 什么是倒排索引? 倒排索引是...

    Hadoop倒排索引程序

    总的来说,“Hadoop倒排索引程序”是Hadoop并行框架在文本处理和信息检索领域的成功实践,它展示了大数据处理的强大潜力,同时也为开发人员提供了构建高效索引系统的模板。对于学习Hadoop和大数据处理的开发者来说,...

    倒排索引设计

    总之,倒排索引设计是IT领域内一个深奥而精细的主题,它不仅要求对数据结构和算法有深刻的理解,还需要不断根据应用场景和技术进展进行优化创新。通过深入研究倒排索引的设计原理和实现细节,我们可以更好地理解和...

    倒排索引java实现

    倒排索引是一种高效的数据结构,常用于全文搜索引擎中,以快速定位文档中包含特定关键词的位置。在Java中实现倒排索引,可以利用标准库或者其他第三方库,如Apache Lucene,但这里我们主要讨论基于自定义代码的实现...

    倒排索引如何建立 以及如何压缩

    建立倒排索引首先需要收集所有文档并进行处理,包括分词(Tokenization)、去除停用词(Stop words)、词干提取(Stemming)等预处理步骤。预处理后的词项(Term)是构建倒排索引的基础。然后,为每个词项创建一个倒...

    北京大学网络大数据管理与应用作业:倒排索引

    **倒排索引详解** 倒排索引是信息检索领域中的一个重要概念,它是一种用于快速查找数据结构,常被用于全文搜索引擎中。在倒排索引中,每个文档中的单词都会对应一个列表,这个列表包含了所有包含该单词的文档的标识...

Global site tag (gtag.js) - Google Analytics