倒排索引

fairy_xzc

浏览: 366739 次
性别:
来自: 北京

最近访客更多访客>>

huan0727

漂移361john

scj2cy

smallbug2010

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Algorithm

原创转载请注明出处：http://agilestyle.iteye.com/blog/2358625

倒排索引

倒排索引（英语：Inverted index），也常被称为反向索引、置入档案或反向档案，是一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。

有两种不同的反向索引形式：

一条记录的水平反向索引（或者反向档案索引）包含每个引用单词的文档的列表。
一个单词的水平反向索引（或者完全反向索引）又包含每个单词在一个文档中的位置。

后者的形式提供了更多的兼容性（比如短语搜索），但是需要更多的时间和空间来创建。

以英文为例，下面是要被索引的文本：

T0 = "it is what it is"  
T1 = "what is it"  
T2 = "it is a banana"

我们就能得到下面的反向文件索引：

 "a":      {2}
 "banana": {2}
 "is":     {0, 1, 2}
 "it":     {0, 1, 2}
 "what":   {0, 1}

对相同的文字，我们得到后面这些完全反向索引，有文档数量和当前查询的单词结果组成的的成对数据。同样，文档数量和当前查询的单词结果都从零开始。所以，"banana": {(2, 3)} 就是说 "banana"在第三个文档里 (T2)，而且在第三个文档的位置是第四个单词(地址为 3)

"a":      {(2, 2)}
"banana": {(2, 3)}
"is":     {(0, 1), (0, 4), (1, 1), (2, 1)}
"it":     {(0, 0), (0, 3), (1, 2), (2, 0)} 
"what":   {(0, 2), (1, 0)}

图例

文档集合

简单的倒排索引

带有单词频率信息的倒排索引

带有单词频率、文档频率和出现位置信息的倒排索引

Reference

https://en.wikipedia.org/wiki/Inverted_index

查看图片附件

分享到：

Trie树 | Java Object 九大方法

2017-02-23 11:53
浏览 486
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

倒排索引

倒排索引

图例

Reference

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

倒排索引

倒排索引

图例

Reference

评论

发表评论

相关推荐

不可逆加密算法

检索出文本中出现次数最多的单词

Find the 'closest' value in a BST with a given value M

Print all possible combinations of coins per change amount

Print all pairs of values a sorted array that sum up to a given value M

Merge Two Sorted Arrays without additional memory

Use stack (LIFO) to simulate queue (FIFO)

Print all elements at a given level in the binary tree

Verify if a tree is a binary search tree(BST)

Print all valid combinations of groups of parenthesis

Reverse a linked list

Get all subset of a set

Trie树

快速排序图例

一致性Hash

洗扑克牌（乱数排序）

AVL树，红黑树，B树，B+树，Trie树

算法复杂度速查表（转）

Binary Search

Bubble Sort

最近访客更多访客>>