反向索引（Inverted Index）

zhangyu8374

浏览: 95379 次
性别:
来自: 北京

最近访客更多访客>>

BluemoonCity

unrealzhou

愤怒的小鸡

1qase4

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

2007-06 ( 24)
更多存档...

博客分类：

搜索

反向索引是一种索引结构，它存储了单词与单词自身在一个或多个文档中所在位置之间的映射。反向索引通常利用关联数组实现。它拥有两种表现形式：

inverted file index，其表现形式为 {单词，单词所在文档的ID}
full inverted index，其表现形式为{单词，（单词所在文档的ID，在具体文档中的位置）}

具体实例，假设有三个文档：

$T 0 =$ "it is what it is"
$T 1 =$ "what is it"
$T 2 =$ "it is a banana"

那么，采用inverted file index方式，结果是：
"a": {2}
"banana": {2}
"is": {0, 1, 2}
"it": {0, 1, 2}
"what": {0, 1}
采用full inverted index方式，结果是：

"a":      {(2, 2)}
"banana": {(2, 3)}
"is":     {(0, 1), (0, 4), (1, 1), (2, 1)}
"it":     {(0, 0), (0, 3), (1, 2), (2, 0)}
"what":   {(0, 2), (1, 0)}

分享到：

Hadoop系列－IPC模型 | 用C语言实现函数语言中的Map和Reduce操作

2007-06-02 06:03
浏览 14532
评论(2)
查看更多

2 楼 ethan_shan 2015-11-27

1 楼 337240552 2013-03-19

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

InvertedIndex:Java反向索引的实现: 我在这里使用Java实现了反向索引。它支持来自文件的输入和简单的查询搜索。用法： 1）将要索引的文档重命名为filex.txt，其中x为No。文件。确保从0开始。 2）将文件复制到.java文件所在的目录中。否则，请确保...

Hadoop 下单词反向索引程序实验报告.pdf: 实验代码包括了MapReduce作业的实现，如`Map/ReduceInvertedIndex`，以及自定义的输入格式`TokenInputFormat`，键值对生成器`ValuePair.java`，以及反向索引类`InvertedIndex.java`。 4. **实验数据**：实验数据是...

倒排索引处理文档: 倒排索引（英语：Inverted index），也常被称为反向索引、置入档案或反向档案，是一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。 ...

基于Cassandra的可扩展分布式反向索引的构建.pdf: 文章中提到的分布式反向索引（Distributed Inverted Index, DII）是指在分布式系统中构建的反向索引，它和传统的关系型数据库中的反向索引不同，能够应对大规模数据和高并发请求。在分布式环境下，数据会被分散存储...

python 实现倒排索引的方法: 倒排索引（Inverted Index），又称为反向索引或逆向索引，是一种用于快速查询文档集合中包含特定词语的文档的技术。传统的正向索引是根据文档来建立索引，而倒排索引则是根据词汇来建立索引，每个词条指向包含该词条...

Visualized-InvertedIndex:可视化的倒排索引: 倒排索引该项目是为反向索引实现的，它将从目录中读取所有.txt文件，并按字母顺序列出所有单词，以提供每个文件中每个单词的位置和外观。输入参数在JSON文件中传递，该文件包含用于从每个文件中提取单词的定界符，...

InvertedIndices.jl:一种简单的索引类型，允许倒置选择: InvertedIndex行为类似于其反向索引的一维集合。如果排除的索引跨越多个维度（例如多维逻辑掩码或CartesianIndex ），则反向索引将类似地跨越多个维度。 julia > using InvertedIndiceshelp? > ...

Inverted-Index: 对于此项目，您将编写一个Java程序，该程序递归处理目录中的所有文本文件并构建一个反向索引，以存储从单词到找到这些单词的文档（以及这些文档中的位置）的映射。例如，假设我们在反向索引中存储了以下映射： ...

Inverted-Indexing-for-unstructured-data:“针对Data Lake环境的非结构化数据的优化索引”是一个旨在处理Data Lake环境中的非结构化数据的索引池的项目。 Data Lake是一个存储库，它以其本机形式存储大量数据。数据湖的想法是拥有一个企业中所有数据的单一仓库，范围从原始数据到转换后的数据，可用于各种目的，包括可视化，机器学习，分析和报告。该项目首先使用包含本机格式数据的非结构化数据集，然后通过使用哈希的反向索引技术对其进行索引，以便在速度和时间上获得: 非结构化数据的反向索引 “针对Data Lake环境的非结构化数据的优化索引”是一个旨在处理Data Lake环境中的非结构化数据的索引池的项目。 Data Lake是一个存储库，它以其本机形式存储大量数据。数据湖的想法是拥有一...

程序设计与算法基础3优秀文档.ppt: 四、反向索引（Inverted Index）反向索引是一种索引结构，用于快速检索数据。反向索引将关键词与文档ID关联起来，能够快速确定哪些文档包含特定的关键词。五、搜索问题（Searching Problem）搜索问题是指在...

Python倒排索引之查找包含某主题或单词的文件: 倒排索引（英语：Inverted index），也常被称为反向索引、置入档案或反向档案，是一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。这篇文章主要介绍了Python倒排索引之查找...

Inverted-Index-Using-a-Hadoop-Cluster: `Inverted-Index-Using-a-Hadoop-Cluster-master`这个压缩包文件很可能是项目源代码，包含了实现上述逻辑的所有Java类和其他资源。通过解压并编译运行这个项目，可以在实际的Hadoop集群上构建反向索引。总之，利用...

fergies-inverted-index:将JavaScript对象扔到索引处，它们将可以通过使用promise和map-reduce的属性进行检索: 这是一个反向索引库。有很多类似的东西，但这是费吉的。将JavaScript对象放在索引处，它们将可以通过使用promise和map-reduce的属性进行检索（）该库将在节点和浏览器中工作入门初始化并填充索引 import fii...

lucene索引文件格式介绍: 反向信息（Inverted Index）则提供了从词到文档的映射，即词->文档。这部分信息包括tis/tii（Term Dictionary，词典，按字典顺序排序的词），frq（频率文件，记录每个词在文档中的出现次数），prx（偏移量文件，记录...

ORACLE全文检索技术的应用研究及其优化.pdf: Oracle Text的工作原理基于反向索引（Inverted Index）。在构建索引时，它会将文档分解成一系列的关键词，并记录这些关键词出现在哪些文档中。当执行检索时，实际上是查询这个反向索引，而不是直接搜索原文档，这...

InvertedIndex:MapReduce 格式的大型文档的倒排索引。 Apache Hadoop、Java: 倒排索引，又称为反向索引，是将每个词项关联到包含该词项的所有文档的列表。在传统索引中，我们通常通过文档ID找到关键词，而在倒排索引中，我们通过关键词找到文档ID。这种索引方式非常适合于大规模文本数据的快速...

Inverted-Index-and-Trie-Structure-Example:在这个项目中，我实现了带有反向索引和特里的基本搜索引擎: TrieProject包含在Python 3.9中实现的两个python脚本。仅使用标准库。它与两个不同的命令一起工作： python prep.py 然后 python query.py“查询字符串”

文档倒排索引的MapReduce程序设计与实现: 倒排索引（Inverted Index），又称反向索引或置入档案，是一种广泛应用于全文搜索的数据结构。它主要记录了文档集合中某个单词出现的位置信息，即通过单词来索引文档。这种索引方式与传统的文档索引（正向索引）相反...

Lucene 学习总结文档: 1. 反向索引（Inverted Index）：Lucene 的基本索引结构是反向索引。在反向索引中，每个词或短语对应一个文档列表，记录了包含这个词或短语的所有文档。当用户输入查询时，Lucene 能快速定位到包含查询词的文档，...

全文检索学习笔记: 2. **反向索引表（Inverted Index）**：对于每个字典中的词汇，反向索引表记录了这个词出现在哪些文档中，以及在文档中的位置信息。 **索引创建过程**： 1. **分词（Tokenization）**：将源文档分解成独立的词语，...

最近访客 更多访客>>