pkuoliver

浏览: 19616 次
性别:
来自: 北京

最近访客更多访客>>

gongchuangsu

进击的煤球

mazhen5040

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

海量数据处理专题（八）——倒排索引(搜索引擎之基石)

博客分类：

海量数据倒排索引搜索引擎

引言：

在信息大爆炸的今天，有了搜索引擎的帮助，使得我们能够快速，便捷的找到所求。提到搜索引擎，就不得不说VSM模型，说到VSM，就不得不聊倒排索引。可以毫不夸张的讲，倒排索引是搜索引擎的基石。

VSM检索模型

VSM全称是Vector Space Model(向量空间模型)，是IR(Information Retrieval信息检索)模型中的一种，由于其简单，直观，高效，所以被广泛的应用到搜索引擎的架构中。98年的Google就是凭借这样的一个模型，开始了它的疯狂扩张之路。废话不多说，让我们来看看到底VSM是一个什么东东。

在开始之前，我默认大家对线性代数里面的向量(Vector)有一定了解的。向量是既有大小又有方向的量，通常用有向线段表示，向量有：加、减、倍数、内积、距离、模、夹角的运算。

文档(Document)：一个完整的信息单元，对应的搜索引擎系统里，就是指一个个的网页。

标引项(Term)：文档的基本构成单位，例如在英文中可以看做是一个单词，在中文中可以看作一个词语。

查询(Query)：一个用户的输入，一般由多个Term构成。

那么用一句话概况搜索引擎所做的事情就是：对于用户输入的Query，找到最相似的Document返回给用户。而这正是IR模型所解决的问题：

信息检索模型是指如何对查询和文档进行表示，然后对它们进行相似度计算的框架和方法。

举个简单的例子：

现在有两篇文章(Document)分别是 “春风来了，春天的脚步近了” 和 “春风不度玉门关”。然后输入的Query是“春风”，从直观上感觉，前者和输入的查询更相关一些，因为它包含有2个春，但这只是我们的直观感觉，如何量化呢，要知道计算机是门严谨的学科^_^。这个时候，我们前面讲的Term和VSM模型就派上用场了。

首先我们要确定向量的维数，这时候就需要一个字典库，字典库的大小，即是向量的维数。在该例中，字典为{春风,来了,春天, 的,脚步,近了,不度,玉门关} ，文档向量，查询向量如下图：

VSM模型示例

PS:为了简单起见，这里分词的粒度很大。

将Query和Document都量化为向量以后，那么就可以计算用户的查询和哪个文档相似性更大了。简单的计算结果是D1和D2同Query的内积都是1，囧。当然了，如果分词粒度再细一些，查询的结果就是另外一个样子了，因此分词的粒度也是会对查询结果（主要是召回率和准确率）造成影响的。

上述的例子是用一个很简单的例子来说明VSM模型的，计算文档相似度的时候也是采用最原始的内积的方法，并且只考虑了词频(TF)影响因子，而没有考虑反词频(IDF)，而现在比较常用的是cos夹角法，影响因子也非常多，据传Google的影响因子有100+之多。
大名鼎鼎的Lucene项目就是采用VSM模型构建的，VSM的核心公式如下（由cos夹角法演变，此处省去推导过程）

VSM模型公式

从上面的例子不难看出，如果向量的维度(对汉语来将，这个值一般在30w-45w)变大，而且文档数量(通常都是海量的)变多，那么计算一次相关性，开销是非常大的，如何解决这个问题呢？不要忘记了，我们这节的主题就是倒排索引，主角终于粉墨登场了！！！

倒排索引

倒排索引非常类似我们前面提到的Hash结构。以下内容来自维基百科：

倒排索引（英语：Inverted index），也常被称为反向索引、置入档案或反向档案，是一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。

有两种不同的反向索引形式：

一条记录的水平反向索引（或者反向档案索引）包含每个引用单词的文档的列表。

一个单词的水平反向索引（或者完全反向索引）又包含每个单词在一个文档中的位置。

后者的形式提供了更多的兼容性（比如短语搜索），但是需要更多的时间和空间来创建。

由上面的定义可以知道，一个倒排索引包含一个字典的索引和所有词的列表。其中字典索引中包含了所有的Term(通俗理解为文档中的词)，索引后面跟的列表则保存该词的信息(出现的文档号，甚至包含在每个文档中的位置信息)。下面我们还采用上面的方法举一个简单的例子来说明倒排索引。

例如现在我们要对三篇文档建立索引(实际应用中，文档的数量是海量的)：

文档1(D1)：中国移动互联网发展迅速

文档2(D2)：移动互联网未来的潜力巨大

文档3(D3)：中华民族是个勤劳的民族

那么文档中的词典集合为：{中国，移动，互联网，发展，迅速，未来，的，潜力，巨大，中华，民族，是，个，勤劳}

建好的索引如下图：

倒排索引

在上面的索引中，存储了两个信息，文档号和出现的次数。建立好索引以后，我们就可以开始查询了。例如现在有一个Query是”中国移动”。首先分词得到Term集合{中国，移动}，查倒排索引，分别计算query和d1,d2,d3的距离。有没有发现，倒排表建立好以后，就不需要在检索整个文档库，而是直接从字典集合中找到“中国”和“移动”，然后遍历后面的列表直接计算。

对倒排索引结构我们已经有了初步的了解，但在实际应用中还有些需要解决的问题(主要是由海量数据引起的)。笔者列举一些问题，并给出相应的解决方案，抛砖以引玉，希望大家可以展开讨论：

1.左侧的索引表如何建立?怎么做才能最高效？

可能有人不假思索回答：左侧的索引当然要采取hash结构啊，这样可以快速的定位到字典项。但是这样问题又来了，hash函数如何选取呢？而且hash是有碰撞的，但是倒排表似乎又是不允许碰撞的存在的。事实上，虽然倒排表和hash异常的相思，但是两者还是有很大区别的，其实在这里我们可以采用前面提到的Bitmap的思想，每个Term(单词)对应一个位置(当然了，这里不是一个比特位)，而且是一一对应的。如何能够做到呢，一般在文字处理中，有很多的编码，汉字中的GBK编码基本上就可以包含所有用到的汉字，每个汉字的GBK编码是确定的，因此一个Term的”ID”也就确定了，从而可以做到快速定位。注：得到一个汉字的GBK号是非常快的过程，可以理解为O(1)的时间复杂度。

2.如何快速的添加删除更新索引？

有经验的码农都知道，一般在系统的“做加法”的代价比“做减法”的代价要低很多，在搜索引擎中中也不例外。因此，在倒排表中，遇到要删除一个文档，其实不是真正的删除，而是将其标记删除。这样一个减法操作的代价就比较小了。

3.那么多的海量文档，如果存储呢？有么有什么备份策略呢？

当然了，一台机器是存储不下的，分布式存储是采取的。一般的备份保存3份就足够了。

好了，倒排索引终于完工了，不足的地方请指正。谢谢

如果有有兴趣继续讨论可以在此跟帖，或者到我的博客上讨论：http://blog.redfox66.com/post/2011/09/25/mass-data-topic-8-inverted-index.aspx

分享到：

数学牛人建立模型找到丢失丢失的手机和公交 ... | 海量数据处理专题（二）——Bloom Filter

2011-09-27 10:10
浏览 1945
评论(0)
论坛回复 / 浏览 (7 / 12667)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

hadoop集群: 在实际应用中，MapReduce模型广泛应用于各种场景，例如搜索引擎的倒排索引构建、网页链接分析、日志数据分析等。由于Map和Reduce的并行性质，这些任务可以在由普通计算机组成的超大规模集群上高效地运行，即使面对PB...

Matlab基础与应用获奖课件.pptx: Matlab基础与应用获奖课件.pptx

铁路订票平台 2025免费JAVA微信小程序毕设: 2025免费微信小程序毕业设计成品，包括源码+数据库+往届论文资料，附带启动教程和安装包。启动教程：https://www.bilibili.com/video/BV1BfB2YYEnS 讲解视频：https://www.bilibili.com/video/BV1BVKMeZEYr 技术栈：Uniapp+Vue.js+SpringBoot+MySQL。开发工具：Idea+VSCode+微信开发者工具。

深部应力环境模拟中pfc-flac耦合代码的应用与实现: 内容概要：本文详细介绍了pfc-flac耦合代码在深部应力环境中模拟巷道和煤层开挖的应用。pfc-flac耦合代码将颗粒流(PFC)和有限差分法(FLAC)相结合，分别用于微观颗粒间相互作用和宏观应力应变问题的处理。文中展示了具体的Python代码片段，解释了如何生成颗粒模型、定义接触模型、创建模拟区域、设置初始应力状态以及实现数据交换。此外，还讨论了耦合代码在处理煤岩损伤演化、开挖步进控制等方面的优势，并提供了实际应用中的优化建议和技术难点。适合人群：从事岩土工程、矿山开采等领域研究的技术人员和科研工作者。使用场景及目标：①模拟深部应力环境下的巷道和煤层开挖过程；②研究岩体应力重分布及其对开挖的影响；③提高模拟精度，更好地预测岩层破坏形态。其他说明：尽管pfc-flac耦合代码在深部应力环境模拟中有显著优势，但也存在一些挑战，如内存消耗较大等问题。文中提到了一些优化措施，如调整参数以节省内存开销等。

电力系统基于谐波线性化的阻抗建模与稳定性分析：考虑锁相环影响的逆变器输出阻抗模型设计及应用: 内容概要：文章详细阐述了阻抗建模过程，分为不考虑锁相环影响和考虑锁相环影响两种情况。不考虑锁相环时，基于电路拓扑结构列出方程，通过谐波线性化方法建模，并将电流基频分量及其正负序谐波分量进行傅里叶变换至频域，再变换至dq坐标系下，最终求得正负序输出阻抗。考虑锁相环影响时，重点在于锁相环对abc坐标系向dq坐标系转换的作用，以及谐波分量对锁相环角度的影响，通过引入传递函数，推导出正负序谐波电压分量到输出扰动角的传递函数，进而求得更精确的输出阻抗。此外，还介绍了稳定性分析，通过诺顿等效和戴维南等效，依据奈奎斯特稳定判据确保系统稳定。适合人群：电力电子、自动化等相关专业的研究人员和技术人员，尤其是对电力系统建模与稳定性分析感兴趣的读者。使用场景及目标：①用于研究并网逆变器的阻抗特性；②提高对锁相环在电力系统中作用的理解；③为电力系统的稳定性分析提供理论支持。阅读建议：本文涉及较多数学公式和专业术语，建议读者先掌握基本的电力系统理论和控制理论基础知识，结合相关文献深入理解公式推导过程。

SpringBoot的租房系统，你看这篇就够了(附源码）: SpringBoot的租房系统，你看这篇就够了(附源码）

MapGIS地质图件一般统一规定.doc: MapGIS地质图件一般统一规定.doc

MATLAB/Simulink中800V直流母线311V交流输出的VSG虚拟同步发电机控制详解: 内容概要：本文详细介绍了如何在MATLAB/Simulink中搭建和调试800V直流母线、311V交流输出的虚拟同步发电机（VSG）控制系统。首先，文章解释了VSG的基本概念及其重要性，接着深入探讨了功率计算模块、机械方程模块和电压环控制的具体实现方法。文中提供了多个关键公式的代码实现，并强调了调试过程中需要注意的关键参数和常见错误。此外，还分享了一些实践经验，如避免过度调制、设置合理的虚拟惯量和阻尼系数、以及进行负载突变测试的方法。适合人群：从事电力电子、电力系统仿真研究的技术人员，尤其是有一定MATLAB/Simulink基础的研发人员。使用场景及目标：适用于需要理解和实现虚拟同步发电机控制系统的科研项目和技术开发。目标是帮助读者掌握VSG的工作原理和实现方法，提高仿真和实际应用的成功率。其他说明：文章不仅提供了详细的理论推导和代码实现，还结合了大量的实践经验，使读者能够更好地应对实际工程中的挑战。同时，提醒读者在实际应用前进行全面的极端工况测试，确保系统的稳定性和可靠性。

智慧校园管理系统 2025免费JAVA微信小程序毕设: 2025免费微信小程序毕业设计成品，包括源码+数据库+往届论文资料，附带启动教程和安装包。启动教程：https://www.bilibili.com/video/BV1BfB2YYEnS 讲解视频：https://www.bilibili.com/video/BV1BVKMeZEYr 技术栈：Uniapp+Vue.js+SpringBoot+MySQL。开发工具：Idea+VSCode+微信开发者工具。

PLC关键工程师现场调试步骤.doc: PLC关键工程师现场调试步骤.doc

PCCAN接口解决专题方案.doc: PCCAN接口解决专题方案.doc

电力传输领域中110kV三相高压电缆对地面人体电磁场影响的COMSOL仿真分析: 内容概要：本文详细介绍了如何使用COMSOL软件对110kV三相高压电缆周围的电磁场进行建模和分析，探讨其对人体的影响。主要内容包括：建立电缆和人体的几何模型，选择适当的物理场模块并设置相关参数，进行精细的网格划分，以及最终求解和结果分析。文中不仅提供了具体的MATLAB和Java代码片段，还讨论了实际工程中需要注意的关键细节和技术难点，如电流密度、磁场强度的计算，网格划分策略，求解器设置等。通过对电场和磁场分布的深入分析，得出电缆周围电磁场对人体的具体影响及其安全性评价。适合人群：从事电力系统设计、电磁兼容性研究的专业人士，以及对电磁场仿真感兴趣的科研工作者。使用场景及目标：适用于电力设施建设前期的电磁环境评估，帮助工程师优化电缆布局，确保电磁辐射在安全标准范围内，保障公共健康。此外，也可作为教学案例，帮助学生掌握电磁场仿真技术和COMSOL软件的应用。其他说明：文章强调了实际工程应用中的注意事项，如材料参数的选择、网格划分的合理性、求解器配置等，这些都是确保仿真结果准确性的重要因素。同时，通过具体实例展示了如何利用COMSOL进行复杂电磁场问题的研究，为相关领域的进一步探索提供了宝贵的经验和参考。

【数学建模竞赛】“妈妈杯”全国大学生数学建模竞赛：参赛指南与备赛经验分享: 内容概要：“妈妈杯”是全国大学生数学建模竞赛的俗称，由中国工业与应用数学学会（CSIAM）主办。该竞赛面向全国普通高校全日制在校本科生和研究生，通常于每年11月左右举行。比赛形式为团队赛，每队3人，在规定时间内完成数学建模题目并提交论文。竞赛题目涉及实际问题，要求参赛者运用数学建模、计算机编程和论文写作能力解决问题。文中详细介绍了比赛的报名方式、备赛经验和往届题目。报名时间为每年10月左右，费用约为200~400元/队。备赛建议包括团队分工、核心技能提升、赛前模拟训练等方面。往届题目涵盖社会热点问题，如城市垃圾分类、新能源汽车充电桩布局等。适合人群：全国普通高校全日制在校本科生和研究生，尤其是对数学建模感兴趣的学生。使用场景及目标：①了解“妈妈杯”全国大学生数学建模竞赛的具体情况，包括主办单位、参赛对象、比赛时间和形式；②掌握比赛的报名方式、费用和官方信息渠道；③学习备赛经验和技巧，如团队分工、核心技能提升、赛前模拟训练；④参考往届题目和社会热点问题，为参赛做好充分准备。阅读建议：此资源详细介绍了“妈妈杯”全国大学生数学建模竞赛的各个方面，从比赛基本信息到备赛经验都有覆盖。建议参赛学生仔细阅读，结合自身情况进行团队分工和技能提升，并关注官方渠道以获取最新信息。

Linux操作系统试验基础指导书.doc: Linux操作系统试验基础指导书.doc

永磁同步电机非奇异快速终端滑模速度控制(GFTSMC)仿真及其应用: 内容概要：本文详细介绍了永磁同步电机(PMSM)采用非奇异快速终端滑模控制(GFTSMC)进行速度控制的方法和仿真结果。首先解释了传统PI调节器和滑模控制存在的问题，特别是抖振和收敛速度慢。接着展示了GFTSMC的核心设计思路，包括滑模面设计、控制律实现以及参数选择。文中提供了具体的MATLAB代码片段，用于实现滑模面和控制律，并讨论了如何通过调整参数来优化性能。仿真结果显示，在负载突变情况下，GFTSMC相比传统方法表现出更快的响应时间和更低的抖振水平。此外，作者还分享了一些调试经验和注意事项，如使用sigmoid函数减少抖振、设置合理的参数范围等。适合人群：从事电机控制系统研究与开发的技术人员，尤其是对永磁同步电机有深入了解并希望提高其抗扰能力和响应速度的研究者。使用场景及目标：适用于需要高性能速度控制的应用场合，如无人机电调、电动汽车驱动系统等。目标是实现快速响应的同时确保系统的稳定性和平滑性。其他说明：文中提到的实际案例基于3kW永磁同步电机的实验数据，强调了理论与实践相结合的重要性。同时指出，尽管GFTSMC表现优异，但在实际应用中仍需考虑电机参数辨识的准确性，以避免因参数失配导致的性能下降。

基于COMSOL的煤矿瓦斯抽采数值模拟：变渗透率模型与煤体变形耦合效应研究: 内容概要：本文详细介绍了利用COMSOL进行煤矿瓦斯抽采数值模拟的方法，特别是变渗透率模型与煤体变形之间的耦合效应。文章首先解释了如何在COMSOL中建立固体力学和达西流的耦合模型，通过引入动态渗透率公式（如指数型变渗透率模型），将煤体变形与瓦斯流动紧密联系在一起。接着讨论了边界条件的设置技巧，强调了钻孔周围网格加密的重要性以及求解器配置的优化方法。此外，文中还分享了一些实用的操作技巧，如使用探针功能实时监测压力变化，确保模拟结果的准确性。最后，作者通过实际案例展示了模型的有效性和应用价值，指出该模型能够更好地预测瓦斯流动路径和抽采效果。适合人群：从事煤矿开采、瓦斯治理及相关领域的科研人员和技术工程师。使用场景及目标：适用于需要精确模拟煤矿瓦斯抽采过程的研究项目，旨在提高抽采效率并保障矿井安全。通过该模型，研究人员可以深入理解煤体变形与瓦斯流动之间的复杂关系，从而优化抽采工艺。其他说明：文章不仅提供了详细的建模步骤和技术细节，还分享了许多实践经验，帮助读者避免常见错误，提升模拟的成功率。同时，作者鼓励进一步探索多物理场耦合的可能性，如加入温度场的影响，以获得更加全面的理解。

自动控制领域中直流电机模糊PID控制算法的Matlab实现: 内容概要：本文详细介绍了直流电机的传递函数及其在Matlab环境下的模糊PID控制算法实现。首先，阐述了直流电机传递函数的基本概念，描述了输入电枢电压与输出转速之间的动态关系。接着，解释了模糊控制PID算法的工作原理，包括模糊化、模糊规则制定、模糊推理与解模糊等步骤。然后，展示了具体的Matlab代码实现，涵盖了传递函数定义、模糊控制器设计、仿真过程以及绘图展示控制效果。通过对比实验数据，证明了模糊PID控制在应对负载突变时的优势。适合人群：对自动控制理论有一定了解并希望通过Matlab实现具体控制算法的研究人员和技术人员。使用场景及目标：适用于需要精确控制直流电机转速的应用场景，如工业自动化生产线、机器人控制系统等。主要目标是提高系统的鲁棒性和适应性，尤其是在面对非线性或不确定性的环境中。其他说明：文中提供的Matlab代码可以直接运行，便于读者理解和实践。同时，强调了在设计模糊控制器时需要注意的一些关键点，如隶属函数的选择和规则库的设计，确保控制效果最优。

Matlab. EW-trading-Strategy: In MATLAB, an EW (Exponentially Weighted) trading strategy involves using moving averages, a common technique for smoothing price data and identifying trends. This strategy can be implemented in MATLAB to generate buy and sell signals based on how the current price relates to the exponentially weighted moving average. Here's a breakdown of how to implement an EW trading strategy in MATLAB: 1. Data Preparation: Load historical price data: Import your financial data into MATLAB. This data should include the closing price of the asset you intend to trade. Calculate the exponentially weighted moving average (EWMA): Use the ewma function in MATLAB to calculate the EWMA. The ewma function takes the price data and a "smoothing factor" as input. The smoothing factor controls the speed at which th

【嵌入式系统】AUTOSAR操作系统任务管理机制详解：Basic与Extended任务状态及属性配置了AUTOSAR: 内容概要：本文深入探讨了AUTOSAR OS中的任务机制，详细介绍了Basic Task和Extended Task两种任务类型及其状态转换。Basic Task有Suspended、Ready、Running三种状态，Extended Task在此基础上增加了Waiting状态。文章还列举并解释了AUTOSAR OS任务的多个关键属性配置，如任务名称、激活次数限制、内存保护标识、优先级、调度模式、堆栈大小、任务类型、FPU使用、自动启动和时间保护等。这些配置项可通过Vector DaVinci Configurator工具进行设置，以满足不同的应用场景需求。; 适合人群：汽车电子软件工程师，尤其是对AUTOSAR OS有一定了解，希望深入了解任务调度机制的工程师。; 使用场景及目标：①理解Basic Task与Extended Task的区别及其状态转换机制；②掌握AUTOSAR OS任务的关键属性配置，优化任务调度和系统性能；阅读建议：本文内容较为专业，建议读者结合实际项目经验，特别是AUTOSAR OS的配置和调试经验来阅读，以便更好地理解和应用文中提到的任务机制和配置方法。

毕业设计基于Python Web的社区爱心养老管理系统（完整前后端+mysql+说明文档+LW+PPT）.zip: 前台: 首页、公共书籍、活动信息、网站公告、个人中心管理员：首页、用户、身体健康、公共书籍、借阅信息、归还信息、还书入库、图书分类、活动信息、活动报名、活动分类、系统管理等关键技术：Python、Django、Mysql、B/S 内容包含：源码+数据库+开发文档+LUN文+PPT，快速上手。标价即实价：一键购买，无需议价。技术支持：已测试可正常运行，调试问题可联系客服有偿解决。更多项目：欢迎咨询，我们将快速回复。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

海量数据处理专题（八）——倒排索引(搜索引擎之基石)

引言：

VSM检索模型

倒排索引

评论

发表评论

相关推荐

海量数据处理专题（二）——Bloom Filter

海量数据处理专题（七）——数据库索引及优化

m进制转换为n进制-任意进制转换算法（百度面试题）

一个Sqrt函数引发的血案

海量数据处理专题（一）——面试百度，腾讯，雅虎。。的利器

最近访客更多访客>>