对于搜索引擎来说,索引存放在成千上万台机器上,如何进行分布式搜索呢?
假设搜索结果是以分页的方式显示,以PageNumber代表当前页,从1开始,以PageSize代表页面大小,默认为10,以N代表搜索服务器数量。最简单的分布式搜索算法为:有一台合并服务器负责接受用户的搜索请求,然后分别向N台机器获取前PageNumber*PageSize条结果,得到的结果数为N*PageNumber*PageSize,然后把这些数据重新进行排序,根据所要显示的页面PageNumber,获取从(PageNumber - 1) * PageSize + 1开始的PageSize条结果返回给用户。
这个算法很简单,但有一些问题:
问题一:每次翻页都要向每台搜索服务器搜索一遍
通常情况下,用户在搜索内容时都是顺序翻页的,即从第一页往下顺序翻,这个算法没有设计缓存来减轻搜索服务器的压力。
问题二:越往后翻页,搜索服务器的搜索压力越大
如果我们是查第100页,即第991-1000 条记录,那么这个算法需要从N台搜索服务器分别获取1000条记录才能完成,对于每台搜索服务器的搜索压力很大。
问题三:越往后翻页,合并服务器的排序压力越大
大型搜索引擎往往是由成千上万台机器组成的分布式搜索集群,如果按这个算法来进行翻页,假设N为1000,查询第100页时,合并服务器得到的结果数为N*PageNumber*PageSize = 1000 * 100 * 10 = 1000000,要对这100万条结果进行排序,对合并服务器来说压力很大。对系统的可伸缩性是一种极大的破坏。
相关推荐
C语言实现分布式算法的知识点总结 一、分布式算法的概念 分布式算法是指在分布式系统中实现的算法,用于解决分布式系统中的问题。分布式算法可以应用于各种领域,如并行计算、 分布式数据库、云计算等。C语言是...
它会详细介绍分布式LMS的模型框架,用简单易懂的方式帮助学习者理解分布式算法的基本原理和实现步骤。 “基础”标签表明这个例子适合对自适应滤波和分布式计算有一定基础知识的学习者,它将涵盖基本的滤波理论、...
"分布式FxLMS算法的收敛特性分析" 在分布式系统中,FxLMS算法是一种常用的有源噪声控制算法。但是,对于大规模系统来说,传统的集中式FxLMS算法会面临运算量和复杂度剧增的问题。为了解决这个问题,研究者们开始...
在本篇论文中,作者胡爱娜对基于MapReduce框架的分布式EM算法进行了研究,并探讨了其在处理海量数据时的应用。该论文发表于《科技通报》2013年第六期。EM算法,即最大期望算法,在机器学习和自然语言处理领域内有着...
网络化分布式凸优化算法研究进展 分布式优化算法是指利用网络化多自主体之间的协作来求解的一类优化问题。这种算法在大规模数值计算、机器学习、资源分配、传感器网络等方面具有重要的研究意义和应用价值。 分布式...
为了解决该问题,我们提出了基于Spark云计算模型的分布式遗传算法,该算法可以快速搜索solution,且具有高精度和良好的线性加速比。 在实验中,我们以一个典型的复杂配水管网为对象,结果表明,所提出的算法不仅...
《可扩展机器学习的并行与分布式优化算法综述》这篇论文主要探讨了在大数据环境下,如何通过并行和分布式优化算法提升机器学习的效率。机器学习问题常常转化为寻找目标函数的最佳参数,优化算法在此过程中起到关键...
本文研究的是如何利用Spark MLlib实现分布式学习算法,尤其是在处理电子商务服务中海量用户数据的场景下,对比传统的单机算法,Spark MLlib的分布式学习算法在性能上具有明显的优势。 在研究的背景下,由于电子商务...
云计算的崛起进一步推动了分布式并行计算模式的发展,新型计算模式如云计算,需要高效能的分布式并行算法来有效利用分布式环境下的处理机资源,以提升分布式系统的整体性能。 大数据分析在分布式并行算法中的应用,...
基于分布式PageRank算法的可疑目标挖掘方法应运而生,其核心在于利用分布式计算资源和PageRank算法的链接分析原理,对大量的URL进行可疑目标筛选。 首先,PageRank算法是Google早期用来评定网页重要性的一种算法。...
分布式估计算法的优势在于能够搜索比传统遗传算法更广阔的解空间,提升算法跳出局部最优解的能力,从而找到全局最优解。 文章编号、作者信息、中图分类号、文献标识码、doi等信息表明了文档的学术性质及其发表于...
光纤布拉格光栅传感网络是一种在光通信领域内具有重要地位的传感技术,它利用特定的光纤布拉格光栅对特定...同时,该技术的发展也对分布式算法在光通信、传感器网络以及其他信息光学领域的应用提出了新的挑战和机遇。
分布式算法是计算机科学中的一个重要领域,它涉及到多台计算机如何协同工作以解决复杂问题。《分布式算法导论(原书第2版)》由Gerard Tel撰写,这是一本深入探讨分布式算法设计与分析的经典著作,对网络开发具有很...
分布式优化算法是现代信息处理、网络化系统设计、大规模机器学习和自动化控制等领域的核心技术。随着技术的发展,分布式系统在智能体间需要相互协作来共同解决优化问题,这通常是在一个具有多智能体网络的环境中进行...
根据提供的文件信息,下面是关于“基于能量异构的WSN分布式路由算法”的知识点: 1. 无线传感器网络(WSN)研究背景 无线传感器网络是由众多传感器节点构成的,用以监测和收集环境信息的无线网络。早期的无线传感器...
因此,文中提出了运用分布式搜索算法来求解线性规划模型,并通过树型结构表示求解过程,利用分布式搜索算法进行全局搜索。该算法在搜索过程中并行搜集信息并进行处理,提高了整体效率。仿真数值实例证明了分布式搜索...
具体而言,本研究的主要贡献在于两个方面:首先,提出了一种可扩展的分布式算法封装框架,该框架能够将现有分散的机器学习算法进行统一封装,简化使用方法,并提高模型的复用性,减少资源冗余;其次,通过将算法优化...
分布式网络算法是计算机网络领域的一个重要分支,它主要研究如何在分布式系统中实现网络节点间的信息交换、决策协调以及服务的高效运作。本文所提到的“分布式网络算法”特指“线性高阶分布式平均一致性算法(Linear...
它试图使算法显式和数据结构透明。它与Pythessing和Scoop.deap等平行机制的完美和谐有效,包括以下特征:。Python社区关注PEP 438的接受,我们已经移动了Deap的Pypi源版本。您可以找到最新的发布:...
### 分布式算法知识点概述 #### 一、分布式算法概览 在《分布式算法》这本书中,作者Rachid Guerraoui与Luis Rodrigues全面介绍了分布式算法的基础知识及其应用场景。分布式算法研究的是如何使多台计算机(或多个...