`
liuxinglanyue
  • 浏览: 564919 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

Google新一代实时搜索系统的核心机制

阅读更多

 

转自:人云亦云

最近,Google发布一篇关于其新一代实时搜索系统核心机制的论文《Large-scale Incremental Processing Using Distributed Transactions and Notifications》,在这篇论文中介绍名为“Percolator”的一个基于BigTable的系统,在功能上其非常类似传统数据库的触发器(Trigger),但是在伸缩性方面有其独到的设计,下面是其摘要、下载地址和相关文章等。

摘要

Updating an index of the web as documents are crawled requires continuously transforming a large repository of existing documents as new documents arrive. This task is one example of a class of data processing tasks that transform a large repository of data via small, independent mutations. These tasks lie in a gap between the capabilities of existing infrastructure. Databases do not meet the storage or throughput requirements of these tasks: Google’s indexing system stores tens of petabytes of data and processes billions of updates per day on thousands of machines. MapReduce and other batch-processing systems cannot process small updates individually as they rely on creating large batches for efficiency.

We have built Percolator, a system for incrementally processing updates to a large data set, and deployed it to create the Google web search index. By replacing a batch-based indexing system with an indexing system based on incremental processing using Percolator, we process the same number of documents per day, while reducing the average age of documents in Google search results by 50%.

下载地址 (liuxinglanyue注:墙)

相关文章

Google’s Colossus Makes Search Real-Time By Dumping MapReduce

 

分享到:
评论

相关推荐

    基于Ajax技术Web实时监控系统.pdf

    为解决这些问题,本文介绍了一种基于Ajax技术的新一代Web实时监控系统。 #### Ajax技术及其原理 Ajax(Asynchronous JavaScript and XML)是一种允许网页部分刷新的技术,通过与服务器进行异步通信来更新数据,而...

    新一代微服务架构1

    总的来说,新一代微服务架构利用服务网格实现了更高效、安全的服务间通信,提高了系统的可扩展性和可靠性,成为现代云原生应用的关键组件。随着技术的不断成熟,服务网格将继续在构建分布式系统中发挥重要作用。

    云计算核心技术剖析

    资源名称:云计算核心技术剖析内容简介:云计算是新一代IT计算模式,它运用先进的分布式计算及存储架构为用户提供方便的体验并降低使用成本。本书首先介绍了云计算理论方面的知识,接着剖析了多个顶尖云计算产品...

    Go-Duplicacy:新一代云备份工具

    《Go-Duplicacy:新一代云备份工具的深度解析》 在现代数字时代,数据安全的重要性不言而喻,而云备份则是确保数据安全的重要手段之一。Go-Duplicacy,作为一个基于Go语言开发的新一代云备份工具,以其独特的锁免费...

    搜索引擎种类特点优缺点比较

    - **网易搜索引擎**:基于新一代开放式目录管理系统(ODP),网易搜索引擎拥有庞大的义务目录管理员团队。该搜索引擎提供超过一万个类目的信息,收录了超过25万个活跃站点,每天新增站点信息500至1000条,访问量超过...

    新一代信息技术与人工智能在垂直工业领域应用存在问题与挑战.pdf

    《新一代信息技术与人工智能在垂直工业领域应用的问题与挑战》 新一代信息技术与人工智能正在逐步渗透到垂直工业领域,但在此过程中,一系列问题与挑战也随之显现。 首先,基础算力支撑能力有限。随着多样化的人工...

    人工智能专题讲座.docx

    A、成都 20、天津市对于自身的定位要求是:高水平建设国家新一代人工智能创新发展试验区,以中新天津生态城为核心,以自主算力引擎、()、车联网应用三大示范为重点,打造国家级人工智能发展标杆示范区。...

    第四代搜索引擎前沿综述归类.pdf

    4. **实时性和动态性**:快速响应网络上的新内容和变化,确保搜索结果的时效性。 **未来挑战与发展趋势** 尽管第四代搜索引擎展现了巨大潜力,但还面临诸多挑战,如如何有效处理大规模的个性化数据,如何准确评估...

    GOOGLE datacenter 数据中心网络

    每一代网络设计都围绕着三大核心主题展开: 1. **多级Clos拓扑结构**:通过使用商品化的交换机硅片构建的多级Clos拓扑结构能够有效降低成本,并支持大规模数据中心的部署。 2. **集中式控制机制**:传统上,复杂...

    ios公交查询系统

    开发者通常使用Swift或Objective-C作为编程语言,Swift是Apple推出的新一代编程语言,简洁且易于学习,而Objective-C则是更老牌的语言,两者都能支持iOS应用开发。 对于公交查询系统而言,数据管理至关重要。在这个...

    分布式网络爬虫技术分析与实现1.pdf

    这些问题促使研究人员探索新一代智能搜索引擎,其中自然语言理解技术是关键。智能搜索引擎旨在理解用户的查询意图,通过同义词技术、概念搜索、短语识别等手段提高检索的准确性,使用户可以使用自然语言进行搜索,...

    分布式文件系统的教程

    - 出现了一些新的分布式文件系统,例如GPFS(Global Parallel File System)和Lustre等,它们能够在更大的规模下提供更高的性能。 - **第三代分布式文件系统**: - 随着大数据时代的到来,出现了像Google File ...

    移动终端操作系统架构概览

    每一代系统都在前代的基础上增加了新的特性和改进,以适应不断变化的市场需求和技术进步。 ##### 3.2 Android系统特性 - **程序框架**:由可重用及可复写的组件组成,方便开发者快速构建应用。 - **Dalvik虚拟机**...

    SD大会精品讲座:Google迈向下一代Web平台与开发

    ### SD大会精品讲座:Google迈向下一代Web平台与开发 #### 一、Google Gears简介 在本课程中,我们探讨的主题是Google Gears——这是一个能够显著提升网络应用程序功能的新平台。Google Gears是一个开源浏览器扩展...

    Apache EventMesh 基于 CloudEvents 规范构建,于构建分布式事件驱动应用程序的新一代无服务器事件中间件

    这种路由机制使得系统更加模块化,降低了复杂性。 2. **负载均衡**:通过内置的负载均衡策略,EventMesh能够在多个实例间分配事件,保证高可用性和性能。 3. **可扩展性**:EventMesh的设计使其能够轻松扩展,以...

    数据库系统原理 丁宝康 PPT

    10. **NoSQL和NewSQL**:介绍非关系型数据库(如MongoDB、Cassandra)的特点和应用场景,以及新一代高性能、可扩展的SQL数据库(如Google Spanner、CockroachDB)。 通过丁宝康的《数据库系统原理》PPT课件,学习者...

    计算机行业研究周报:积极拥抱长期方向的核心龙头.zip

    5. **5G技术**:5G作为新一代通信技术,为计算机行业带来了超高速、低延迟的网络环境,加速了云计算、AI、物联网等技术的融合。5G的商业化进展将为相关核心企业提供新的增长动力。 6. **网络安全**:随着数字化进程...

    Hadoop分布式文件系统——翻译

    - **分布式名称空间**:一些分布式文件系统正在探索真正分布式的名字空间实现,例如Ceph和新一代的Google File System (GFS)。 - **性能优化**:随着硬件技术的进步和软件优化的不断推进,未来的HDFS将进一步提升其...

Global site tag (gtag.js) - Google Analytics