`
xinklabi
  • 浏览: 1588265 次
  • 性别: Icon_minigender_1
  • 来自: 吉林
文章分类
社区版块
存档分类
最新评论

Google后Hadoop时代的新“三驾马车”——Caffeine、Pregel、Dremel

 
阅读更多

摘要:Google在2003年到2004年公布了关于GFS、 MapReduce和BigTable三篇技术论文,这也成为后来云计算发展的重要基石,如今Google在后Hadoop时代的新“三驾马车”—— Caffeine、Pregel、Dremel再一次影响着全球大数据技术的发展潮流。

Mike Olson是Hadoop运动背后的主要推动者,但这还远远不够,目前Google内部使用的大数据软件Dremel使大数据处理起来更加智能。

Mike Olson目前任职于世界上最热的软件专业公司——Cloudera(硅谷的创业企业),并担任Cloudera的首席执行官。Cloudera围绕开源 软件平台Hadoop发展自身的业务,开源软件平台Hadoop已经使得Google变身网络上最主导的力量。

预计到2016年Hadoop将会推动软件市场,并创造8.13亿美元的价值。不过Mike Olson表示这已经是老新闻了。

Hadoop的火爆要得益于Google在2003年底和2004年公布的两篇研究论文,其中一份描述了GFS(Google File System),GFS是一个可扩展的大型数据密集型应用的分布式文件系统,该文件系统可在廉价的硬件上运行,并具有可靠的容错能力,该文件系统可为用户提供极高的计算性能,而同时具备最小的硬件投资和运营成本。

另外一篇则描述了MapReduce,MapReduce 是一种处理大型及超大型数据集并生成相关执行的编程模型。其主要思想是从函数式编程语言里借来的,同时也包含了从矢量编程语言里借来的特性。基于 MapReduce编写的程序是在成千上万的普通PC机上被并行分布式自动执行的。8年后,Hadoop已经被广泛使用在网络上,并涉及数据分析和各类数 学运算任务。但Google却提出更好的技术。

在2009年,网络巨头开始使用新的技术取代GFS和MapReduce。Mike Olson表示“这些技术代表未来的趋势。如果你想知道大规模、高性能的数据处理基础设施的未来趋势如何,我建议你看看Google即将推出的研究论文”。

自Hadoop兴起以来,Google已经发布了三篇研究论文,主要阐述了基础设施如何支持庞大网络操作。其中一份详细描述了Caffeine,Caffeine主要为Google网络搜索引擎提供支持。

在Google采用Caffeine之前,Google使用MapReduce和分布式文件系统(如GFS)来构建搜索索引(从已知的Web页面索引 中)。在2010年,Google搜索引擎发生了重大变革。Google将其搜索迁移到新的软件平台,他们称之为“Caffeine”。Caffeine 是Google出自自身的设计,Caffeine使Google能够更迅速的添加新的链接(包括新闻报道以及博客文章等)到自身大规模的网站索引系统中, 相比于以往的系统,新系统可提供“50%新生”的搜索结果。

在本质上Caffeine丢弃MapReduce转而将索引放置在由Google开发的分布式数据库BigTable上。作为Google继GFS和 MapReduce两项创新后的又一项创新,其在设计用来针对海量数据处理情形下的管理结构型数据方面具有巨大的优势。这种海量数据可以定义为在云计算平 台中数千台普通服务器上PB级的数据。

另一篇介绍了Pregel,Pregel主要绘制大量网上信息之间关系的“图形数据库”。而最吸引人的一篇论文要属被称之为Dremel的工具。 

点击查看大图

专注于大型数据中心规模软件平台的加利福尼亚伯克利分校计算机科学教授Armando Fox表示“如果你事先告诉我Dremel可以做什么,那么我不会相信你可以把它开发出来”。

Dremel是一种分析信息的方式,Dremel可跨越数千台服务器运行,允许“查询”大量的数据,如Web文档集合或数字图书馆,甚至是数以百万计的垃圾信息的数据描述。这类似于使用结构化查询语言分析传统关系数据库,这种方式在过去几十年被广泛使用在世界各地。

Google基础设施负责人Urs Hölzle表示“使用Dremel就好比你拥有类似SQL的语言,并可以无需任何编程的情况下只需将请求输入命令行中就可以很容易的制定即席查询和重复查询”。

区别在于Dremel可以在极快的速度处理网络规模的海量数据。据Google提交的文件显示你可以在几秒的时间处理PB级的数据查询。

目前Hadoop已经提供了在庞大数据集上运行类似SQL的查询工具(如Hadoop生态圈中的项目Pig和Hive)。但其会有一些延迟,例如当部署任 务时,可能需要几分钟的时间或者几小时的时间来执行任务,虽然可以得到查询结果,但相比于Pig和Hive,Dremel几乎是瞬时的。

Holzle表示Dremel可移执行多种查询,而同样的任务如果使用MapReduce来执行通差需要一个工作序列,但执行时间确实前者的一小部分。Dremel可在大约3秒钟时间里处理1PB的数据查询请求。

Armando Fox表示Dremel是史无前例的,Hadoop作为大数据运动的核心一直致力构建分析海量数据工具的生态圈。但就目前的大数据工具往往存在一个缺陷, 与传统的数据分析或商业智能工具相比,Hadoop在数据分析的速度和精度上还无法相比。但目前Dremel做到了鱼和熊掌兼得。

Dremel做到了“不可能完成的任务”,Dremel设法将海量的数据分析于对数据的深入挖掘进行有机的结合。Dremel所处理的数据规模的速度实在令人印象深刻,你可以舒适的探索数据。在Dremel出现之前还没有类似的系统可以做的像Dremel这样出色。

据Google提交的文件来看,Google从2006年就在内部使用这个平 台,有“数千名”的Google员工使用Dremel来分析一切,从Google各种服务的软件崩溃报告到Google数据中心内的磁盘行为。这种工具有 时会在数十台服务器上使用,有时则会在数以千计的服务器上使用。

Mike Olson表示尽管Hadoop取得的成功不容置疑,但构建Hadoop生态圈的公司和企业显然慢了,而同样的情况也出现在Dremel上,Google 在2010年公布了Dremel的相关文档,但这个平台还没有被第三方企业充分利用起来,目前以色列的工程团队正在建设被称为OpenDremel的克隆 平台。David Gruzman表示OpenDremel目前仅仅还在开始阶段,还需要很长时间进行完善。

换句话说即使你不是Google的工程师你同样可以使用Dremel。Google现在提供的BigQuery的服务就是基于Dremel。用户可通过在线API来使用这个平台。用户可以把数据上传到Google,并在Google基础设施中运行用户的查询服务。而这只是Google越来越多云服务的一部分。

早期用户通过Google App Engine构建、运行、并将应用托管在Google基础设施平台之上。而现今Google提供了包括BigQuery和Google Compute Engine等服务和基础设施,这些服务和基础设施可使用户瞬时接入虚拟服务器。

全球很多技术都落后于Google,而Google自身的技术也正在影响全球。(李智/编辑)

分享到:
评论

相关推荐

    google 新旧三驾马车MapReduce/Bigtable/GFS和Caffeine/Dremel/Pregel

    6个pdf,Google官方发布的。 [1]Bigtable: A Distributed Storage System for Structured Data [2]MapReduce: Simplified Data Processing on Large Clusters [3]The Google File System [4]Large-scale Incremental...

    hadoop的三驾马车谷歌论文中文版(全)

    标题中的“hadoop的三驾马车”指的是大数据处理领域中的三个核心组件,它们是Hadoop生态系统中的关键组成部分,对应谷歌的三篇开创性论文。这三驾马车分别是Hadoop分布式文件系统(HDFS)、Hadoop MapReduce以及...

    Google的三驾马车

    在IT行业中,Google的三驾马车是大数据处理和存储领域的核心技术,这三大技术分别为MapReduce、GFS(Google File System)和Bigtable。它们共同构建了Google在全球范围内的大规模数据处理基础设施,使得搜索引擎和...

    最新Hadoop生态圈开发学习资料——尚硅谷

    在大数据领域,Hadoop生态圈是不可或缺的重要组成部分,它为海量数据的存储、处理和分析提供了高效可靠的...这份"最新Hadoop生态圈开发学习资料——尚硅谷"将是你学习过程中宝贵的资源,助你在大数据的世界中游刃有余。

    藏经阁-Hadoop的过去现在和未来——从阿里云梯到E-MapReduce.pdf

    Hadoop的过去现在和未来——从阿里云梯到E-MapReduce Hadoop是大数据处理的基础设施,可以说是大数据时代的基石。从2006年Hadoop的诞生到现在,Hadoop已经经历了十多年的发展历程,经历了从 Offline 到 Online、从 ...

    大数据-google三驾马车

    在IT领域,尤其是在大数据分析和处理的范畴内,“Google三驾马车”是一个重要的概念,它指的是Google公司为处理大规模数据而提出的三个关键技术:GFS(Google File System,谷歌文件系统)、MapReduce以及BigTable。...

    Google三驾马车大数据论文

    在IT领域,特别是大数据技术的发展历程中,"Google三驾马车"是一个极其重要的概念,它指的是Google公司为处理海量数据而提出的三个核心系统:GFS(Google File System)、MapReduce和Bigtable。这些系统奠定了现代大...

    谷歌分布式系统三驾马车-mapreduce,bigtable,GFS

    谷歌的“三驾马车”——MapReduce、Bigtable和GFS(Google File System)就是这一领域的里程碑式创新,它们为现代大数据处理奠定了基础。这三篇文章是理解谷歌分布式架构的重要文献,对后来的Hadoop、HBase等开源...

    Hadoop课程实验和报告——Hadoop安装实验报告

    Hadoop课程实验和报告——Hadoop安装实验报告 Hadoop是一个开源的大数据处理框架,由Apache基金会开发和维护。它提供了一种可靠、可扩展、可高效的方法来存储和处理大规模数据。在本实验报告中,我们将介绍Hadoop的...

    google大数据的三驾马车

    这三驾马车不仅代表了Google在大数据处理方面的技术核心,也成为了后续大数据技术发展的基石,尤其是Hadoop生态系统的产生与发展。 GFS是一个可扩展的分布式文件系统,专门设计来支持大型分布式数据密集型应用。与...

    04-29 后Hadoop时代的大数据架构.pdf

    04-29 后Hadoop时代的大数据架构.pdf04-29 后Hadoop时代的大数据架构.pdf04-29 后Hadoop时代的大数据架构.pdf04-29 后Hadoop时代的大数据架构.pdf04-29 后Hadoop时代的大数据架构.pdf04-29 后Hadoop时代的大数据架构...

    Hadoop课程实验和报告——K-Means算法并行实现

    Hadoop课程实验和报告——K-Means算法并行实现

    谷歌三驾马车中文版 google file system+mapreduce+bigtable中文版

    谷歌的三驾马车——Google File System(GFS)、MapReduce和Bigtable,是构建大规模分布式计算系统的核心技术。这三者共同构成了谷歌处理海量数据的基础架构,为搜索引擎、云计算和其他大数据应用提供了强大的支撑。...

    后Hadoop时代的大数据架构

    【后Hadoop时代的大数据架构】是指随着技术的演进,大数据分析平台不再仅依赖于Hadoop单一技术栈,而是出现了更多与之互补的选择。Hadoop作为开源数据分析平台的先驱,自2000年代末至今,历经多次版本迭代,如从0.x...

    Google分布式系统经典论文

    本压缩包包含了Google在该领域的三篇经典论文,分别是关于GFS(Google File System)、MapReduce以及BigTable的详细研究报告。下面,我们将深入探讨这些关键技术。 首先,GFS(Google File System)是由Google开发...

    后Hadoop时代的大数据架构.pdf

    【标题】:“后Hadoop时代的大数据架构.pdf” 【概要】:在“后Hadoop时代”,大数据架构经历了显著的变化和发展。Hadoop作为开源的数据分析平台,为处理大规模非结构化数据提供了可靠的存储和处理解决方案,包括...

    Hadoop 从零开始(1) ——CentOS 安装配置

    在本文中,我们将深入探讨如何从零开始在CentOS操作系统上安装和配置Hadoop,这是一个分布式文件系统,为大数据处理提供了强大的支持。首先,我们需要理解Hadoop的基本概念和它的核心组件。 Hadoop是由Apache软件...

    hadoop起源Google三篇论文

    这三篇论文——GFS(Google File System)、Bigtable和MapReduce,为分布式计算和存储提供了理论基础,对Hadoop的发展起到了决定性的作用。 首先,GFS(Google File System)是由Google在2003年发布的论文,它描述...

Global site tag (gtag.js) - Google Analytics