`
avalon0406
  • 浏览: 7186 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

未来的hadoop

阅读更多

现在,无论是Twitter还是eBay或是LinkedIn在使用Hadoop,而Facebook则将这一分布式系统基础架构上升到了新的极致。并且,Hadoop正致力于将此服务平台做到极致。基础设施负责人杰伊·帕瑞克曾表示,Facebook运行着世界上最大的Hadoop计算机集群。Facebook的Hadoop集群中的一个,就涉及了超过4000台机器,存储着超过100PB(petabytes)字节的数据,也就是数百万gigabytes的数据。

 

这个集群是非常庞大,甚至已经超越了四个数据中心。Facebook使用Hadoop服务器来分配分布于各离散数据中心的数据空间,使每次的寻址过程自主进行。Facebook工程师拉古·穆尔蒂说。“我们的规划总是目光长远的,但是,我们必须通过这个过程,将所有数据迁移到新的地方去。”几年之前,拉古·穆尔蒂还在完成斯坦福大学Ph.D.项目的时候,被杰夫·哈梅巴赫;目前为止,他作为Facebook大数据业务团队的中坚力量,已工作四年有余。

 

Facebook信誓旦旦地表示绝不会再犯类似的错误,于是开始着手建立一个跨越多个数据中心的Hadoop集群。该项目由穆尔蒂负责,他曾经参与搭建雅虎(Yahoo)的pre-Hadoop分布式计算系统,并吸引到了哈梅巴赫的注意。如今,穆尔蒂已经参与过,包括Hive在内的许多Facebook的重要项目的研发。但是,这还是有些许不同——Hadoop的设计并没有考虑多设备之上运行情况。通常情况下,由于需要服务器之间的高负载通信,集群被限制在了单一数据中心。

 

穆尔蒂和他的团队成员,在整个Facebook地基础设施上,推出了一个叫作Prism平台。典型的Hadoop集群,通常是由单一的“命名空间”(namespace)管理,但是Prism则开辟出多个命名空间,在一个相同的物理集群之上,创造了很多“逻辑集群”。

 

这些“命名空间”可以划分给不同的Facebook团队,这样每一个团队都能够得到属于自己的命名空间,不过仍然全都在使用同一个数据集,而这个数据集可以跨越多个数据中心。这里的诀窍是,当一个团队运行一项工作的时候,它可以复制这项工作所需要的特定的数据,并且把它移进一个单一的数据中心。穆尔蒂表示,“我们将这些能力下放到独立的小团队,因为他们能够更好的了解网站特殊部分的独特需要。”

 

根据穆尔蒂,这一系统理论上,可以扩展到无限多个服务器上。这意味着,Facebook不必再去担心,需要打造另一个新的数据中心了。对于数据团队的托斯来说,这意味着他能够保证这一基础设施平稳运行——这有一个额外的好处,他表示,“把整个Hadooop集群放在一个数据中心中,让我害怕极了,而Prism能够帮助在这一点上提供帮助。”

 

Prism只是众多扩展Hadoop的努力中的一个。前任雅虎雇员艾弗里·清带领的团队,最近刚刚部署了一个新的叫作Corona的平台,允许多个工作,在一个单一的Hadoop集群之上,而并不会导致崩溃。

 

穆尔蒂还帮助建造了一个叫作Peregrine的工具,能够让查询Hadoop数据的速度比标准情况快很多。Hadoop的设计初衷是一个“批处理系统”,这意味着,通常需要在运行作业的时候进行等候,但是和Impala相似的是(一个由哈梅巴赫和Cloudera创建的系统),Peregrine可以让平台更接近实时。

 

Facebook并没有与外界共享所有的软件,但是却分享了Corona,而如果以此作为习惯参考,它很有可能会在未来分享更多的代码。这就是为什么像艾弗里这样的工程师会在这里工作,“在Facebook,我们比起他人更早地遇到问题,而其他人就可以从中受益,他们不需要重蹈覆辙,也不需要重头再来。”

 

Hadoop是Facebook数据操作的基石,这种情况还将延续很多年。但是随着Scuba等工具的兴起,Facebook也将转投新的方向。

 

Scuba是一款正在快速增长的内存数据储存工具,设计的主要目的是为了极大的提高数据信息分析的速度。这款工具是由Facebook公司的工程师团队开发的,该团队中包括一位在顶级编程网站Top Coder上,排名第一的工程师约什·梅茨勒。Scuba在Facebook的数据中心中运行,帮助该公司收集基础设施的信息,并这些log压缩在数以百计的服务器内存中。所以,这些数据可以被即时查询到。

 

帕瑞克表示:“这就像Excel的数据透视表一样。即使你在处理数以百万计的数据,你也可以在亚秒级的响应时间里得到结果。”

 

是的,这个项目看起来似乎与Peregrine有些重叠——至少在一些部分上存在重复。但就像杰夫·哈梅巴赫指出的,这款工具是Facebook精神的一部分。“Facebook做事的方式,就是寻找最短路径的解决方案,而并非打造一款大而全的系统,来处理所有问题。”就像Facebook的其他项目一样,Scuba是在公司级的黑客马拉松(hackathon)中脱颖而出的。工程师遇到问题就自己解决,而非等到其他项目来帮他们解决问题。

http://tech.qq.com/a/20130205/000029.htm?pgv_ref=aio2012&ptlang=2052

分享到:
评论

相关推荐

    Hadoop集群资源硬件建议

    ### Hadoop集群资源硬件建议 #### 一、Hadoop集群硬件配置的重要性 ...此外,随着技术的发展,未来Hadoop集群的硬件配置可能会出现新的趋势,例如采用更先进的存储技术和网络设备来进一步提高性能和降低成本。

    hadoop-3.0.0-src.tar.gz

    Hadoop 3.0.0的发布标志着Hadoop进入了新的发展阶段,随着技术的不断进步,未来Hadoop将在云计算、物联网、人工智能等领域发挥更大作用。 通过对Hadoop 3.0.0源码的深入学习和理解,开发者不仅可以掌握大数据处理...

    hadoop3.0.3及hive2.3.5

    根据提供的文件信息,我们可以深入探讨Hadoop 3.0.3和Hive 2.3.5的相关知识点。 ### Hadoop 3.0.3 #### 1....Hadoop是一个开源软件框架,...随着技术的不断发展,未来Hadoop和Hive还将带来更多令人期待的功能和改进。

    Hadoop的背景及应用现状分析

    Hadoop背景及应用现状分析的知识点如下: 1. 大数据的定义和特点:根据IDC的定义,大数据是一种新一代架构和技术,旨在经济...同时,大数据市场的快速发展以及对Hadoop技术的依赖,表明未来Hadoop技术的发展前景广阔。

    Hadoop分布式文件系统(HDFS)运行测试

    随着技术的不断进步,未来Hadoop及其相关技术将在更多领域发挥重要作用,尤其是在大数据分析、机器学习等领域有着广阔的应用前景。此外,随着云计算的发展,Hadoop也将进一步与云服务相结合,为企业级用户提供更加...

    Hadoop权威指南---中文版(20220120022426).pdf

    Hadoop 权威指南中文版 Hadoop 是一个基于 Java 的开源框架,用于...Hadoop 的未来将继续发展,更多的企业和个人将使用 Hadoop 处理大规模数据。Hadoop 的发展将推动大数据时代的发展,提高人类对数据的理解和应用。

    Hadoop开发者第一期

    - **未来趋势**:Hadoop虽然已经在大数据处理领域取得了巨大成功,但仍然面临着诸如性能优化、易用性提升等挑战,未来Hadoop将会继续向着更加高效、智能的方向发展。 总之,Hadoop不仅是一项关键技术,而且还是一个...

    基于CentOS 7的Hadoop集群配置的研究与实现.docx

    同时,对未来Hadoop技术的发展趋势进行展望。 ### 关键词 Hadoop架构、大数据处理、分布式计算、数据存储、数据分析 通过这篇论文,读者不仅可以了解到Hadoop的基本概念和原理,还能通过实例操作掌握Hadoop集群的...

    基于Hadoop的人事档案管理系统数据分析.zip

    《基于Hadoop的人事档案管理系统数据分析》 在当今大数据时代,高效处理海量数据成为企业决策的关键。...随着技术的发展,未来Hadoop在人力资源管理领域的应用将会更加广泛和深入,为企业带来更高的效率和竞争力。

    云计算中Hadoop技术研究与应用综述.pdf

    它代表了未来Hadoop发展的趋势。 5. Hadoop的未来研究方向和问题 在探讨了Hadoop的现状与应用之后,未来的研究方向可能会集中在优化现有技术、提升数据处理速度、增强系统的稳定性以及改进与现有云服务的兼容性等...

    大数据Hadoop解决方案的形势.docx

    ### 大数据Hadoop解决方案的形势分析 #### 报告背景及重要发现 根据最新的Forrester报告,当前很多企业正积极...随着技术的不断发展和完善,未来Hadoop将在大数据处理领域发挥更加关键的作用,为企业带来更大的价值。

    Hadoop初级培训-姚锦叙.pdf

    ### Hadoop初级培训核心知识点概览 #### 一、背景介绍 随着信息技术的快速发展和社会生活的数字化转型,“大数据”已经成为一个不容忽视的重要概念...随着技术的不断发展和完善,未来Hadoop将在更多领域发挥重要作用。

    基于Hadoop的电信大数据采集方案研究与实现.docx

    ### 基于Hadoop的电信大数据采集方案研究与实现 #### 一、电信大数据采集的重要性 电信行业作为国民经济的重要组成部分,在信息化时代扮演着...随着技术的不断进步,未来Hadoop在电信领域的应用将会更加广泛和深入。

    Hadoop实战 pdf

    随着技术的不断进步和发展,未来Hadoop将会更加完善,支持更多的应用场景和技术需求。对于开发者而言,深入了解Hadoop的工作原理及其生态系统中的各种组件是非常重要的,这有助于更好地利用这些工具来解决实际问题。

    2019年hadoop,开题报告-精选word文档 (8页).docx

    最后,研究可能会探讨未来Hadoop及其生态系统的发展趋势,比如与Spark、Flink等新一代大数据处理框架的融合,以及在人工智能、物联网等领域的新应用。 总之,这份开题报告将全面剖析Hadoop在大数据处理中的作用,...

    大数据与云计算培训学习资料 Hadoop的MapReduce中多文件输出 共9页.pdf

    通过自定义`MultipleOutputFormat`和`RecordWriter`,我们可以根据实际需求构建适应未来Hadoop版本的解决方案。这对于大数据和云计算的学习者来说,是一个宝贵的实践经验,能够深入理解MapReduce的工作机制和如何...

    hadoop-eclipse-plugin1.2.1 and hadoop-eclipse-plugin2.8.0

    《Hadoop Eclipse Plugin:开发利器的进化》 在大数据领域,Hadoop作为开源分布式计算框架...随着Hadoop技术的不断演进,我们期待未来的Hadoop-Eclipse-Plugin能带来更多的创新和改进,为大数据开发提供更强大的支持。

Global site tag (gtag.js) - Google Analytics