凌晨3点时, Arun C. Murthy被一个电话弄醒了,公司要求他紧急处理一个软件bug。当时他是雅虎一个的广告定位App的工程师,App运行很缓慢,因为App启用开源数字平台Hadoop时的一串软件代码写得很糟糕。谁也不会想到,这个小bug,数年后却促成了官方Hadoop 2.0的诞生,改变了Hadoop的命运。
虽然是别人写的,但Murthy的工作就是修复它。谁也不会想到,这个小bug,数年后却为Hadoop生成了一个全新的路径;一个几乎和大数据概念几乎等同的软件系统。
今天,Hadoop应用在Facebook、Twitter、eBay、Yahoo等很多公司中,但2007年时,打那个电话之前,它不是这么有能耐的。
Doug Cutting加入雅虎
受Google 2004年白皮书的影响,打电话的一年之前,Doug Cutting和Michael Cafarella创建了Hadoop平台, 后来Doug Cutting加入雅虎,Murthy则被叫去继续研究雅虎的Hadoop问题, 因为他对该系统软件比较有经验。
当时他看了看邀请表示“谁TMD要去用Java写系统软件呢?”但后来还是接受了,但是当天晚上,他又继续诅咒“我TMD没事干嘛去调试别人的Hadoop代码呢?”但之后他发现自己陷入了更深的诅咒,因为他发现处理过后的应用程序(广告定位App)并没有真正意义上地运行Hadoop。
Hadoop实际上是由两部分组成的软件平台,一个叫做Hadoop分布式文件系统的存储系统(HDFS),一个叫MapReduce的处理系统。你可以转储大量的数据在这个系统里面,然后被分布在数十、数百、数千台服务器中,再用MapReduce在集群里把大问题拆分成小问题。这就是Hadoop的魅力:可以用大量廉价的商品服务器来省钱,而非购买少数昂贵的超级计算机。
不过有个小问题是,有时候开发者希望把数据从其中一个集群抽离出来,不用运行整个MapReduce,这也是当时雅虎广告定位App的问题,当时这个给Murthy的第一感觉是Hadoop需要另一个系统。
Murthy的第一感觉是Hadoop需要另一个系统
当时用临时手段解决了那个bug后,他开始筹谋这怎么彻底解决那个大bug。 从2008到2010年,Hadoop团队一直在关注如何提高Hadoop的安全性和稳定性,使其更具企业特征。许多相关的系统,比如被内置在主要分布集群中的Pig和Hive就是希望打造不用运行MapReduce而查询Hadoop的软件,但其实还是没抽离出MapReduce,其查询只是被译成从MapReduce的方式罢了。
2010年中的时候,Hadoop团队认为Hadoop是时候改革了,Murthy和所有 Hadoop社区的开发者集结起来准备解决这个老问题,最后成果就是后来加入Hadoop 2.0的YARN附件。
YARN诞生
YARN是一个坐落在HDFS上的系统,支持开发者创建和HDFS互动的应用,无需启动整个MapReduce,Murthy表示:“2.0其实不是一个任意数,是Hadoop第二体系”。
YARN确定使用后,许多新的软件也开始被创建出来进一步补充Hadoop。比如Twitter使用Spark用来实时处理数据;雅虎使用Spark用来处理存储的数据。Cloudera创建了Impala提高了查询Hadoop的速度。
但Murthy表示,只要开发者愿意,他们就可以使用YARN来查询Hadoop,使得整个大数据的系统变得更为有效。
IT检测公司Nodeable就在自己的Storm和Hadoop之间建立了一个整合系统,称为StreamReduce,其副总裁(Appcelerato副总裁,Nodeable被Appcelerator收购 了)表示YARN就是将来他们要进行批处理或者实时处理时需要的东西。
Hadoop 2.0
Spark主要在HDFS上运行,虽然它丢弃了MapReduce,远离了官方的Hadoop,但YARN足够让它们相互联系,如果只想要一个简单的部署,可以不用YARN,但是有的用户喜欢它,愿意安装它。
目前YARN已经存在在不少Hadoop分布中,包括Cloudera分布等。官方Hadoop 2.0开源项目beta版本马上要推出了,完全渗入市场可能还需要一段时间,但是它普及的时候将会带来很大的变化,无论如何,我们要感谢那个凌晨3点的电话。 |
转载于:https://my.oschina.net/u/1160813/blog/310051
分享到:
相关推荐
本资源是一个关于大数据案例的PPT教案,旨在通过一个买披萨的故事来讲解大数据的应用场景和技术。下面是从该资源中总结出的知识点: 1. 客户关系管理(CRM)系统:该系统能够将客户的个人信息、购买记录、健康记录...
大数据可视化PPT大数据可视化PPT大数据可视化PPT大数据可视化PPT大数据可视化PPT大数据可视化PPT大数据可视化PPT大数据可视化PPT大数据可视化PPT大数据可视化PPT大数据可视化PPT大数据可视化PPT大数据可视化PPT...
大数据技术,如Hadoop,作为分布式系统基础架构,解决了大规模数据的存储和计算问题,其发展历程从Lucene和Nutch开始,逐渐发展成为一个涵盖多个组件的大数据生态系统,为企业数据部的业务流程和组织结构设计提供了...
大数据参考架构围绕代表大数据价值链的信息价值链(水平轴)和IT价值链(垂直轴)两个维度组织展开。信息价值链表示大数据的应用理论作为一种数据科学方法,从数据到知识的处理过程中所实现的信息价值,其核心价值...
很多年前,人们就开始对...我有幸将这个高度技术化的课题—— 一个略显技术天赋的课题,呈献给大家,解释大数据对我们的日常生活造成的影响。这本书就是成果,它描述了大数据是如何改变我们的生活、恋爱和学习方式的。
大数据技术与应用.大数据技术与应用.大数据技术与应用.大数据技术与应用.大数据技术与应用.大数据技术与应用.大数据技术与应用.大数据技术与应用.大数据技术与应用.大数据技术与应用.大数据技术与应用.大数据技术与...
清华大学精品大数据课程PPT课件(35页) 第1章 大数据概念与应用.pptx 清华大学精品大数据课程PPT课件(40页) 第2章 大数据的架构.pptx 清华大学精品大数据课程PPT课件(48页) 第3章 大数据采集及预处理.pptx 清华...
什么是大数据?什么是大数据?
总的来说,大数据是现代社会的一个重要驱动力,它推动了科技创新,改变了业务模式,并在各个行业中发挥了关键作用,从提升效率到创造全新的可能性,大数据的价值正在持续显现。随着技术的进步和数据应用的深化,...
阿里巴巴,作为距离大数据最近的公司之一,近几年对大数据却鲜有...《大数据之路:阿里巴巴大数据实践》就是在这个过程中,由阿里巴巴数据技术及产品部沉淀下来的大数据知识与实践,值得每一位与大数据相关的人阅读。
### 大数据认知实习报告知识点总结 #### 一、大数据的认知背景及意义 - **大数据的概念**:大数据是指...同时,我们也应该关注大数据所带来的隐私保护问题,通过法律法规和技术手段共同构建一个安全可靠的数据环境。
大卫·芬雷布2014年的著作。解密一百家大数据公司的商业法则,分享教育、医疗、商业、设计、汽车……十几个行业的成功企业案例,清晰勾勒出大数据行业的企业分布,让读者探索大数据行业的下一个大机遇究竟在何处。
传统上,车险费率由监管机构严格控制,但随着经济体制改革和国际竞争加剧,这一局面可能会改变。保险公司将通过收集大量数据,如车辆使用情况、驾驶习惯等,实现精细化定价,不同车辆的保险费率将根据具体风险差异而...
大数据,这个概念自21世纪初提出以来,已经成为信息技术领域的一个关键术语,它标志着我们正处在一个信息爆炸的时代。大数据不仅是指数据的海量性,更包含数据的多样性、高速性和价值密度低等特性。本篇内容将从多个...
《阿里大数据之路:阿里巴巴大数据实践》是一本深入探讨阿里巴巴集团在大数据领域实践经验的书籍,共计339页,全面展示了阿里巴巴在大数据领域的技术积累和创新应用。这本书籍旨在分享阿里巴巴如何利用大数据技术来...
本文档《大数据对审计取证的影响:一个理论框架》旨在为理解大数据如何改变审计取证提供一个理论框架,本理论框架的提出,将有助于学者和审计实务工作者更好地认识大数据在审计取证中的影响和应用。 首先,文档中...
大数据预测无法确定某件事情必然会发生,它更多是给出一个概率。 大数据预测的四个条件: 1. 时效性:大数据预测需要高速计算能力来满足时效性要求,譬如股市、实时定价等领域。 2. 数据源:大数据预测需要收集...
2. 2011年2月1日,《科学》(Science)杂志专刊Dealing with data,通过社会调查的方式,第一次综合分析了大数据对人们生活造成的影响,详细描述了人类面临的数据困境。 3. 2011年5月,麦肯锡研究院发布报告Big data...