“大数据不是炒作,也不是泡沫。Hadoop在未来将继续追随谷歌的脚步。”Hadoop的创造者兼Apache Hadoop项目创始人Doug Cutting近日表示。
作为一个批处理计算引擎,Apache Hadoop是大数据核心的开源软件框架。有一种说法是,Hadoop并不适用于真正实时数据可见性所需要的在线互动数据处理。事实是这样的吗?Hadoop的创造者兼Apache Hadoop项目创始人(现任Cloudera公司首席架构师)Doug Cutting说:“相信Hadoop拥有一个超越批处理的未来。
Hadoop的创造者兼Apache Hadoop项目创始人、Cloudera公司首席架构师 Doug Cutting
“批处理有其用武之地。例如,你需要移动大量数据并分析所有数据的时候。但我仍认为,人们真正想要的是批处理和在线计算的结合体。Hadoop将会成为企业未来主流数据处理系统的内核。” Cutting说。
Hadoop行至何处?
在刚刚结束的Strata Conference+Hadoop World会议上,Cutting解释了Hadoop堆栈的核心思想,以及其未来的发展方向。“Hadoop被看作是一个批处理计算引擎,事实上,这是我们开始的地方(结合MapReduce)。MapReduce是一个很棒的工具,目前市场上有很多关于如何在MapReduce上部署各种算法的书籍。”Cutting说。
MapReduce是一个编程模型,由谷歌公司设计,用于使用分布式计算批量并行处理海量数据。MapReduce得到一个输入,然后将其分成很多更小的子问题,这些问题被分配到不同节点来并行处理。然后,它们重新组合子问题的答案以形成输出。
“这是非常有效的,”Cutting表示,“它允许你把计算移向数据。这样一来,当你处理数据时就不需要到处复制数据,并且它还形成了一个共享平台。构建分布式系统是一个复杂的过程,所以我们不希望反反复复重新部署它。MapReduce被证明是一个坚实的基础,依托MapReduce开发出了很多工具,例如Pig和Hive。”Hadoop关键特性
为了证明Hadoop大数据平台的通用性,Cutting描述了他所认为的Hadoop的两个核心主题。首先,Hadoop平台具有很好的可扩展性,不仅适用于存储在内存中的小数据集,还能够扩展到处理庞大的数据集。
“评估可扩展性的一个关键因素是经济承受能力。我们在通用硬件平台上运行是因为它允许你进一步地扩展。如果你可以购买10倍的存储量,那么就可以存储10倍的数据量。所以,经济承受能力是关键,这也是我们使用通用硬件的原因,因为它是最经济实惠的平台。”Cutting说。
Hadoop另一个关键特性在于开源。Cutting指出,开源软件是非常实惠的。开发者可以向供应商付费,但是为了他们所提供的价值而付费。开发者不需要年复一年地付费,随着时间的推移,供应商需要通过向你提供价值来赢得开发者的信任和信心。此外,对于Hadoop而言,用户可以以原始的形态保存数据,然后,当你使用数据时,再使用不同的模式。
大数据领域另一种流行的做法是,在通常情况下,与更聪明的算法相比,分析更多的数据能够帮助你更好地了解你的问题。也就是说,你应该花更多的时间来收集数据,而不是调整较小数据集所采用的算法。直观地说,这很像是具有更高分辨率的图像,如果你试图分析图片,你应该选择放大高分辨率图片,而不是低分辨率图像。
Cutting还指出,批处理并不算是Hadoop的典型特性。例如,仿效谷歌BigTable的HBase是Hadoop堆栈的一部分,它已经成为非常成功的开源非关系型分布式数据库。HBase是一个在线计算系统,而不是批处理计算系统。“HBase也支持批处理,它与HDFS以及Hadoop堆栈的其他组件共享存储。我认为这也是HBase如此受欢迎的原因之一。HBase被整合到系统的其他部分中,而不是成为一个独立的系统。它可以与堆栈的其他组件进行共享,可以对可用性、安全性和灾难恢复等特性进行共享。”Cutting解释说。
技术未来展望
如果Hadoop不仅仅是批处理计算平台,而是成为一个更为通用的数据处理平台,它将会变成什么样,它到底将走向何方?Cutting表示,我们当然希望拥有开源的大数据平台,并且能够在通用硬件上运行。同时,我们还希望它具有线性扩展能力,也就是说,如果你需要存储10倍数据,只需要购买10倍的硬件就可以了。无论你的数据集变得有多大,都可以采用这样的方式进行扩展。
性能方面同样是如此。对于批处理性能,如果你需要更大的批处理吞吐量或更小的延迟,你只需要增加硬件数量即可。而对于交互式查询,也是同样。增加硬件就能为你带来性能和数据处理量级方面的线性扩展。Cutting还表示:“人们通常会认为,采用大数据平台后,需要放弃某些东西。我不这样认为的。从长期来看,我们不需要放弃任何的功能。”
对于Hadoop未来的技术发展方向,Cutting表示谷歌已经给出了相关路线图。“谷歌发布GFS和MapReduce的论文后,我们很快地将其复制到Hadoop项目中。这些年以来,谷歌在很多方面激励着Hadoop开源堆栈。谷歌的Sawzall系统催生了Pig和Hive,而BigTable则直接启发了HBase。我很激动地看到,今年谷歌发表了名为Spanner的论文,其中介绍了在分布式数据库系统实现传输的机制。可能很多人都会认为这不会很快成为现实,但却为我们指明了前进的方向。”Cutting说。
Cutting指出,作为一项复杂技术,Spanner并不会很快成为Hadoop的一部分,但它确实明确了技术发展的方向。他同时还提到了Impala(Cloudera最新发布的数据库引擎),它可以使用SQL查询存储在HBase中的数据集。Impala将为用户带来交互式在线查询的新体验,它同样追随了谷歌的一些研究成果,已经发布了一段时间。Cutting认为,Impala将发展成为一个通用的技术平台。
“我们已经知晓前进方向,并且知道如何去实现目标。所以,我鼓励大家现在就开始使用Hadoop,因为在未来你将收获更多。”Cutting说。
相关推荐
毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码.zip毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码.zip毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码.zip毕业设计-基于Hadoop+...
"基于Hadoop的医疗科研大数据平台的构建与应用" 本文基于Hadoop技术框架,旨在构建医疗科研大数据平台,以提高医疗数据的利用率,整合各类临床数据、科研数据、随访数据等,实现医疗大数据的利用与共享。 一、医疗...
《Hadoop权威指南》是大数据领域的一本经典著作,它深入浅出地介绍了Hadoop这一开源框架,如何处理和分析海量数据。这本书的第4版不仅进行了修订,还增加了新的内容,使其更适合当前大数据环境的需求。 Hadoop是...
《Python+Spark 2.0+Hadoop机器学习与大数据》是一本深入探讨大数据处理与机器学习技术结合的著作。作者林大贵以其丰富的经验,详细介绍了如何利用Python、Spark 2.0以及Hadoop这一组合来构建高效的数据分析解决方案...
【高分毕设源码】基于Hadoop、Spark的大数据金融信贷风险控系统设计和实现 【高分毕设源码】基于Hadoop、Spark的大数据金融信贷风险控系统设计和实现 【高分毕设源码】基于Hadoop、Spark的大数据金融信贷风险控系统...
【资源说明】 1、该资源包括项目的全部源码,下载可以直接使用! 2、本项目适合作为计算机、数学、电子信息等专业的课程设计、期末大作业和毕设...基于Hadoop、Spark的大数据金融信贷风险控系统源码(高分毕设).zip
【基于Hadoop的铁路货运大数据平台设计与应用】 在当今数字化时代,大数据处理与分析已成为各行各业的核心竞争力。本文以Hadoop架构为基础,深入探讨了它在处理铁路货运大数据中的应用,旨在为相关领域的专业人士...
Hadoop安全:大数据平台隐私保护 Hadoop安全:大数据平台隐私保护 Hadoop安全:大数据平台隐私保护
在大数据技术领域,Hadoop和Spark是两个至关重要的框架,它们在处理海量金融信贷数据时发挥着核心作用。本项目“基于Hadoop、Spark的大数据金融信贷风险控制系统”旨在利用这两种技术来构建一个高效的风险评估和管理...
基于Hadoop的医疗科研大数据平台的构建与应用是解决这一问题的有效途径。本文将深入探讨Hadoop在医疗科研中的应用,以及如何构建这样一个大数据平台。 Hadoop是一个开源的分布式计算框架,其核心包括HDFS(Hadoop ...
在本文中,李晓蕾作者对基于Hadoop技术的交通视频大数据监控方案进行了深入的研究。针对海量交通视频数据监控和分析问题,本研究提出了异常检测算法的设计方案,并实现了交通数据的实时更新和异常分析。在此基础上,...
"基于Hadoop的高校校园大数据平台构建"旨在利用开源的大数据处理框架Hadoop,解决高校数据管理的挑战,实现高效、智能的数据存储和分析。以下是关于这一主题的详细知识解析: 一、Hadoop简介 Hadoop是Apache软件...
### 基于Hadoop的高校校园大数据平台构建 #### 一、研究背景与意义 在信息化时代背景下,高等教育机构面临着前所未有的数据挑战与机遇。随着互联网技术的发展和普及,高校内部产生了大量的数据资源,包括但不限于...
教案27 项目8 平台化快速部署Hadoop 第1部分 探寻大数据平台及基础环境配置.pdf教案27 项目8 平台化快速部署Hadoop 第1部分 探寻大数据平台及基础环境配置.pdf教案27 项目8 平台化快速部署Hadoop 第1部分 探寻大数据...
Hadoop权威指南 大数据的存储与分析 第四版
《董西成主讲Hadoop 2.X大数据平台V3 全套pdf》是一份全面讲解Hadoop 2.x版本大数据平台的教程资料,由知名讲师董西成主讲。这套教程涵盖了Hadoop生态系统中的核心组件,包括HDFS、YARN、MapReduce2、HBase、...
- Hadoop生态圈的组件及其作用包含数据采集工具Sqoop、数据传输工具Flume、分布式计算框架Tez、Spark、工作流管理系统Oozie、流计算框架Storm、数据分析平台Hive、分布式数据库HBase、数据仓库HDFS和MapReduce的DAG...