从今天起,鄙人开始重温重去年九月份开始学习的Hadoop,并将之形成文字。一方面重温Hadoop的一些知识点,查漏补缺,加深印象;另一方面也希望能和他人有一些交流,由于本人能力有限,由理解不对或表达不清之处,望“内功深厚者”加以指点,当然但若能对初学者能由些许帮助,鄙人将十分荣幸!
当然,借此写博客的机会,也希望对Hadoop做更深入的理解,并一直专研下去!
今天,我们正被数据包围,对于很多公司特别是电商而言,数据是其很核心的资产,每天都会产生大量点击,每一次点击都产生数据。那么,这些公司是如何基于处理这些数据?如何使用这些数据呢?有如何从这些数据中获取对自己有用的信息呢?这就涉及到大数据处理和数据挖掘,也就不能不设计到Hadoop。
这里指的“Hadoop”指的是Hadoop ecosystem生态系统,包括之上的Hive,Hbase,Pig等,已经被广泛应用在当前的生产和生活中,并且是事实上的大数据处理的行业标准!
下图是Hadoop生态系统的示意图:
那么什么是Hadoop呢?
首先
Hadoop是一个Apache基金会下的一个开源项目,一个分布式计算平台,以Hadoop分布式文件系统HDFS和MapReduce分布式计算框架为核心,为用户提供了底层细节透明的分布式基础设施。HDFS提供高容错和高伸缩的特性,允许用户将构建一个廉价的分布式系统;而MapRecue则允许用户在不了解分布式底层细节的情况下比较容易的开发并写并行的分布式应用程序,专注于直接要处理的业务,充分利用大规模的计算资源,来解决之前无法解决活只能在高性能计算集群上才能解决的问题。
Hadoop处理海量数据,有如下优点:
1、健壮
其故障检测和制动恢复特性,可以很容易的处理通用计算平台上的硬件失效。
2、弹性
可以动态的增删集群节点:通过增加集群节点,就可以线性的扩展计算性能已处理更大的数据集;同时在负载下降时,通过减少节点,以高效使用计算资源(不浪费多余的资源)。
3、简单
当然这是相对于传统的分布式集群而言的,Hadoop的MapReduce框架允许用户快速编写出高效的并行分布式处理的代码。
之前我们已经学习了一些Hbase和Hive的相关知识,从今天开始,我们将从新开始温故Hadoop。
分享到:
相关推荐
通过对这些内容的学习,读者能够深入理解YARN如何在大规模分布式系统中高效地管理和调度资源,为大数据处理提供强大的支撑。 总之,《Hadoop技术内幕:深入解析YARN架构设计与实现原理》是一本对于Hadoop开发者、...
Hadoop 技术内幕:深入解析Hadoop Common 和HDFS 架构设计与实现原理
Hadoop技术内幕:深入解析Hadoop Common 和HDFS 架构设计与实现原理 (大数据技术丛书) 原版书籍,非扫描版,使用kindle可以打开,也可以转换为epub使用ibooks打开
《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》还从源代码实现中对分布式技术的精髓、分布式系统设计的优秀思想和方法,以及Java语言的编码技巧、编程规范和对设计模式的精妙运用进行了总结和...
《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》由腾讯数据平台的资深Hadoop专家、X-RIME的作者亲自执笔,对Common和HDFS的源代码进行了分析,旨在为Hadoop的优化、定制和扩展提供原理性的指导。...
Hadoop技术内幕:深入解析MapReduce架构设计i与实现原理Hadoop技术内幕:深入解析MapReduce架构设计i与实现原理Hadoop技术内幕:深入解析MapReduce架构设计i与实现原理Hadoop技术内幕:深入解析MapReduce架构设计i与...
### Hadoop技术内幕:深入解析MapReduce架构设计与实现原理 #### 一、Hadoop及其重要性 Hadoop是一个开放源代码的分布式计算框架,它能够处理大量的数据集,并通过集群提供高性能的数据处理能力。随着大数据时代的...
Hadoop硬实战:Hadoop in Practice
Hadoop技术内幕:深入解析YARN架构设计与实现原理(扫描版)Hadoop技术内幕:深入解析YARN架构设计与实现原理(扫描版)Hadoop技术内幕:深入解析YARN架构设计与实现原理(扫描版)
Hadoop技术内幕:深入解析MapReduce架构设计与实现原理(扫描版)Hadoop技术内幕:深入解析MapReduce架构设计与实现原理(扫描版)Hadoop技术内幕:深入解析MapReduce架构设计与实现原理(扫描版)
Hadoop技术内幕:深入解析MapReduce架构设计与实现原理
通过深入学习《Hadoop技术内幕:深入解析YARN架构设计与实现原理》,读者可以全面了解YARN如何工作,如何解决大数据处理中的挑战,以及如何根据业务需求优化YARN配置。这将对理解Hadoop生态系统的运作、进行大数据...
Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理(扫描版)
《hadoop技术内幕:深入解析yarn架构设计与实现原理》是“hadoop技术内幕”系列的第3本书,前面两本分别对common、hdfs和mapreduce进行了深入分析和讲解,赢得了极好的口碑,hadoop领域几乎人手一册,本书则对yarn...
《Hadoop技术内幕:深入解析MapReduce架构设计i与实现原理》参考资料
《Hadoop技术内幕深入解析YARN架构设计与实现原理》.(董西成).PDF