从今天起,鄙人开始重温重去年九月份开始学习的Hadoop,并将之形成文字。一方面重温Hadoop的一些知识点,查漏补缺,加深印象;另一方面也希望能和他人有一些交流,由于本人能力有限,由理解不对或表达不清之处,望“内功深厚者”加以指点,当然但若能对初学者能由些许帮助,鄙人将十分荣幸!
当然,借此写博客的机会,也希望对Hadoop做更深入的理解,并一直专研下去!
今天,我们正被数据包围,对于很多公司特别是电商而言,数据是其很核心的资产,每天都会产生大量点击,每一次点击都产生数据。那么,这些公司是如何基于处理这些数据?如何使用这些数据呢?有如何从这些数据中获取对自己有用的信息呢?这就涉及到大数据处理和数据挖掘,也就不能不设计到Hadoop。
这里指的“Hadoop”指的是Hadoop ecosystem生态系统,包括之上的Hive,Hbase,Pig等,已经被广泛应用在当前的生产和生活中,并且是事实上的大数据处理的行业标准!
下图是Hadoop生态系统的示意图:
那么什么是Hadoop呢?
首先
Hadoop是一个Apache基金会下的一个开源项目,一个分布式计算平台,以Hadoop分布式文件系统HDFS和MapReduce分布式计算框架为核心,为用户提供了底层细节透明的分布式基础设施。HDFS提供高容错和高伸缩的特性,允许用户将构建一个廉价的分布式系统;而MapRecue则允许用户在不了解分布式底层细节的情况下比较容易的开发并写并行的分布式应用程序,专注于直接要处理的业务,充分利用大规模的计算资源,来解决之前无法解决活只能在高性能计算集群上才能解决的问题。
Hadoop处理海量数据,有如下优点:
1、健壮
其故障检测和制动恢复特性,可以很容易的处理通用计算平台上的硬件失效。
2、弹性
可以动态的增删集群节点:通过增加集群节点,就可以线性的扩展计算性能已处理更大的数据集;同时在负载下降时,通过减少节点,以高效使用计算资源(不浪费多余的资源)。
3、简单
当然这是相对于传统的分布式集群而言的,Hadoop的MapReduce框架允许用户快速编写出高效的并行分布式处理的代码。
之前我们已经学习了一些Hbase和Hive的相关知识,从今天开始,我们将从新开始温故Hadoop。
分享到:
相关推荐
Hadoop 技术内幕:深入解析Hadoop Common 和HDFS 架构设计与实现原理
Hadoop技术内幕:深入解析Hadoop Common 和HDFS 架构设计与实现原理 (大数据技术丛书) 原版书籍,非扫描版,使用kindle可以打开,也可以转换为epub使用ibooks打开
Hadoop技术内幕:深入解析MapReduce架构设计i与实现原理Hadoop技术内幕:深入解析MapReduce架构设计i与实现原理Hadoop技术内幕:深入解析MapReduce架构设计i与实现原理Hadoop技术内幕:深入解析MapReduce架构设计i与...
### Hadoop技术内幕:深入解析MapReduce架构设计与实现原理 #### 一、Hadoop及其重要性 Hadoop是一个开放源代码的分布式计算框架,它能够处理大量的数据集,并通过集群提供高性能的数据处理能力。随着大数据时代的...
Hadoop硬实战:Hadoop in Practice
《Hadoop权威指南》是大数据领域的一本经典著作,它深入浅出地介绍了Hadoop这一开源框架,如何处理和分析海量数据。这本书的第4版不仅进行了修订,还增加了新的内容,使其更适合当前大数据环境的需求。 Hadoop是...
《Hadoop技术内幕:深入解析MapReduce架构设计i与实现原理》参考资料
hadoop&spark:Hive是一个基于Hadoop的数据仓库平台.zip
《Hadoop技术内幕深入解析YARN架构设计与实现原理》.(董西成).PDF
《Hadoop技术内幕:深入解析MapReduce架构设计i与实现原理》迷你书,会带你认识Hadoop技术
根据提供的文件信息,本文将深入解析《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》这本书中的关键知识点,主要包括Hadoop的核心组件——MapReduce的设计理念、架构组成及其具体的实现原理。 ### Hadoop...
Hadoop权威指南 大数据的存储与分析 第四版
赠送jar包:hadoop-auth-2.6.5.jar 赠送原API文档:hadoop-auth-2.6.5-javadoc.jar 赠送源代码:hadoop-auth-2.6.5-sources.jar 包含翻译后的API文档:hadoop-auth-2.6.5-javadoc-API文档-中文(简体)-英语-对照版...
《Hadoop技术内幕》系列书籍包含了MapReduce、YARN和HDFS三个核心组件的深入解析,是理解Hadoop生态系统不可或缺的资源。以下是这些主题的详细概述: **Hadoop MapReduce** MapReduce是Hadoop处理大数据的主要计算...
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。本文集的文档主要介绍Hadoop的一些概念介绍和操作教程,...
源码的获取是学习和定制Hadoop功能的重要途径,它允许开发者理解Hadoop的内部工作原理。 7. API使用:文档中提到了如何寻找和使用Hadoop的API。API(应用程序编程接口)是与Hadoop进行交互的接口,开发者可以通过...
当启动hadoop或者使用ssh时出现: 输入ifconfig指令发现:自己之前配置的ip:192.168.79.103地址已经发生了变化 怎么解决办法呢? 如下步骤: 重新修改静态ip 输入vi /etc/udev/rules.d/70-persistent-net.rules...
Hadoop是一个开源的分布式计算平台,以其高可靠性、高扩展性和高效性处理大规模数据集而闻名。Hadoop的核心组件HDFS(Hadoop Distributed File System)是实现数据分布式存储的关键。本文将详细探讨Hadoop如何通过...