学习Hadoop也有一段时间了。起先从Hadoop-1.2.1开始,略会写点MapReduce,还是想要跟上Hadoop发展的步伐,虽说现在官方已经发布2.4.0版本了,但是稳定版还是2.2.0。在机器上跑了一下,发现2.x比起1.x,变化还是很大的,更加模块化了。决定从官网的文档开始入手,现在也略有些时间,就一边学习一边将其翻译成中文好了,不过英文比较烂。大概每天翻译一节吧。
-----------------------------------------------------------------------------------------------
Apache Hadoop 2.2.0
Apache Hadoop 2.2.0 比起之前的稳定发行版(hadoop-1.x),有一些明显的改进。
这是对HDFS和MapReduce的改进的简短概览。
为了能对name service进行水平的扩展,federation使用了多个独立的Namenodes/Namespaces。这些Namenodes是联合的,也就是说,这些Namenodes是独立的并且不要求相互协调。datanodes被namenodes用来作为块的公共存储区。每个datanode在集群中所有的namenode上都会进行注册,datanodes将周期性的给namenodes发送心跳检测、块报告和一些操作命令。
更多细节可以查看HDFS Federration文档。
在hadoop-0.23中引入了新的架构,把Jobtracker划分成了两个主要的功能:资源管理和job生命周期管理变成 两个独立的组件。
新的资源管理器将在全局为应用分配计算资源,每个应用的应用管理器管理着应用的调度和协调。
一个应用要么是一个经典的mapreduce job要么是一个DAG job。
资源管理器和每台机器NodeManager守护进程,管理者用户在那台机器上的处理,组成计算网。
每一个应用的应用管理器,实际上是一个特定的类库框架,其任务是同ResourceManager协调资源,并且同NodeManager一起执行和监视任务。
更多细节可查看YARN文档。
开始
Hadoop 文档包含了你开始使用Hadoop所需要的信息。从单节点安装开始,这里会告诉你如何设置一个单节点。之后就转向集群设置学习如何设置一个集群。
分享到:
相关推荐
自己编译的64bithadoop-2.2.0版本 [INFO] Reactor Summary: ...This command was run using /home/hadoop/Desktop/hadoop-2.2.0-src/hadoop-dist/target/hadoop-2.2.0/share/hadoop/common/hadoop-common-2.2.0.jar
hadoop-common-2.2.0-bin-32.rarhadoop-common-2.2.0-bin-32.rarhadoop-common-2.2.0-bin-32.rarhadoop-common-2.2.0-bin-32.rarhadoop-common-2.2.0-bin-32.rarhadoop-common-2.2.0-bin-32.rarhadoop-common-2.2.0-...
标题 "hadoop-common-2.2.0-bin" 指的是Hadoop的公共库模块在2.2.0版本的二进制发行版。这个发行版包含了运行Hadoop分布式文件系统(HDFS)和MapReduce计算框架所需的基本组件和服务。Hadoop是大数据处理的核心工具...
hadoop-common-2.2.0-bin-master(包含windows端开发Hadoop和Spark需要的winutils.exe),Windows下IDEA开发Hadoop和Spark程序会报错,原因是因为如果本机操作系统是windows,在程序中使用了hadoop相关的东西,比如写入...
Hadoop Common 2.2.0是Apache Hadoop项目的核心组件之一,它提供了Hadoop生态系统中的通用工具和服务,支持分布式存储和计算。这个版本尤其适用于在Windows环境中进行Hadoop Java API的开发工作。下面将对Hadoop ...
hadoop-2.2.0.tar.gz
Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce。这个压缩包“hadoop-common-2.2.0-bin-master”是Hadoop 2.2.0版本的公共库二进制...
hadoop-2.2.0 64bit下载,自己编译的 [INFO] Reactor Summary: [INFO] [INFO] Apache Hadoop Main ................................ SUCCESS [1.834s] [INFO] Apache Hadoop Project POM ...........................
为了方便开发者在Eclipse中直接操作和管理Hadoop集群,Apache Hadoop社区开发了Hadoop Eclipse Plugin。本文将深入探讨这个名为“hadoop-eclipse-plugin-2.2.0”的插件,以及它如何为Hadoop-2.2.0版本提供支持。 ...
Apache Hadoop 2.2.0 is the GA release of Apache Hadoop 2.x. Users are encouraged to immediately move to 2.2.0 since this release is significantly more stable and is guaranteed to remain compatible in...
hadoop-auth-2.2.0.jar
Hadoop 2.2.0版本是Hadoop发展过程中的一个重要里程碑,引入了许多改进和新特性,增强了系统的稳定性和性能。本篇文章将深入探讨Hadoop 2.2.0开发过程中依赖的jar包及其重要性。 首先,我们要理解的是,Java ...
Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它的核心设计是处理和存储大量数据,尤其适合大数据分析。Hadoop 2.2.0版本是一个重要的里程碑,它引入了诸多性能优化和功能改进,旨在提高系统的稳定性和...
hadoop-eclipse-plugin-2.2.0.jar hadoop安装eclipse必备插件,亲测可用,欢迎大家下载,交换下载币,谢谢!
用户在下载hadoop-2.2.0.tar.gz后,可以通过`tar -zxfv hadoop-2.2.0.tar.gz`命令进行解压缩,然后配置环境变量,启动Hadoop集群,进行数据的存储和计算。 接下来是Zookeeper 3.4.5。这个版本是Zookeeper的一个经典...
hadoop-2.2.0-api 用于java 开发hadoop mr 应用
[root@master hadoop-2.2.0]# file lib//native/* lib//native/libhadoop.a: current ar archive lib//native/libhadooppipes.a: current ar archive lib//native/libhadoop.so: symbolic link to `libhadoop.so....
本文将深入探讨Hadoop-2.2.0版本针对Ubuntu AMD64的本地库问题及其解决方案。 Hadoop最初设计时主要考虑了32位系统,但随着技术的发展,64位系统已经成为主流。然而,在Hadoop-2.2.0这个特定版本中,官方默认发布的...
Hadoop-2.2.0源码包是一个关键资源,对于深入理解Hadoop框架的运行机制、进行二次开发或在Eclipse环境中调试Hadoop项目至关重要。这个版本的Hadoop源码包含了所有相关的Java源文件、配置文件以及构建脚本,为开发者...
Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它的核心设计是基于Google的MapReduce编程模型和GFS(Google File System)分布式文件系统的概念。Hadoop-2.2.0是这个项目的一个重要版本,它在Hadoop的发展...