`

apache hadoop 2

 
阅读更多

apache hadoop 2.x 是在1.x版本上做了重大的改进。

以下是一个关于HDFS和MapReduce的简短的改进概述。

 

HDFS Federation

为了提升name service 的水平扩展性,federation使用多个独立的Namenodes/Namespaces。Namenodes独立运行且不需要与其他namenode协作运行。datanodes为所有namenode提供通用的blocks存储服务。每个datanode注册到集群中所有的namenode上。datanode发送heartbeats、block reports和执行从namenode传来的命令。

 

下一代MapReduce,又名YARN或MRv2

新的架构在hadoop-0.23已经介绍过了,把jobtracker划分成两个主要功能:resource management和job 生命周期管理组件。

新的ResourceManager负责计算机全部资源的分配工作,每个应用的ApplicationMaster管理应用调度和协作工作。

一个应用可以是在原mapreduce那样单一的job或者一组有序任务。

ResourceManager 和每个机器的NodeManager守护进程,负责管理机器上的用户进程,形成计算模型。

实际上每个应用的ApplicationMaster是架构中具体的library,负责向ResourceManager 协调资源,与NodeManager(s)一起协作完成任务执行和监控的工作。

分享到:
评论

相关推荐

    Apache Hadoop2.x 安装入门详解 PDF

    本教程将详细讲解Apache Hadoop 2.x的安装过程,帮助初学者快速入门。 一、Hadoop的体系结构 Hadoop的核心由两个主要组件构成:Hadoop Distributed File System (HDFS) 和 MapReduce。HDFS是一种分布式文件系统,能...

    Pro Apache Hadoop 2nd Edition 2014

    本书《Pro Apache Hadoop 2nd Edition 2014》是关于Apache Hadoop框架的全面介绍,它不仅涵盖了Hadoop 2.0的新特性,还重点介绍了与大数据处理相关的概念和技术。本书的目标读者是已经具备一定基础,并希望进一步...

    Spring Data for Apache Hadoop API(Spring Data for Apache Hadoop 开发文档).CHM

    Spring Data for Apache Hadoop API。 Spring Data for Apache Hadoop 开发文档

    Pro apache Hadoop

    《Pro Apache Hadoop》是一本深入探讨Apache Hadoop生态系统的专业书籍,旨在为读者提供全面且深入的Hadoop知识。Hadoop是大数据处理领域的重要框架,由Apache软件基金会开发,以分布式计算为核心,实现了对海量数据...

    Apache Hadoop YARN

    《Apache Hadoop YARN》,全名Apache Hadoop YARN: Moving beyond MapReduce and Batch Processing with Apache Hadoop 2 (Addison-Wesley Data & Analytics Series) 这本书是2014年3月31号出版的,是基于Hadoop 2...

    Apache Hadoop YARN (完整清晰电子书)

    Apache Hadoop YARN: Moving beyond MapReduce and Batch Processing with Apache Hadoop 2 完整版哦,绝对清晰,不是扫描的mobi格式电子书,请使用电子书库calibre (http://calibre-ebook.com/download) 打开。

    SQL for Apache Hadoop

    标题中提到的“SQL for Apache Hadoop”指向一种通过SQL语言访问和操作Apache Hadoop存储的数据的能力。Hadoop是一个开源的框架,最初由Apache软件基金会开发,设计用于存储和处理大量数据。Hadoop主要采用分布式...

    Hadoop简介及Apache Hadoop三种搭建方式

    2. **伪分布式模式(Pseudo-Distributed Mode)**:在一台机器上模拟分布式环境,每个Hadoop守护进程(如NameNode、DataNode、ResourceManager等)都在单独的Java进程中运行。这提供了一种在单一节点上验证Hadoop...

    Apache Hadoop 3 Quick Start Guide

    Apache Hadoop is a widely used distributed data platform. It enables large datasets to be efficiently processed instead of using one large computer to store and process the data. This book will get ...

    Pro Apache Hadoop, 2nd Edition

    《Pro Apache Hadoop, 2nd Edition》是一本专门介绍Apache Hadoop第二版的专业书籍。Hadoop是一个开源框架,旨在从大型数据集中进行存储和处理的分布式系统。它允许开发者使用简单的编程模型在计算机集群上分布式地...

    TeraByte Sort on Apache Hadoop

    ### TeraByte Sort on Apache Hadoop #### 概述 《TeraByte Sort on Apache Hadoop》是由Yahoo公司的Owen O’Malley撰写的一篇关于Hadoop基准测试方法的论文,该论文详细介绍了一种用于Hadoop平台的大规模数据排序...

    apache hadoop v2.7.0官方最新版

    Apache Hadoop v2.7.0是大数据处理领域的一个关键组件,它是一个开源框架,主要用于分布式存储和计算。Hadoop的出现使得企业能够处理和分析海量数据,即使这些数据超过了单台机器的处理能力。在v2.7.0这个版本中,...

    hadoop插件apache-hadoop-3.1.0-winutils-master.zip

    2. **Java环境**:Hadoop依赖Java运行,因此确保系统已经安装了兼容的JDK,并且JAVA_HOME环境变量已正确设置。 3. **HDFS初始化**:使用`winutils.exe`初始化HDFS文件系统,创建NameNode和DataNode的数据目录,这...

    Apache Hadoop (hadoop-3.3.3.tar.gz)

    Apache Hadoop (hadoop-3.3.3.tar.gz)项目为可靠、可扩展的分布式计算开发开源软件。 Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千...

    Apache Hadoop Goes Realtime at Facebook

    ### Apache Hadoop 实现Facebook实时计算的关键技术与实践 #### 概述 随着大数据时代的到来,数据处理的需求日益增长,特别是在社交媒体平台如Facebook这样的大型应用上。为了应对这些挑战,Facebook选择采用...

Global site tag (gtag.js) - Google Analytics