`

快速了解Hadoop架构

阅读更多

Hadoop是一个能够对大量数据进行分布式处理的软件框架, Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。hadoop的集群是基于master/slave模式

 

运行在master上的:NameNode   Secondary NameNode JobTracker

运行在slave上的:DataNode  TaskTracker

 

1、NameNode是HDFS的守护程序,负责记录文件是如何分割成数据块的,以及这些数据块分别被存到那些数据节点上,只要功能是对内存及I/O进行集中管理(是个单点,发生故障将使集群崩溃)

 

2、DataNode这个后台程序负责把HDFS数据块读写到本地的文件系统,当客户端要读写某个数据时候,先由NameNode告诉客户端去哪个DataNode进行具体的读/写操作,然后客户端直接与这个DataNode服务器上的后台程序进行通讯,并且对相关的数据块进行读/写操作。

 

3、SecondaryNameNode:是一个用来监控HDFS状态的辅助后台程序,就像NameNode一样,每个集群都有一个Secondary NameNode,不接收或记录任何任何实时的数据变化,但是,他会与NameNode进行通信,以便定期的保存HDFS元数据的快照,如果Name发生问题,SecondaryNameNode可以及时的作为备用NameNode。

 

4、JobTracker:用来连接应用程序与Hadoop,用户代码提交到集群以后,由JobTracker决定那个文件将被处理,并且为不同的task分配节点,同时,他还监控所有运行的task一旦某个task失败了JobTacker就会自动重新开启task。每个集群只有唯一一个JobTracker,位于Master节点

 

5、TaskTracker:与负责存储的DataNode结合,JobTracker负责分配Tasker,管理各自节点上的task。每个节点只有一个TaskTracker,但一个TaskTracker可以启动多个JVM,用于并行执行map或reduce任务

 

本文接:快速了解Hadoop架构本文由领悟书生原创,转载请注明出处http://www.656463.com/article/376

分享到:
评论
1 楼 kiansoung 2016-08-17  
在Slave机器需不需开SecondaryNameNode程序,我看别人的Slave中有SecondaryNameNode程序,但并不是全部的Slave机器都有,能问一下这是为什么???

相关推荐

    Hadoop架构下的大数据安全存储技术研究.docx

    通过对Hadoop架构的深入研究,读者不仅能理解其基本原理和工作方式,还能了解到Hadoop在实际大数据处理中的应用策略和优化技巧。同时,对于大数据安全存储的需求分析和Hadoop中的安全威胁,读者可以掌握如何设计和...

    Hadoop架构文档

    《Hadoop架构文档》是一份深入探讨Hadoop分布式文件系统的宝贵资料,对于理解并掌握Hadoop的核心原理和技术栈至关重要。Hadoop是大数据处理领域的重要工具,它的设计目标是处理和存储海量数据,提供高容错性和高扩展...

    Hadoop应用架构(并行计算).zip

    Hadoop生态系统的扩展性使得它能够支持众多其他组件,如HBase(一个分布式、高性能、列式存储的NoSQL数据库)、Hive(用于数据仓库和SQL查询的工具)、Pig(提供高级数据处理语言Pig Latin)、Spark(用于快速计算和...

    Hadoop大数据开发基础-PPT课件

    2. **Hadoop架构**:Hadoop由HDFS(Hadoop Distributed File System)和MapReduce两大部分组成。HDFS为大规模数据提供高容错、高吞吐量的存储,而MapReduce则用于并行处理这些数据。 3. **HDFS详解**:HDFS的主从...

    基于Hadoop的分布式系统架构研究.pdf

    文中提到多位学者对Hadoop的研究工作,如李响对Hadoop分布式系统的数据存储和并行计算进行了描述,刘斌研究了HDFS的逻辑架构和物理架构以及MapReduce的设计思路和运行机制,秦滔研究了Hadoop架构的搭建过程和模块...

    hadoop-3.3.6.tar.gz - hadoop 3.3.6 安装包

    Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序。适用于用户进行大数据处理和存储的需求。下载后请按照官方文档进行安装和配置。

    Hadoop1.0&2.0快速入门

    Hadoop的快速入门需要掌握其架构和运行原理。对于初学者来说,理解HDFS、MapReduce、YARN等核心组件的工作方式是关键。此外,了解如何在集群上部署和配置Hadoop,以及如何运行基本的MapReduce作业也是必要的。通过...

    hadoop简介Word版

    Hadoop架构主要由两大部分组成:HDFS和MapReduce引擎。 - **HDFS**:负责数据的存储和管理,数据被分割成块并复制到多个DataNode上,以提高数据的可用性和可靠性。NameNode作为HDFS的主控中心,管理文件系统名称...

    Hadoop 官方文档(中文版)

    - Hadoop 的核心组件:包括HDFS(Hadoop 分布式文件系统)和MapReduce,这两者构成了Hadoop的基础架构。 - Hadoop 安装与配置:如何在本地单机模式、伪分布式模式以及完全分布式模式下安装和配置Hadoop环境。 - ...

    hadoop实验指导书

    1. **Hadoop架构**:Hadoop由HDFS(Hadoop Distributed File System)和MapReduce两大部分构成。HDFS为海量数据提供了分布式存储解决方案,而MapReduce则负责分布式计算任务。 2. **Hadoop安装与配置**:实验会引导...

    Hadoop第一次培训材料

    这个培训材料将帮助你深入了解Hadoop的架构、工作原理以及如何在实际场景中应用。 首先,我们来了解一下Hadoop的核心组件: 1. **HDFS(Hadoop Distributed File System)**:这是Hadoop的数据存储系统,设计为在...

    hadoop-2.7.1.tar.gz

    标题中的"hadoop-2.7.1.tar.gz"是一个压缩包...用户需要了解Hadoop的基本架构和操作流程,以及如何在Windows环境下配置Hadoop的相关参数。同时,这个版本的Hadoop带来了更高效的数据处理能力和更稳定的分布式存储系统。

    hadoop+HBase教程

    在当今信息技术快速发展的时代,分布式存储架构已成为存储和处理海量数据的核心技术之一。Hadoop和HBase是两种广泛应用于分布式存储架构的技术,本文将深入探讨Hadoop+HBase教程,教你如何搭建这种架构。 首先,...

    Hadoop海量数据处理

    Hadoop架构通常包含以下组件: - **NameNode**: 管理HDFS的元数据,如文件名、位置和属性。 - **DataNode**: 存储HDFS的数据块,执行数据读写操作。 - **ResourceManager**: YARN中的主节点,负责全局资源管理。 - ...

    Hadoop中文手册

    1. **Hadoop架构** Hadoop的核心架构由两个主要部分组成:Hadoop Distributed File System (HDFS) 和 MapReduce。HDFS是一种分布式文件系统,它将大文件分割成多个块,这些块存储在多台廉价的服务器上,确保高可用...

    Hadoop学习资料

    Hadoop作为开源分布式系统基础架构,由Apache基金会开发,允许用户在不了解分布式底层细节的情况下开发分布式程序,充分利用集群的威力进行高速运算和存储。它解决了大数据存储和处理的问题,尤其适合处理非结构化...

    Hadoop实战+源代码

    2. **Hadoop架构**:Hadoop集群通常包括NameNode、DataNode、JobTracker和TaskTracker等组件。NameNode负责元数据管理,DataNode负责数据存储,JobTracker调度任务,TaskTracker执行具体任务。YARN(Yet Another ...

Global site tag (gtag.js) - Google Analytics