`

浅析Hadoop两大核心组件的体系结构

阅读更多

HDFS和MapReduce是Hadoop的两大核心。而整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持的,并且它会通过MapReduce来实现对分布式并行任务处理的程序支持。

HDFS的体系结构

我们首先介绍HDFS的体系结构,HDFS采用了主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器,管理文件系统的命名空间和客户端对文件的访问操作;集群中的DataNode管理存储的数据。HDFS允许用户以文件的形式存储数据。从内部来看,文件被分成若干个数据块,而且这若干个数据块存放在一组DataNode上。NameNode执行文件系统的命名空间操作,比如打开、关闭、重命名文件或目录等,它也负责数据块到具体DataNode的映射。DataNode负责处理文件系统客户端的文件读写请求,并在NameNode的统一调度下进行数据块的创建、删除和复制工作。下图给出了HDFS的体系结构。


NameNode和DataNode都被设计成可以在普通商用计算机上运行。这些计算机通常运行的是GNU/Linux操作系统。HDFS采用Java语言开发,因此任何支持Java的机器都可以部署NameNode和DataNode。一个典型的部署场景是集群中的一台机器运行一个NameNode实例,其他机器分别运行一个DataNode实例。当然,并不排除一台机器运行多个DataNode实例的情况。集群中单一的NameNode的设计则大大简化了系统的架构。NameNode是所有HDFS元数据的管理者,用户数据永远不会经过NameNode。

MapReduce的体系结构

接下来介绍MapReduce的体系结构,MapReduce是一种并行编程模式,这种模式使得软件开发者可以轻松地编写出分布式并行程序。在Hadoop的体系结构中,MapReduce是一个简单易用的软件框架,基于它可以将任务分发到由上千台商用机器组成的集群上,并以一种高容错的方式并行处理大量的数据集,实现Hadoop的并行任务处理功能。MapReduce框架是由一个单独运行在主节点上的JobTracker和运行在每个集群从节点上的TaskTracker共同组成的。主节点负责调度构成一个作业的所有任务,这些任务分布在不同的从节点上。主节点监控它们的执行情况,并且重新执行之前失败的任务;从节点仅负责由主节点指派的任务。当一个Job被提交时,JobTracker接收到提交作业和配置信息之后,就会将配置信息等分发给从节点,同时调度任务并监控TaskTracker的执行。

从上面的介绍可以看出,HDFS和MapReduce共同组成了Hadoop分布式系统体系结构的核心。HDFS在集群上实现了分布式文件系统,MapReduce在集群上实现了分布式计算和任务处理。HDFS在MapReduce任务处理过程中提供了文件操作和存储等支持,MapReduce在HDFS的基础上实现了任务的分发、跟踪、执行等工作,并收集结果,二者相互作用,完成了Hadoop分布式集群的主要任务。


ref:http://cloud.watchstor.com/storage-140774.htm
  • 大小: 25.9 KB
分享到:
评论

相关推荐

    hadoop核心技术

    本主题“Hadoop核心技术”将深入探讨Hadoop的基本原理、核心组件以及如何进行优化配置,最后通过实例来加深理解。 首先,我们来看Hadoop的基本原理。Hadoop的核心思想是“分而治之”(MapReduce),它将大规模数据...

    hadoop大数据生态圈组件

    在大数据处理领域,Hadoop是不可或缺的核心框架,它构建了一个分布式的存储和计算环境,能够处理海量的数据。Hadoop大数据生态圈则围绕着Hadoop发展出了一系列互补性的组件,以实现更高效、更全面的数据处理解决方案...

    hadoop环境部署全套组件,下载后直接可用(虚拟机全套)

    本资源提供的是一套完整的Hadoop环境部署,包括了多个关键组件,旨在帮助用户快速搭建一个功能齐全的大数据处理平台。这套虚拟机镜像包含了以下组件: 1. **HDFS (Hadoop Distributed File System)**:Hadoop的核心...

    Hadoop核心组件安装及配置

    ### Hadoop核心组件安装及配置知识点详解 #### Hadoop简介 Hadoop是一个开源软件框架,主要用于分布式存储和处理大规模数据集。它通过提供一个高效、可靠且可扩展的平台,支持大量的并发用户对数据进行访问。Hadoop...

    Hadoop基础hadoop核心组件课件.ppt

    hadoop平台构建与应用

    hadoop3.2.1 各组件安装教程

    hadoop3.2.1 各组件安装教程

    Hadoop各个组件大概介绍

    Spark和Hadoop是两个不同的概念,Hadoop是一个大数据处理的开源框架,而Spark是Hadoop生态系统中的数据处理引擎。Spark可以独立于Hadoop使用,也可以与Hadoop集成使用。 8. Hive(基于Hadoop的数据仓库) Hive是...

    hadoop 1.2.1核心源码

    1. **Hadoop架构**:Hadoop的核心由两个主要部分组成:HDFS(Hadoop Distributed File System)和MapReduce。HDFS是一个分布式文件系统,用于存储大量数据;MapReduce则是一种编程模型,用于并行处理这些数据。 2. ...

    hadoop的核心文件

    Hadoop是大数据处理领域的一个关键框架,其核心组件主要包括HDFS(Hadoop Distributed File System)和MapReduce。本文将深入探讨Hadoop的核心文件,特别是针对Nutch项目中使用的Hadoop核心JAR包。 Nutch是一个开源...

    hadoop 组件详细安装步骤

    大数据组件 详细安装步骤(linux配置 hadoop集群搭建 hive flume kafka spark zk 搭建安装)

    hadoop组件程序包.zip

    本文将针对标题为“hadoop组件程序包.zip”的资源,深入解析其中包含的组件、安装流程以及对初学者的重要性,帮助初学者快速掌握Hadoop的核心知识。 一、Hadoop核心组件 1. HDFS(Hadoop Distributed File System...

    Hadoop大数据处理讲义-C3. Hadoop体系架构

    本讲义将深入探讨Hadoop的体系结构,帮助理解其核心组件、工作原理以及如何高效地利用这一分布式计算平台。 **一、Hadoop核心组件** 1. **Hadoop Distributed File System (HDFS)**:HDFS是Hadoop的核心部分,是一...

    hadoop组件tar.gz安装包

    这个“hadoop组件tar.gz安装包”集合了多个关键的组件,为搭建一个完整的大数据处理环境提供了便利。让我们详细了解一下这些组件以及它们各自的功能。 首先,Hadoop本身是由Apache软件基金会开发的分布式计算系统,...

    详解Hadoop核心架构HDFS

    MapReduce是Hadoop提供的另一个核心组件,用于处理大规模数据集的分布式并行计算任务。 ##### 架构组成 MapReduce由以下两部分组成: - **JobTracker**:作为主节点,JobTracker负责调度整个作业的任务分配,监控...

    Hadoop实现大矩阵乘法

    MapReduce是Hadoop的核心组件,它将复杂任务分解为可并行执行的map任务和reduce任务。在大矩阵乘法的实现中,map阶段负责将大矩阵划分为小块,每个map任务处理一部分矩阵块。这里,我们可能会将矩阵A按行切分,矩阵B...

    hadoop和spark核心框架

    Hadoop的核心优势在于其强大的数据处理能力和对海量数据的支持,这主要得益于两个关键组件:HDFS和MapReduce。 ##### HDFS(Hadoop Distributed File System) HDFS是Hadoop的核心组件之一,它是一个高度可扩展且...

    Hadoop-体系架构(非常完整)

    Hadoop 体系架构是大数据处理的核心组件之一,它由MapReduce引擎和分布式文件系统两部分组成。MapReduce引擎能够在整个集群上执行Map和Reduce任务并报告结果,而分布式文件系统提供了一种存储模式,可以跨节点复制...

    hadoop知识结构图

    hadoop知识结构图 hadoop知识结构图 hadoop知识结构图 hadoop知识结构图

Global site tag (gtag.js) - Google Analytics