`

分布式计算Hadoop简介

 
阅读更多
Hadoop是什么:Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。

Hadoop是什么:Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。

Hadoop框架中最核心设计就是:HDFS和MapReduce。HDFS提供了海量数据的存储,MapReduce提供了对数据的计算。

数据在Hadoop中处理的流程可以简单的按照下图来理解:数据通过Haddop的集群处理后得到结果。

HDFS:Hadoop Distributed File System,Hadoop的分布式文件系统。

大文件被分成默认64M一块的数据块分布存储在集群机器中。

如下图中的文件 data1被分成3块,这3块以冗余镜像的方式分布在不同的机器中。

MapReduce:Hadoop为每一个input split创建一个task调用Map计算,在此task中依次处理此split中的一个个记录(record),map会将结果以key--value的形式输出,hadoop负责按key值将map的输出整理后作为Reduce的输入,Reduce Task的输出为整个job的输出,保存在HDFS上。

Hadoop的集群主要由 NameNode,DataNode,Secondary NameNode,JobTracker,TaskTracker组成。

如下图所示:

NameNode中记录了文件是如何被拆分成block以及这些block都存储到了那些DateNode节点。

NameNode同时保存了文件系统运行的状态信息。

DataNode中存储的是被拆分的blocks。

Secondary NameNode帮助NameNode收集文件系统运行的状态信息。

JobTracker当有任务提交到Hadoop集群的时候负责Job的运行,负责调度多个TaskTracker。

TaskTracker负责某一个map或者reduce任务。
1
0
分享到:
评论

相关推荐

    Hadoop进行分布式计算的入门资料

    这篇入门资料将引导我们了解如何利用Hadoop进行分布式计算。 一、Hadoop概述 Hadoop的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce。HDFS是一种分布式文件系统,能够存储大量数据并保证其高可用...

    北京“大数据核心技术之分布式计算hadoop技术探索及应用”高级培训班的通知

    北京“大数据核心技术之分布式计算hadoop技术探索及应用”高级培训班的通知

    王家林的“云计算分布式大数据Hadoop实战高手之路

    Hadoop是一个开源的分布式计算框架,最初由Apache基金会开发,它允许在廉价硬件上处理和存储海量数据。Hadoop的核心组件包括Hadoop Distributed File System(HDFS)和MapReduce,这两个组件共同构成了分布式数据...

    vmware配置Linux完全分布式,hadoop环境搭配

    ### VMware配置Linux完全分布式Hadoop环境 #### 一、前言 随着大数据技术的发展,Hadoop作为处理大规模数据集的开源软件框架,被广泛应用于数据分析领域。为了更好地学习和掌握Hadoop,通常需要在一个分布式环境中...

    一种基于分布式平台Hadoop的矩阵相乘算法.pdf

    Hadoop是一个基于分布式系统的开源框架,提供了一种大容量、可拓展、高可靠的分布式存储系统HDFS(Hadoop Distributed File System),以及一个高性能的分布式计算平台MapReduce。使用Hadoop,可以开发出高性能的...

    王家林的云计算分布式大数据Hadoop深入浅出案例驱动实战

    Hadoop的出现解决了传统关系型数据库在面对大数据量和高并发时的局限性,它利用分布式计算模型MapReduce和分布式文件系统HDFS,实现了数据的高效存储和处理。此外,Hadoop的扩展性使得它可以轻松应对PB级别的数据...

    分布式计算开源框架hadoop入门实践 高清完整中文版PDF下载

    #### 一、Hadoop简介及应用场景 **Hadoop** 是一个由 **Apache** 开源基金会维护的分布式计算框架,它为大规模数据处理提供了一种高效且可靠的方法。Hadoop 最初的设计灵感来源于 Google 发表的两篇论文:**GFS...

    分布式框架Hadoop研究

    Hadoop是一个开源的分布式计算框架,最初源于Doug Cutting发起的Nutch项目,旨在解决大规模数据处理的问题。随着Google发布GFS(Google File System)和MapReduce的论文,Hadoop的核心组件——分布式文件系统(HDFS...

    分布式计算课件(PPT)

    最后,分布式计算课件可能会介绍一些实际的分布式系统和框架,如Google的MapReduce、Apache Hadoop、Spark以及Docker和Kubernetes等容器编排技术,这些工具和框架大大简化了分布式应用程序的开发和部署。 综上所述...

    分布式计算平台Hadoop框架解析.pdf

    Hadoop作为分布式计算领域的佼佼者,拥有庞大的用户基础和丰富的生态系统。 分布式计算平台Hadoop的核心组成部分是Hadoop分布式文件系统(HDFS)和MapReduce计算框架。HDFS提供了一个可靠且高效的文件存储机制,...

    基于Hadoop架构的分布式计算和存储技术及其应用.pdf

    Hadoop架构的应用实例——职工工资统计程序,展示了Hadoop在分布式计算领域的实际应用。在这个实例中,通过对职工工资数据进行统计处理,分析了在单节点模式、伪分布模式和完全分布模式下的运行效率。单节点模式是指...

    分布式计算开源框架Hadoop入门实践.docx

    "分布式计算开源框架Hadoop入门实践" 分布式计算开源框架Hadoop是Apache开源组织的一个开源框架,旨在解决大规模数据处理问题。Hadoop框架中最核心的设计就是MapReduce和HDFS。MapReduce的思想是由Google的一篇论文...

    分布式计算——原理、算法和系统

    1. **Hadoop**:一个开源的分布式计算框架,包括HDFS(分布式文件系统)和MapReduce(分布式计算模型)。 2. **Spark**:基于内存计算的分布式计算引擎,支持批处理、交互式查询、实时流处理等多种计算模式。 3. *...

Global site tag (gtag.js) - Google Analytics