Hadoop是什么 - - ITeye博客

`

dengwenjun

浏览: 215938 次
性别:
来自: 深圳

最近访客更多访客>>

belle-liang

bianrongxin

4348426qq163

273286251

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

Hadoop是什么

阅读更多

Hadoop是什么？Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架，实现在大量计算机组成的集群中对海量数据进行分布式计算.
Hadoop框架中最核心设计就是：HDFS和MapReduce.HDFS提供了海量数据的存储,MapReduce提供了对数据的计算.
数据在Hadoop中处理的流程可以简单的按照下图来理解:数据通过Haddop的集群处理后得到结果.

HDFS:Hadoop Distributed File System,Hadoop的分布式文件系统.
大文件被分成默认64M一块的数据块分布存储在集群机器中.

如下图中的文件 data1被分成3块,这3块以冗余镜像的方式分布在不同的机器中.

MapReduce:Hadoop为每一个input split创建一个task调用Map计算，在此task中依次处理此split中的一个个记录(record),map会将结果以key--value的形式输出,hadoop负责按key值将map的输出整理后作为Reduce的输入,Reduce Task的输出为整个job的输出，保存在HDFS上.

Hadoop的集群主要由 NameNode,DataNode,Secondary NameNode,JobTracker,TaskTracker组成.

如下图所示:

NameNode中记录了文件是如何被拆分成block以及这些block都存储到了那些DateNode节点.

NameNode同时保存了文件系统运行的状态信息.

DataNode中存储的是被拆分的blocks.

Secondary NameNode帮助NameNode收集文件系统运行的状态信息.

JobTracker当有任务提交到Hadoop集群的时候负责Job的运行,负责调度多个TaskTracker.

TaskTracker负责某一个map或者reduce任务.

分享到：

使用Eclipse构建Maven的Web项目 | jQuery表格单选

2013-11-29 14:48
浏览 994
评论(0)
分类:企业架构
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hadoop是什么分享: 云计算(Cloud Computing)是分布式处理(Distributed Computing)、并行处理(Parallel Computing)和网格计算(Grid Computing)的发展，或者说是这些计算机科学概念的商业实现。

Hadoop是什么？怎么部署.pdf: Hadoop是什么？怎么部署.pdf

windows下的hadoop-3.1.4: 安装Hadoop前，我们首先需要理解Hadoop是什么，它的主要功能和应用场景。 Hadoop是一个由Apache基金会开发的开源框架，它允许用户通过使用简单的编程模型在集群上分布式地处理大数据。Hadoop自身包含几个关键组件，...

【IT十八掌徐培成】Hadoop第01天-05.hadoop伪分布式2.zip: 在深入讲解这个主题之前，我们先来理解一下Hadoop是什么。Hadoop是一个开源的、基于Java的框架，由Apache软件基金会维护，它设计用于处理和存储海量数据。Hadoop的核心组件包括HDFS（Hadoop Distributed File System...

CentOS7 Hadoop 2.7.X 安装部署.docx: 2. Hadoop 需要什么环境？答：Hadoop 需要 JDK 环境，JDK 1.7 或更高版本。 3. 如何安装 JDK？答：卸载系统自带的 OpenJDK，然后解压缩 JDK 软件包，配置环境变量。 4. 如何安装 Hadoop？答：解压缩 Hadoop ...

一、Hadoop简介和 Hadoop结构介绍: 1、Hadoop 是什么 Hadoop是现阶段数据开发的基础，Hadoop通常是指一个更广泛的概念—-Hadoop生态圈(基于或关于Hadoop的大数据开发的各种软件环境) 是Apache公司使用Java语言编写的开源的，分布式系统的基础架构 ...

HadoopHDFS架构概述推荐系统框架图: Hadoop 是什么？Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构，主要解决海量数据的存储和海量数据的分析计算问题。Hadoop 通常是指一个更广泛的概念——Hadoop 生态圈。 Hadoop 的发展历史：Hadoop 的...

演讲: Hadoop与数据分析: 1. **Hadoop概述**：解释Hadoop是什么，为什么需要Hadoop，以及它在大数据处理中的作用。 2. **Hadoop架构**：详述Hadoop的分布式架构，包括HDFS和MapReduce的工作原理。 3. **Hadoop生态**：介绍Hadoop生态系统中的...

在ubuntu上搭建hadoop总结: 首先，我们需要了解Hadoop是什么。Hadoop是一个开源的框架，主要用于处理和存储大量数据。它基于分布式文件系统HDFS，通过MapReduce编程模型处理数据，允许在廉价硬件上进行大数据分析。 **步骤1：安装Java运行环境...

hadoop资料大全-欢迎来下载: 在文件名称列表中，我们看到一个名为“Hadoop是什么分享.pptx”的文件。这很可能是一个PowerPoint演示文稿，详细介绍了Hadoop的基本概念、架构、工作流程，以及可能的使用场景。PPTX文件通常包含图文并茂的解释，...

windows hadoop 下bin文件（含多个版本的winutils.exe）: 首先，我们要理解Hadoop是什么。Hadoop是一个开源的分布式计算框架，由Apache基金会维护，主要用于处理和存储大量数据。它的核心包括两个主要部分：HDFS（Hadoop Distributed File System）和MapReduce。HDFS提供高...

spark-2.1.0-bin-without-hadoop版本的压缩包，直接下载到本地解压后即可使用: 在Ubuntu里安装spark，spark-2.1.0-bin-without-hadoop该版本直接下载到本地后解压即可使用。 Apache Spark 是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式，可针对任何规模...

Hadoop大数据零基础实战培训教程- Avro数据序列化系统(1): Hadoop是什么，为什么要学习Hadoop? Hadoop是一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式...

Hadoop入门帆帆帆帆: 本资源摘要信息对Hadoop进行了详细的介绍，从是什么、发展历史、架构到应用场景、优势等方面进行了全方位的探索，让读者对Hadoop有一个系统的了解。一、Hadoop是什么？ Hadoop是一个由Apache基金会所开发的分布式...

HADOOP_适用初级.doc: 【Hadoop是什么】 Hadoop是由Apache基金会开发的分布式系统基础架构，主要解决海量数据的存储和分析计算问题。Hadoop的出现源于Doug Cutting为实现类似Google的全文搜索功能而开创的Lucene项目。随着数据量的增长，...

hadoop平台搭建: 有关大数据hadoop平台的搭建过程，里面有关于上传以及下载的操作。

windows hadoop: 首先，了解Hadoop是什么至关重要。Hadoop是一个开源的分布式计算框架，由Apache软件基金会维护，它允许处理和存储大规模数据集。Hadoop的核心组件包括Hadoop Distributed File System (HDFS)和MapReduce，前者提供了...

Hadoop大数据零基础实战培训教程-Avro数据序列化系统(2): Hadoop是什么，为什么要学习Hadoop? Hadoop是一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式...

hadoop的dll文件 hadoop.zip: Hadoop是一个开源的分布式计算框架，由Apache基金会开发，它主要设计用于处理和存储大量数据。在提供的信息中，我们关注的是"Hadoop的dll文件"，这是一个动态链接库（DLL）文件，通常在Windows操作系统中使用，用于...

hadoop2.7.3 Winutils.exe hadoop.dll: 在IT行业中，Hadoop是一个广泛使用的开源框架，主要用于大数据处理和分布式存储。Hadoop 2.7.3是这个框架的一个稳定版本，它包含了多个改进和优化，以提高性能和稳定性。在这个版本中，Winutils.exe和hadoop.dll是两...

Global site tag (gtag.js) - Google Analytics