hdfs mapreduce简介
Hadoop组件
结构组成
Hadoop由2个主要的主件组成:hdfs,mapreduce
1) Hdfs
分布式文件系统,按照组成分为
masterNode: nameNode,JobTracker,SecondaryNameNode
slaveNode: DataNode,TaskTracker
nameNode:文件在各节点分块对应表。
SecondaryNameNode:文件分布快照,是NameNode的补充节点。
DataNode:数据的io操作。
taskTracker:各节点的操作监视节点
2) Mapreduce
设计为hdfs文件的计算组件。
分为:mapper
reducer
Mapreduce执行步骤
Mapper负责从hdfs文件系统读取信息,然后输出给reducer,reducer在输出到hdfs文件系统。
输入输出格式:
Map(k1,v1)àlist(k2,v2)
Reduce(k2,list(v2))-àlist(k3,v3)
Hdfs--àInput split--àmap--àcombiner--àshuffling---àreduce--àhdfs
其中shuffling中有分区的动作(partitioner)
Input split中包含了
文件分块:一个文件分割在一个机器节点上的多个块,或者不同机器节点上。
inputFormat: 文件分割到读取文件以什么格式给mapper.
TextInputFormat
KeyValueTextInputFormat
默认实现为FileInputFormat的子类,其中有2个方法
getSplits
getRecordReader此方法就是决定传什么样的值(RecordReader) 给map方法。
Reduc后调用outputformat来写入文件
默认是textoutputformat
都是FileoutputFormat子类。
相关推荐
hadoop学习笔记,分天学习,原创,亲测,放心使用,没问题。
根据提供的文件信息,我们可以了解到有关大数据和Hadoop的详细知识点。以下是基于文件内容的知识点梳理: **大数据的基本概念** 大数据指的是无法在一段合理的时间范围内用常规软件工具捕捉、管理和处理的数据集合...
这个压缩包“hadoop笔记打包下载(想学hadoop不下载后悔)”显然是一个丰富的学习资源集合,涵盖了Hadoop生态系统的多个重要组成部分。下面将详细解释这些关键知识点。 1. **Hadoop HDFS(Hadoop Distributed File ...
### Hadoop基础知识与实战应用详解 #### 一、Hadoop概览 **1.1 什么是Hadoop?** Hadoop是由Apache Software Foundation所维护的一个开源软件框架,它为大规模数据处理提供了高效、可靠且可扩展的支持。Hadoop的...
1. **上传Hadoop压缩包**:将Hadoop压缩包上传至`hduser`用户的home目录。 2. **解压Hadoop**:使用命令`tar -zxf hadoop-2.6.0.tar.gz`解压。 3. **重命名Hadoop目录**:使用命令`mv hadoop-2.6.0 hadoop`。 4. **...
云计算,hadoop,学习笔记, dd
Hadoop架构分析之集群结构分析,Hadoop架构分析之HDFS架构分析,Hadoop架构分析之NN和DN原生文档解读,Hadoop MapReduce原理之流程图.Hadoop MapReduce原理之核心类Job和ResourceManager解读.Hadoop MapReduce原理之...
Hadoop 3.x 笔记 Hadoop 是一个基于分布式存储的大数据处理框架,本文档将详细介绍 Hadoop 3.x 的配置和底层原理,从零搭建集群以及解决遇到的问题,通过图形化的方式更好地理解 Hadoop 的作用。 一、HDFS 组成 ...
Hadoop学习笔记,自己总结的一些Hadoop学习笔记,比较简单。
hadoop笔记
**Hadoop学习笔记详解** Hadoop是一个开源的分布式计算框架,由Apache基金会开发,主要用于处理和存储海量数据。它的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce,两者构成了大数据处理的基础...
Hadoop 学习笔记.md
1. "ssh免登录.jpg" - 这可能是关于如何配置SSH免密登录的教程,这对于在分布式环境中管理Hadoop集群是必要的,可以简化节点间的通信。 2. "hadoop-shell.pdf" - 这可能涵盖使用Hadoop Shell命令行工具进行数据操作...
"Hadoop集群安装笔记" Hadoop集群安装笔记是一篇详细的安装指南,旨在帮助新手快速搭建Hadoop学习环境。以下是该笔记中的重要知识点: Hadoop集群安装目录 在安装Hadoop集群之前,需要准备好安装环境。安装环境...
### IT十八掌徐培成HADOOP笔记解析 #### Hadoop概述 Hadoop是一个开源的分布式计算框架,它能够高效地处理大型数据集,并通过在集群中的多台计算机上分配数据来实现高度的并行性。Hadoop的核心组成部分包括HDFS...
1. a4.conf, a2.conf, a1.conf, a3.conf:这些可能是Hadoop配置文件,可能包含了Hadoop集群的设置信息,如HDFS的配置、MapReduce的参数调整等,用于优化Hadoop环境的性能。 2. daily:可能是课程的每日总结或作业,...
Hadoop的源码项目结构主要包括hadoop-common-project、hadoop-hdfs-project、hadoop-mapreduce-project、hadoop-yarn-project等,每个项目下又有多个子项目,包含了Hadoop运行所需的各个组件和客户端等。 在实际...
大数据之Hadoop学习教程+笔记合计_超详细完整.zip