`

hadoop笔记1

 
阅读更多

hdfs mapreduce简介

 

Hadoop组件

 

结构组成

 

   Hadoop2个主要的主件组成:hdfs,mapreduce

 

1)       Hdfs

 

分布式文件系统,按照组成分为

 

masterNode: nameNode,JobTracker,SecondaryNameNode

 

slaveNode: DataNode,TaskTracker

 

nameNode:文件在各节点分块对应表。

 

SecondaryNameNode:文件分布快照,是NameNode的补充节点。

 

DataNode:数据的io操作。

 

taskTracker:各节点的操作监视节点

 

2)       Mapreduce

 

设计为hdfs文件的计算组件。

 

分为:mapper

 

      reducer

 

Mapreduce执行步骤

 

     Mapper负责从hdfs文件系统读取信息,然后输出给reducer,reducer在输出到hdfs文件系统。

 

输入输出格式:

 

           Map(k1,v1)àlist(k2,v2)

 

           Reduce(k2,list(v2))-àlist(k3,v3)

 

 

 

     Hdfs--àInput split--àmap--àcombiner--àshuffling---àreduce--àhdfs

 

其中shuffling中有分区的动作(partitioner)

 

 

 

Input split中包含了

 

文件分块:一个文件分割在一个机器节点上的多个块,或者不同机器节点上。

 

inputFormat: 文件分割到读取文件以什么格式给mapper.

 

            TextInputFormat

 

            KeyValueTextInputFormat

 

            默认实现为FileInputFormat的子类,其中有2个方法

 

getSplits

 

getRecordReader此方法就是决定传什么样的值(RecordReader                                              map方法。

 

      Reduc后调用outputformat来写入文件

 

                默认是textoutputformat

 

      都是FileoutputFormat子类。

 

分享到:
评论

相关推荐

    linux+hadoop笔记(一)

    hadoop学习笔记,分天学习,原创,亲测,放心使用,没问题。

    hadoop笔记2.pdf

    根据提供的文件信息,我们可以了解到有关大数据和Hadoop的详细知识点。以下是基于文件内容的知识点梳理: **大数据的基本概念** 大数据指的是无法在一段合理的时间范围内用常规软件工具捕捉、管理和处理的数据集合...

    hadoop笔记打包下载(想学hadoop不下载后悔)

    这个压缩包“hadoop笔记打包下载(想学hadoop不下载后悔)”显然是一个丰富的学习资源集合,涵盖了Hadoop生态系统的多个重要组成部分。下面将详细解释这些关键知识点。 1. **Hadoop HDFS(Hadoop Distributed File ...

    hadoop 笔记

    ### Hadoop基础知识与实战应用详解 #### 一、Hadoop概览 **1.1 什么是Hadoop?** Hadoop是由Apache Software Foundation所维护的一个开源软件框架,它为大规模数据处理提供了高效、可靠且可扩展的支持。Hadoop的...

    Hadoop笔记

    1. **上传Hadoop压缩包**:将Hadoop压缩包上传至`hduser`用户的home目录。 2. **解压Hadoop**:使用命令`tar -zxf hadoop-2.6.0.tar.gz`解压。 3. **重命名Hadoop目录**:使用命令`mv hadoop-2.6.0 hadoop`。 4. **...

    云计算hadoop学习笔记

    云计算,hadoop,学习笔记, dd

    hadoop笔记

    Hadoop架构分析之集群结构分析,Hadoop架构分析之HDFS架构分析,Hadoop架构分析之NN和DN原生文档解读,Hadoop MapReduce原理之流程图.Hadoop MapReduce原理之核心类Job和ResourceManager解读.Hadoop MapReduce原理之...

    hadoop3.x笔记.docx

    Hadoop 3.x 笔记 Hadoop 是一个基于分布式存储的大数据处理框架,本文档将详细介绍 Hadoop 3.x 的配置和底层原理,从零搭建集群以及解决遇到的问题,通过图形化的方式更好地理解 Hadoop 的作用。 一、HDFS 组成 ...

    Hadoop学习笔记

    Hadoop学习笔记,自己总结的一些Hadoop学习笔记,比较简单。

    hadoop笔记(word版本).zip

    hadoop笔记

    最新Hadoop学习笔记

    **Hadoop学习笔记详解** Hadoop是一个开源的分布式计算框架,由Apache基金会开发,主要用于处理和存储海量数据。它的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce,两者构成了大数据处理的基础...

    Hadoop 学习笔记.md

    Hadoop 学习笔记.md

    传智黑马赵星老师hadoop七天课程资料笔记-第一天(全)

    1. "ssh免登录.jpg" - 这可能是关于如何配置SSH免密登录的教程,这对于在分布式环境中管理Hadoop集群是必要的,可以简化节点间的通信。 2. "hadoop-shell.pdf" - 这可能涵盖使用Hadoop Shell命令行工具进行数据操作...

    hadoop集群安装笔记

    "Hadoop集群安装笔记" Hadoop集群安装笔记是一篇详细的安装指南,旨在帮助新手快速搭建Hadoop学习环境。以下是该笔记中的重要知识点: Hadoop集群安装目录 在安装Hadoop集群之前,需要准备好安装环境。安装环境...

    IT十八掌徐培成HADOOP笔记

    ### IT十八掌徐培成HADOOP笔记解析 #### Hadoop概述 Hadoop是一个开源的分布式计算框架,它能够高效地处理大型数据集,并通过在集群中的多台计算机上分配数据来实现高度的并行性。Hadoop的核心组成部分包括HDFS...

    传智黑马赵星老师hadoop七天课程资料笔记-第七天(全)

    1. a4.conf, a2.conf, a1.conf, a3.conf:这些可能是Hadoop配置文件,可能包含了Hadoop集群的设置信息,如HDFS的配置、MapReduce的参数调整等,用于优化Hadoop环境的性能。 2. daily:可能是课程的每日总结或作业,...

    Hadoop学习笔记.pdf

    Hadoop的源码项目结构主要包括hadoop-common-project、hadoop-hdfs-project、hadoop-mapreduce-project、hadoop-yarn-project等,每个项目下又有多个子项目,包含了Hadoop运行所需的各个组件和客户端等。 在实际...

    大数据之Hadoop学习教程+笔记合计_超详细完整.zip

    大数据之Hadoop学习教程+笔记合计_超详细完整.zip

Global site tag (gtag.js) - Google Analytics