`
ponlya
  • 浏览: 164676 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
社区版块
存档分类
最新评论

Hadoop笔记

 
阅读更多

1.Hadoop 从三个角度将主机划分为二种角色。

第一,最基本划分为Master和Slave;

第二,从HDFS角度上,划分为NameNoe(目录管理者)和DataNode;

第三,从MapReduce角度上,划分为JobTracker和TaskTracker.

2.Hadoop三种运行方式:

 单机模式:无需配置,单进程,用于调试;

 伪分布式:一个节点的集群,配置简单

 完全分布式:

3.起于2002 Apache Nutch.06年独立,HDFS + MapRedue 。HDFS高容错,数据管理,基于Java,移植。MapReduce 处理任务高效及开源。  可靠,可扩展,高效,高容错。

08.02 Yahoo 2000个节点上1W个Hadoop虚拟机处理5PB网页。

4.特点原理:

 数据分布存储;NameNode ,DataNode HDFS block; 64MB

 分布式并行计算;主控JobTracker,用户提交的计算叫Job,每一个Job会被划分成若干个Tasks,JobTracker负责Job和Tasks的调度,而TaskTracker负责执行Tasks;

 本地计算,数据存储在哪台上,就在哪台上执行;

 任务粒度;64MB,M个小数据集,M个Map任务;

 数据分割, Hash(key) mod R;

 数据合并,对中间结果合并;

 Reduce,形成最终结果文件 ;

 任务管道,结果成为另一个计算任务的输入,开始下一个任务。

5.MapReduce 是大规模数据(TB)计算的利器,Map和Reduce是它的主要思想,来源于函数式编程语言,原理:

 Map负责将数据打散,Reduce负责将数据进行聚集,用户只需要实现map和reduce二个接口,即可完成TB级数据的计算,常见的应用包括:日志分析,数据挖掘等数据分析应用,还有科学数据计算等。

分享到:
评论

相关推荐

    hadoop笔记打包下载(想学hadoop不下载后悔)

    这个压缩包“hadoop笔记打包下载(想学hadoop不下载后悔)”显然是一个丰富的学习资源集合,涵盖了Hadoop生态系统的多个重要组成部分。下面将详细解释这些关键知识点。 1. **Hadoop HDFS(Hadoop Distributed File ...

    linux+hadoop笔记(一)

    hadoop学习笔记,分天学习,原创,亲测,放心使用,没问题。

    hadoop笔记

    Hadoop架构分析之集群结构分析,Hadoop架构分析之HDFS架构分析,Hadoop架构分析之NN和DN原生文档解读,Hadoop MapReduce原理之流程图.Hadoop MapReduce原理之核心类Job和ResourceManager解读.Hadoop MapReduce原理之...

    hadoop 笔记

    ### Hadoop基础知识与实战应用详解 #### 一、Hadoop概览 **1.1 什么是Hadoop?** Hadoop是由Apache Software Foundation所维护的一个开源软件框架,它为大规模数据处理提供了高效、可靠且可扩展的支持。Hadoop的...

    hadoop笔记2.pdf

    根据提供的文件信息,我们可以了解到有关大数据和Hadoop的详细知识点。以下是基于文件内容的知识点梳理: **大数据的基本概念** 大数据指的是无法在一段合理的时间范围内用常规软件工具捕捉、管理和处理的数据集合...

    hadoop笔记(word版本).zip

    hadoop笔记

    IT十八掌徐培成HADOOP笔记

    ### IT十八掌徐培成HADOOP笔记解析 #### Hadoop概述 Hadoop是一个开源的分布式计算框架,它能够高效地处理大型数据集,并通过在集群中的多台计算机上分配数据来实现高度的并行性。Hadoop的核心组成部分包括HDFS...

    Hadoop笔记(word版).zip_Hadoop配置_大数据

    本资料包“Hadoop笔记(word版).zip”聚焦于Hadoop的配置与大数据处理,旨在帮助初学者和有经验的开发者深入理解并掌握这一核心技术。 Hadoop是Apache软件基金会开发的一个开源分布式计算框架,基于Java实现,设计...

    IT十八掌HADOOP笔记.docx

    《IT十八掌HADOOP笔记》详述了Hadoop这一分布式计算框架的原理、安装配置以及核心组件。Hadoop由Doug Cutting创立,是一款开源软件,旨在实现可靠、可伸缩的分布式计算。它主要由HDFS(Hadoop Distributed File ...

    hadoop3.x笔记.docx

    Hadoop 3.x 笔记 Hadoop 是一个基于分布式存储的大数据处理框架,本文档将详细介绍 Hadoop 3.x 的配置和底层原理,从零搭建集群以及解决遇到的问题,通过图形化的方式更好地理解 Hadoop 的作用。 一、HDFS 组成 ...

    hadoop笔记1

    【Hadoop笔记1】 在大数据处理领域,Hadoop是一个至关重要的开源框架,它为分布式存储和计算提供了强大的支持。这篇笔记主要围绕Hadoop的核心组件、工作原理以及如何使用Hadoop进行数据处理进行深入探讨。 一、...

    云计算hadoop学习笔记

    云计算,hadoop,学习笔记, dd

    传智黑马赵星老师hadoop七天课程资料笔记-第一天(全)

    【标题】"传智黑马赵星老师hadoop七天课程资料笔记-第一天(全)" 提供的是一份关于Hadoop的全面学习资料,主要聚焦在Hadoop的第一天课程内容。这个资源包涵盖了从基础概念到实际操作的多个方面,旨在帮助初学者快速...

    hadoop笔记.zip

    本笔记将全面探讨Hadoop的核心组件——HDFS(Hadoop Distributed File System)和MapReduce。 一、HDFS详解 1. HDFS架构:HDFS由NameNode、DataNode和Secondary NameNode三部分构成。NameNode负责元数据管理,如...

    hadoop笔记(web)

    hadoop的学习笔记,web页边版本,学习分布式文件系统的好材料

Global site tag (gtag.js) - Google Analytics