1.Hadoop 从三个角度将主机划分为二种角色。
第一,最基本划分为Master和Slave;
第二,从HDFS角度上,划分为NameNoe(目录管理者)和DataNode;
第三,从MapReduce角度上,划分为JobTracker和TaskTracker.
2.Hadoop三种运行方式:
单机模式:无需配置,单进程,用于调试;
伪分布式:一个节点的集群,配置简单
完全分布式:
3.起于2002 Apache Nutch.06年独立,HDFS + MapRedue 。HDFS高容错,数据管理,基于Java,移植。MapReduce 处理任务高效及开源。 可靠,可扩展,高效,高容错。
08.02 Yahoo 2000个节点上1W个Hadoop虚拟机处理5PB网页。
4.特点原理:
数据分布存储;NameNode ,DataNode HDFS block; 64MB
分布式并行计算;主控JobTracker,用户提交的计算叫Job,每一个Job会被划分成若干个Tasks,JobTracker负责Job和Tasks的调度,而TaskTracker负责执行Tasks;
本地计算,数据存储在哪台上,就在哪台上执行;
任务粒度;64MB,M个小数据集,M个Map任务;
数据分割, Hash(key) mod R;
数据合并,对中间结果合并;
Reduce,形成最终结果文件 ;
任务管道,结果成为另一个计算任务的输入,开始下一个任务。
5.MapReduce 是大规模数据(TB)计算的利器,Map和Reduce是它的主要思想,来源于函数式编程语言,原理:
Map负责将数据打散,Reduce负责将数据进行聚集,用户只需要实现map和reduce二个接口,即可完成TB级数据的计算,常见的应用包括:日志分析,数据挖掘等数据分析应用,还有科学数据计算等。
相关推荐
这个压缩包“hadoop笔记打包下载(想学hadoop不下载后悔)”显然是一个丰富的学习资源集合,涵盖了Hadoop生态系统的多个重要组成部分。下面将详细解释这些关键知识点。 1. **Hadoop HDFS(Hadoop Distributed File ...
hadoop学习笔记,分天学习,原创,亲测,放心使用,没问题。
Hadoop架构分析之集群结构分析,Hadoop架构分析之HDFS架构分析,Hadoop架构分析之NN和DN原生文档解读,Hadoop MapReduce原理之流程图.Hadoop MapReduce原理之核心类Job和ResourceManager解读.Hadoop MapReduce原理之...
### Hadoop基础知识与实战应用详解 #### 一、Hadoop概览 **1.1 什么是Hadoop?** Hadoop是由Apache Software Foundation所维护的一个开源软件框架,它为大规模数据处理提供了高效、可靠且可扩展的支持。Hadoop的...
根据提供的文件信息,我们可以了解到有关大数据和Hadoop的详细知识点。以下是基于文件内容的知识点梳理: **大数据的基本概念** 大数据指的是无法在一段合理的时间范围内用常规软件工具捕捉、管理和处理的数据集合...
hadoop笔记
### IT十八掌徐培成HADOOP笔记解析 #### Hadoop概述 Hadoop是一个开源的分布式计算框架,它能够高效地处理大型数据集,并通过在集群中的多台计算机上分配数据来实现高度的并行性。Hadoop的核心组成部分包括HDFS...
本资料包“Hadoop笔记(word版).zip”聚焦于Hadoop的配置与大数据处理,旨在帮助初学者和有经验的开发者深入理解并掌握这一核心技术。 Hadoop是Apache软件基金会开发的一个开源分布式计算框架,基于Java实现,设计...
《IT十八掌HADOOP笔记》详述了Hadoop这一分布式计算框架的原理、安装配置以及核心组件。Hadoop由Doug Cutting创立,是一款开源软件,旨在实现可靠、可伸缩的分布式计算。它主要由HDFS(Hadoop Distributed File ...
Hadoop 3.x 笔记 Hadoop 是一个基于分布式存储的大数据处理框架,本文档将详细介绍 Hadoop 3.x 的配置和底层原理,从零搭建集群以及解决遇到的问题,通过图形化的方式更好地理解 Hadoop 的作用。 一、HDFS 组成 ...
【Hadoop笔记1】 在大数据处理领域,Hadoop是一个至关重要的开源框架,它为分布式存储和计算提供了强大的支持。这篇笔记主要围绕Hadoop的核心组件、工作原理以及如何使用Hadoop进行数据处理进行深入探讨。 一、...
云计算,hadoop,学习笔记, dd
【标题】"传智黑马赵星老师hadoop七天课程资料笔记-第一天(全)" 提供的是一份关于Hadoop的全面学习资料,主要聚焦在Hadoop的第一天课程内容。这个资源包涵盖了从基础概念到实际操作的多个方面,旨在帮助初学者快速...
本笔记将全面探讨Hadoop的核心组件——HDFS(Hadoop Distributed File System)和MapReduce。 一、HDFS详解 1. HDFS架构:HDFS由NameNode、DataNode和Secondary NameNode三部分构成。NameNode负责元数据管理,如...
hadoop的学习笔记,web页边版本,学习分布式文件系统的好材料