Hadoop核心:
Hadoop的核心就是HDFS和MapReduce:
HDFS:分布式文件系统
特点:大数据文件:适合大数据文件的存储。
文件分块存储:HDFS会将一大块数据分别存储到不同的计算机上,这样有益于在同时读取多个主机取不同区块的文件。
廉价硬件:HDFS可以应用在普通的PC上,这种机制能够公司用几十台廉价的计算机就可以撑起一个大的数据集群。
硬件故障:HDFS认为所有的计算机都会出现问题,为了防止某个主机失效读取不到该主机的快文件,他将一个文件块副本分配到其他的主机上
,如果其中一台主机失效也可以迅速找到另一块副本取文件。
流式数据访问:特点就是,像流水一样,不是一次过来而是一点一点“流”过来。而你处理流式数据也是一点一点处理。
如果是全部收到数据以后再处理,那么延迟会很大,而且在很多场合会消耗大量内存。
HDFS关键元素:
block:将一个文件进行分块,通常是64M。
Namecode:保存文件的系统的目录信息,文件信息及分块信息,这是由一台主机专门保存,当然这台主机出错,Namecode即失效了。在Hadoop2之后,在主机Namecode失效的时候就会启动备用主机运行Namecode。
DataNode:分布在廉价的计算机上用于存储block块文件。
MapReduce:可以从海量数据中提取分析我们需要的内容就是MapReduce做的事了。
一个银行有上亿的用户,想要从中得到存钱最多的用户?
MapReduce解决办法:首先数字是分布在不同的块中,以某几个快为一个Map,计算Map中的最大值,然后将每个Map中的最大值做Reduce操作,reduce再取最大值给用户。
分享到:
相关推荐
《Hadoop大数据开发实战》教学教案—01初识Hadoop的内容主要涵盖了大数据的基本概念、核心需求以及Hadoop框架的初步介绍。在这个章节中,学习者将了解到大数据在当今信息化社会中的重要地位,并掌握大数据的基本特征...
【初识Hadoop之Hadoop安装】 Hadoop是Apache软件基金会的一个开源分布式计算框架,它设计用于处理和存储海量数据。Hadoop的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce,前者负责数据的分布式...
### 初识Hadoop知识点详解 #### 一、大数据概览 **1. 大数据定义** - **概念解析**:大数据的概念并非特指某个具体的数据量级,而是指那些无法用传统的数据处理工具进行有效捕捉、管理和处理的数据集合。这种...
第1讲:初识hadoop
#### 五、初识MapReduce MapReduce是一种编程模型,用于简化大数据集的并行处理过程。其基本思想是将一个大的计算任务分解成多个“映射(Map)”和“规约(Reduce)”阶段来执行。 - **Map阶段**:负责将输入数据划分...
大
1. **第三章:初识Hadoop 2.x** - Hadoop概述:介绍Hadoop的起源、发展及在大数据处理中的地位。 - Hadoop生态系统:包括HDFS、MapReduce、YARN、HBase、Hive、Pig等组件的基本概念和作用。 - Hadoop 2.x的新特性...
在本套“Hadoop大数据管理实验详细参考文档”中,我们涵盖了从初识Hadoop到进行实际操作的全过程,旨在帮助新手快速入门大数据处理的世界。Hadoop是一个开源框架,主要用于处理和存储海量数据,它的核心组件包括HDFS...
第1章 初识Hadoop 数据!数据! 数据存储与分析 与其他系统相比 关系型数据库管理系统 网格计算 志愿计算 1.3.4 Hadoop 发展简史 Apache Hadoop和Hadoop生态圈 第2章 关于MapReduce 一个气象数据...
**Hadoop 2.x 入门指南** Hadoop 2.x 是一个开源的分布式计算框架,它是Apache Hadoop项目的最新版本,旨在提供高效、可...通过学习"0101+初识Hadoop+2.x.pdf"这样的文档,你可以逐步掌握这个领域的核心概念和技术。
1. **初识Hadoop**:讨论为何学习Hadoop,Hadoop与云计算和大数据的关系,所需基础知识,以及学习环境。这将帮助学生理解Hadoop的背景和应用场景。 2. **Hadoop基础知识**:涵盖Hadoop的简介、版本演进、HDFS、...
第1章 初识Hadoop 数据!数据! 数据存储与分析 与其他系统相比 关系型数据库管理系统 网格计算 志愿计算 1.3.4 Hadoop 发展简史 Apache Hadoop和Hadoop生态圈 第2章 关于MapReduce 一个气象数据集 数据的格式 使用...
【Hadoop概述】 Hadoop是Apache基金会开发的开源软件,主要设计用于处理和存储海量数据。它的核心由两个主要组件组成:HDFS(Hadoop Distributed File System)和MapReduce。Hadoop的名字来源于大象,象征其强大的...
六、hadoop学习笔记之一:初识Hadoop 这篇笔记介绍了Hadoop的基本概念,包括Hadoop的诞生背景、核心组件以及Hadoop的优势。初学者可以从这里了解Hadoop的基本架构和工作原理,为后续的学习打下基础。 总结,Hadoop...
第一章:初识Hadoop 第2章 关于MapReduce 第3章 Hadoop分布式文件系统 第4章 Hadoop I/O 第5章:MapReduce 应用开发 第6章:MapReduce 的工作原理 第7章:MapReduce 的类型与格式
首先,"初识Hadoop"这一章,我们将揭开Hadoop的神秘面纱,理解其诞生背景和核心理念。Hadoop基于Google的GFS(Google File System)和MapReduce编程模型,设计用于处理和存储大规模数据。它强调数据的分布式存储和...
1. 初识HADOOP HADOOP最初由Apache软件基金会开发,是大数据处理领域的核心工具。它基于Google的MapReduce计算模型和GFS(Google文件系统)的理念,为海量数据的处理提供了高效、可靠的解决方案。HADOOP的设计目标...
一、初识Hadoop Hadoop的核心由两个主要组件构成:HDFS(Hadoop Distributed File System)和MapReduce。HDFS是分布式文件系统,它将大型数据集分散存储在多台廉价硬件上,实现了高容错性和高吞吐量的数据访问。而...
1. **初识Hadoop** - 数据时代的背景:书中引用了格蕾斯·霍珀的名言,强调在面临大量数据时,我们应采用分布式计算而非依赖单个大型系统。 - 数据量的增长:IDC的估计表明,2006年到2011年间,全球电子数据量增长...