Hadoop之大数据平台基础(2)
一、Map/Reduce工作机制分析-数据的流向分析
在MspReduce算法核心框架中,待处理的数据最开始放在HDFS,然后会背诵网Map的各个节点,输出为中间键值对输出。然后呢,如何将中间数据交给Reduce呢,每个worker节点的分配规则呢?
Shuffle:
在Map计算完成后,将会让数据通过一个名为Shuffle的过程在最终交给Reduce处理。这个Shuffle就是我们处理Hadoop数据处理核心,他能够将分散在不同的map阶段worker节点上的数据进行洗牌并按照一定规则合并,组成新的格式后分配给Map节点worker节点处理数据。
steps:
1.map task procedure:imput split - map - buffer in momory
2.buffer in memory: partition, sort and split to disk,partition是作为中间输出键值对的每个区间下,全局默认的所有节点的数据处理规则无序,每个区间内有序。通过该阶段,将分配处理各个区间,保存处理后的哥哥区间块到disk中。
3.将处理好的各个区间中的数据进行合并merge,sort,统一交给Reduce,输出。
Shuffle过程植入于Map端和Reduce端两边
1. Map端工作:
a. 分区:根据键值对的Key值,选定键值对所属的Partition区间(与Reduce节点对应)。
b. 排序:对各分区内的键值对根据键进行排序。
c. 分割:Map端的结果先是存放在缓冲区内的,如果超出,自然就要执行分割的处理,将一部分数据发往硬盘。
d. 合并:对于要发送往同一个节点的键值对,我们需要对它进行合并。(这一步很可能针对硬盘,对于海量数据处理,缓冲区溢出是很正常的事情)
2. Reduce端工作:
a. Copy:以HTTP的方式从指定的Map端拉数据,注意是Map端的本地磁盘。
b. 合并:一个Reduce节点有可能从多个Map节点获取数据,获取到之后
c. 排序:对各分区内的键值对根据键进行排序。和Map端操作一样。
二、错误处理机制
对于Hadoop集群,但各节点的错误,不会影响到整理,各个分布式的任务仍然通过JodTracker跟踪分配处理。但是对于致命性的错误,一旦JobTracker主程序错误,Hadoop集群就更无法使用,只能从新启动。
TaskTracker节点错误:
JonTracker和TaskTracker的心跳机制:TaskTracker必须保证在1分钟之内向JobTracker回报当前节点的进度,
1.如果超时仍然没有收到汇报,JobTracker仍然没有接收到汇报,就会将TaskTracker从等待调度队列集合移除。
2.当收到报告但是是失败的,就会就爱你个这个TaskTracker移动到等待队列尾部重新排队,但是如果连续四次汇报失败,同样会移除。
相关推荐
文档为PPT,与百度文库里的Hadoop大数据开发基础为一套,里面内容相对比较基础~可做基础学习资料PPT。 【实例截图】 【核心代码】 Hadoop大数据开发基础-PPT课件 └── 37066-Hadoop大数据开发基础-PPT课件 ├── ...
在技术架构上,Hadoop作为大数据平台的基础,其HDFS提供分布式存储,而MapReduce则负责分布式计算。JobTracker和TaskTracker协调任务执行,确保高效的数据处理。随着技术的不断发展,Hadoop生态系统还在不断完善,为...
根据给定文件的内容部分,我们可以提炼出以下几个知识点: 1. 大数据业务处理基本流程与关键技术 ...在实际的Hadoop学习和应用中,这些知识点是非常重要的基础,有助于理解和操作Hadoop集群以及处理大数据问题。
【Hadoop大数据开发基础-PPT课件】是一个涵盖了Hadoop生态系统入门知识的教育资源,适合初学者和希望深入了解大数据处理技术的IT专业人士。本课件主要围绕Hadoop框架展开,包括其设计原理、核心组件以及实际应用。...
Hadoop大数据开发基础完整版ppt整本书教学教程最全电子教案(最新.pptx
《Hadoop大数据开发基础》教程主要涵盖了大数据处理领域中的核心框架——Hadoop的全面学习。这份教案详尽地讲解了从Hadoop的基本概念到实际项目应用的各个环节,旨在帮助初学者掌握Hadoop的大数据处理能力。 第一章...
这份名为“Hadoop大数据开发基础”的PPT文档,旨在为初学者提供一个入门Hadoop的基础平台。 **一、Hadoop概述** 1. Hadoop的起源:Hadoop最初由Google的论文启发,用于解决大规模数据处理的问题。 2. Hadoop组件:...
《Hadoop大数据开发实战》教学教案—01初识Hadoop的内容...总之,《Hadoop大数据开发实战》的初识阶段,旨在为学生打下坚实的大数据基础,激发他们对这个领域的兴趣,并为后续深入学习和应用Hadoop及相关技术做好准备。
在搭建Hadoop大数据计算平台的实践中,涉及到多个关键步骤,包括集群的硬件准备、软件准备、分布式部署方法、集群环境构建和测试验证等。 1. Hadoop简介 Hadoop作为大数据技术栈中不可或缺的部分,它能够有效地对...
《Hadoop大数据开发基础》是一门深入浅出的教程,主要涵盖了Hadoop生态系统的基础知识以及MapReduce编程模型的高级应用。本课程旨在帮助初学者快速掌握大数据处理的核心技能,为今后的数据分析和挖掘打下坚实基础。 ...
首先,Hadoop是一个由Apache基金会开发的分布式系统基础架构。Hadoop框架最核心的设计是HDFS和MapReduce。HDFS(Hadoop Distributed File System)提供了高吞吐量的数据访问,适合那些有大量数据集的应用程序。...
大数据平台技术实施与运维规范-Hadoop 分册提供了Hadoop的大数据平台技术实施和运维规范的详细指南,涵盖了Hadoop的基础知识、组件描述、系统环境配置、网络配置等方面的内容,为Hadoop的大数据平台技术实施和运维...
2. 数据存储与管理:大数据平台的基础是高效的数据存储和管理。书中会涵盖各种分布式存储系统,如Hadoop HDFS(Hadoop Distributed File System)和NoSQL数据库,如HBase、Cassandra等。同时,也会讨论数据的组织...
大数据技术,是指在传统数据处理手段无法应对的数据量、速度和多样性上的解决方案,Hadoop是其中的关键技术之一。 在压缩包内的“Hadoop与大数据技术大会PPT资料”文件,我们可以期待找到以下内容: 1. **Hadoop...
【标题】"hadoop大数据课程设计"涉及到的核心技术是Hadoop,这是一个开源的分布式计算框架,主要用于处理和存储海量数据。Hadoop的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce,前者提供高容错...
《Hadoop大数据期末考试重点详解》 Hadoop大数据技术在当今的数据处理领域占据着重要的地位,其核心组件包括HDFS(Hadoop Distributed File System)和MapReduce,它们共同构成了高效的大数据处理框架。本文将围绕...
《Hadoop大数据开发基础》是余明辉主编的一本针对初学者的大数据技术入门书籍,主要围绕Hadoop这一核心框架,深入浅出地讲解了大数据处理的基础知识和实践技巧。这本书的内容涵盖了大数据处理的基本概念、Hadoop生态...
2. **分布式文件系统(HDFS)**:Hadoop的核心组件之一是Hadoop分布式文件系统(HDFS),它将大文件分布在多台廉价服务器上,提供高吞吐量的数据访问。HDFS遵循主从架构,由NameNode和DataNode组成。 3. **...