大数据学习笔记15：MapReduce处理流程三 - 杨中磊的博客 - ITeye博客

`

05rjyzl11

浏览: 149925 次
性别:
来自: 北京

最近访客更多访客>>

breezylee

laopo521anping

wolfwell

gzjhqh

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

isaiah282485068：怎么不出书出来啊，市场上好却这方面的书啊
mule in action翻译1 : 第一部分 mule 核心

大数据学习笔记15：MapReduce处理流程三

博客分类：

hadoop

阅读更多

MapReduce处理流程三

前面主要是从数据处理角度看的MR处理流程，现在从MR功能组件的角度看一下。

1、看下图

1.1 Hadoop两个主要的进程：jobtracker 、tasktracker

job 是比task 更大的概念，一个job 可以划分为多个 task 去完成。

tracker ：字面意思跟踪器

顾名思义 jobtracker 用来跟踪 job执行的，

task则是跟踪具体的任务的执行。

1.2 jobtracker 有点像饭店大厅客户经理（比喻成服务员不恰当-- jobtracker属于管理层）：

接受客人（jobclient）点餐请求，然后下达给后厨的厨师小组组长（tasktracker）任务。

1.3 tasktracker 就像后厨的尽职尽责的厨师小组组长：

接受前端的任务，而且还特别实诚，每过一段时间主动上报：

分给我的活干的怎么样了、我现在忙不忙。---- 心跳机制。

1.4 每一个工作节点上永远只会有一个tasktracker

-- 假定一个饭店有多个厨房，一个厨房只有一个厨师小组长。

1.5 每一个tasktracker能够配置map和reduce的任务片数（taskslot），

这个数字代表每一种任务能被并行执行的数目。

---- 厨师小组长可以决定我这个厨房配置几个厨师，多个厨师可以并行干活。

1.6 在一个组织结构中，既有管理者，又有执行者。而jobtracker,trasktracker则是管理者，

执行者是map task和reduce task。

上面一句来自：https://blog.csdn.net/u012117710/article/details/53607942 。

感觉这个文章把一些地方说的比较清楚。

1.7 taskTracker启动一个独立的java进程来执行Map或Reduce任务

查看图片附件

分享到：

大数据学习笔记16：MapReduce处理流程四 | 大数据学习笔记14：MapReduce处理流程二

2018-06-27 22:24
浏览 574
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

大数据学习笔记: 大数据学习笔记本资源摘要信息涵盖了大数据领域中的多个方面，包括Hadoop、HBase、Sqoop、Spark和Hive等技术栈。下面将对这些技术栈进行详细的解释和分析。一、HDFS架构详尽分析 HDFS（Hadoop Distributed File...

大数据学习笔记.docx: 本笔记将深入探讨大数据的基本概念，包括Hadoop、Hive、离线计算、实时计算、数据库、数据仓库、维度建模以及大规模并行处理MPP，还将介绍阿里云的一些大数据产品，如MaxCompute、DataWorks、数据集成、机器学习PAI...

大数据学习笔记汇总指南: 这份“大数据学习笔记汇总指南”涵盖了大数据技术栈中的关键组件，包括Hadoop、Hive、Spark、Storm、Flink以及HBase。让我们逐一深入探讨这些技术及其在大数据生态系统中的作用。一、Hadoop Hadoop是Apache基金会...

大数据学习笔记，学习路线，技术案例整理。.zip: 本资料包“大数据学习笔记，学习路线，技术案例整理”是一个全面的大数据学习资源，旨在帮助初学者和进阶者系统地掌握大数据的核心技术和应用实践。首先，我们来了解一下大数据的关键概念和技术栈。大数据通常有四...

大数据学习笔记.pdf: 第3章 Spark安装 ................................................................................................................. 11 第4章 Spark CORE编程 .................................................

大数据学习笔记，学习路线，技术案例整理 .zip: 大数据学习资源整合大数据与机器学习笔记，持续更新中。文章分类大数据技术周报大数据技术周报，每周更新线路从马克·吐温啤酒术语路径推荐两个网站，认清自己的阶段基础基础生物生态高清文件系统映射Reduce蜂巢深挖...

HCIA-Big Data考试题库.zip: 3. **Hadoop生态系统**：Hadoop是大数据处理的核心框架，包括HDFS（分布式文件系统）和MapReduce（分布式计算）。此外，还有HBase（NoSQL数据库）、Hive（数据仓库工具）、Pig（数据处理语言）等组件。 4. **Spark...

大数据面试录音02.zip: 在准备大数据岗位的面试时，了解相关技术和面试流程至关重要。这份名为"大数据面试录音02.zip"的压缩包文件提供了一次完整的面试对话记录，它包含一个名为"大数据面试录音02.m4a"的音频文件，这可能是面试者与面试官...

hadoop学习笔记.rar: 三、Hadoop学习笔记之三：用MRUnit做单元测试 MRUnit是针对MapReduce任务的单元测试框架，它允许开发者对MapReduce作业进行单元测试，确保每个Mapper和Reducer的功能正确性。通过MRUnit，可以在不实际运行Hadoop集群...

Java大数据课程核心笔记: Hadoop提供了分布式文件系统HDFS和MapReduce计算模型，而Spark则以更快的速度处理数据，并支持更复杂的计算任务，如机器学习和图形处理。虽然这些框架的具体使用不在Java基础笔记的范畴内，但了解它们与Java的交互...

大数据学习资料全排序二次排序: "大数据学习资料全排序二次排序"这个主题，显然关注的是如何有效地对大规模数据进行排序，尤其是涉及到二次排序的概念。二次排序通常是指在第一次排序的基础上，根据另一个或多个字段进行第二次排序，以满足更复杂的...

大数据平台，hadoop集群学习笔记: 通过深入学习Hadoop集群，不仅可以理解大数据处理的基本原理，还能掌握实际操作技巧，为在大数据时代解决复杂问题奠定坚实基础。随着云计算和物联网的发展，Hadoop及其相关技术将继续在大数据处理领域扮演关键角色。...

大数据博客、笔试题、教程、项目、面经的整理.zip: 这个压缩文件可能是一个全面的大数据学习和求职准备资源集合。在大数据领域，有以下几个关键知识点： 1. **大数据概念**：大数据是指数据量巨大、增长快速、类型多样、价值密度低的数据集合。它通常涉及到四个V，...

大数据课程课件PDF...: 五、大数据学习笔记学习大数据，你需要掌握编程语言如Java或Python，理解分布式计算原理，熟悉Hadoop和Spark等工具，以及数据分析和机器学习的基础知识。同时，实战项目经验也是提升技能的关键，可以参与开源项目...

大数据笔记、hadoop、hive、flink等: 在学习过程中，"大数据笔记"可能包含了这些技术的理论介绍、安装配置教程、实战案例以及常见问题解答等内容。通过阅读和实践，可以加深对大数据处理流程的理解，提升实际操作能力。"MyNodes"这个文件可能记录了节点...

大数据基础: 通过学习，学生应能掌握大数据处理的关键技术和方法，理解大数据分析的流程，并具备初步的大数据项目实施能力。大数据是指那些传统数据处理工具无法有效管理的海量、高增长速度和多样性的数据资源。它涉及到多个...

超全大数据面试宝典-大数据面试有这套就够了.pdf: 找工作流程是大数据面试宝典的开篇，包括学习技能、编写简历、投递简历、预约面试时间、面试、等待回复、拿到offer、入职以及准备必备资料和签订合同九个步骤。这个流程帮助求职者了解从开始求职到成功入职整个过程...

最新201808达内Java大数据web阶段商城Easymall项目学习笔记和代码: 总之，"最新201808达内Java大数据web阶段商城Easymall项目学习笔记和代码"是一个综合性的学习资源，涵盖了Java Web开发和大数据处理的多个方面，适合希望提升技能或准备从事相关领域工作的学习者深入研究。...

hadoop学习笔记（三）: 总的来说，这篇学习笔记展示了如何利用Hadoop的MapReduce框架处理大数据问题，特别是寻找最大值这类聚合操作。通过这个例子，我们可以理解MapReduce的核心思想，并学习如何编写Java代码来实现分布式计算任务。这对于...

Global site tag (gtag.js) - Google Analytics