`
szjian
  • 浏览: 74673 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

MapReduce 1.0基本组成结构介绍

阅读更多
MapReduce 1.0基本组成结构介绍
一、JobTracker:
JobTracker是整个MapReduce计算框架中的主服务,相当于集群的管理者,负责整个集群的作业控制和资源管理。
1)作业控制模块,负责作业的分解和状态的监控。
其中,最重要的是状态的监控,主要包括TaskTracker状态监控、作业状态监控、任务状态监控等。其最主要的作用有两个:容错和为任务调度提供决策依据。
2)资源管理模块,是通过一定的策略,将各个节点上的计算资源分配给集群中的任务。

二、TaskTracker:
TaskTracker是HADOOP集群中运行于各个节点上的服务。负责任务的执行和汇报心跳;
1) 任务执行:从JobTracker端接收并执行各种命令(如:启动任务、提交任务、杀死任务、杀死作业、重新初始化等);
2) 汇报心跳:周期性地将所在节点上的各种信息,通过心跳机制汇报给JobTracker。信息包括:节点健康信息、资源使用情况、任务执行进度、任务运行状态等.

分享到:
评论

相关推荐

    Google-MapReduce中文版_1.0

    它可以在规模灵活调整的普通机器组成的集群上运行,一个典型的MapReduce计算通常由几千台机器组成,处理的数据量以TB计算。在Google内部,MapReduce模型被广泛应用于各种大规模数据处理任务中,比如文档抓取、Web...

    Hadoop1.0&2.0快速入门

    此外,了解如何在集群上部署和配置Hadoop,以及如何运行基本的MapReduce作业也是必要的。通过实验和实践,新手可以更深入地理解Hadoop的强大功能和灵活性。 在历史的脉络中,Hadoop的发展与一些关键技术的出现...

    Hadoop - Mapreduce

    Hadoop MapReduce 是一个软件框架,用于轻松编写应用程序来处理大量的数据(多太字节级别的数据集),并能够在大量廉价硬件组成的集群(成千上万台机器)上可靠且容错地进行并行处理。 1. **任务划分**:MapReduce ...

    HCIP-Big Data Operation & Maintenance V1.0培训教材.zip

    1. 大数据基础:首先,教材会介绍大数据的基本概念,包括大数据的4V特征(Volume、Velocity、Variety、Value)以及大数据架构的基础,如Hadoop生态系统中的HDFS、MapReduce和YARN。 2. Hadoop运维:深入讲解Hadoop...

    视觉资讯引擎 v1.0

    在源代码层面,"视觉资讯引擎 v1.0" 可能采用了先进的搜索算法和技术,如倒排索引、TF-IDF、BM25等,这些是搜索引擎核心的组成部分。倒排索引允许快速定位关键词出现的位置,而TF-IDF和BM25则用于评估文档中关键词的...

    Spark概述1.0.docx

    本篇旨在详细介绍Apache Spark这一强大的分布式计算框架的基本概念、模型、部署方式及其使用场景。Spark作为一种先进的大数据处理技术,不仅继承了Hadoop MapReduce的优点,还在性能方面实现了显著提升,尤其是在...

    hbase-1.0.1.1-bin.tar.gz.zip

    2. 行式存储:与传统的关系型数据库不同,HBase以行式存储为主,每个表由行键(Row Key)、列族(Column Family)、列(Column)和时间戳(Timestamp)组成。这种结构适合于大数据分析和快速检索。 3. 实时读写:...

    全面透视大数据的架构、价值与能力.doc

    3. **YARN与Apache Mesos**:YARN(Yet Another Resource Negotiator),即MapReduce 2.0,引入了资源容器(Container)的概念,实现了Java虚拟机内存的隔离,改进了MapReduce 1.0的JobTracker和TaskTracker。...

    大数据与云计算培训学习资料 Hadoop集群 细细品味Hadoop_第11期_HBase简介及安装_V1.0 共21页.pdf

    【大数据与云计算培训学习资料 Hadoop集群 细细品味Hadoop_第11期_HBase简介及安装_V1.0 共21页.pdf】这篇文档主要介绍了HBase这一大数据处理的重要组件,以及其在Hadoop生态系统中的角色。HBase是一个基于列族的...

    三七大数据平台技术解决方案-V1.0(DOC258页).doc

    三七大数据平台技术解决方案-V1.0 大数据技术解决方案是指通过大数据处理、分析和应用来解决实际问题的技术方法和方案。在这个解决方案中,我们将讨论大数据技术解决方案的概述、面临的挑战、传统解决方案的分析、...

    大数据平台简介.pptx

    Hadoop是大数据处理的基础,其最初版本(Hadoop 1.0)主要由HDFS(Hadoop Distributed File System)和MapReduce组成。HDFS是分布式存储系统,保证了数据的高可用性和容错性,而MapReduce则是一个分布式并行计算框架...

    京东金融大数据分析平台总体架构-v1.0-0827.pptx

    京东金融大数据分析平台总体架构是金融科技领域的一个重要组成部分,它涉及到海量数据的处理、存储、分析和应用,旨在提升金融服务的效率、精准性和安全性。在这个架构中,通常包含以下几个核心模块: 1. 数据采集...

    大数据应用技术介绍.pptx

    本篇将介绍其中的关键技术,包括Hadoop生态系统、MapReduce、HDFS、Hive、Hbase、Zookeeper以及相关的数据传输和日志聚合工具。 Hadoop生态系统是围绕Hadoop开发的一系列开源项目,旨在解决大数据处理的各种问题。...

    京东金融大数据剖析平台总体架构-v1.0-0827-图文精彩.pptx

    在这个体系中,通常包括以下几个核心组成部分: 1. 数据采集层:这是整个架构的基础,负责从各种来源(如交易系统、用户行为日志、社交媒体等)收集数据。这一层可能包含多种工具,如Flume、Kafka或Logstash,用于...

    hadoop习题册.docx

    4.在互联网的发展历程中,经历了Web1.0的信息发布时代、Web2.0的用户交互时代,以及目前正处于快速发展中的Web3.0的智能互联时代。5.大数据的4V特性包括:Volume(大量)、Velocity(高速)、Variety(多样)和Value...

    HadoopYARN大数据计算框架及其资源调度机制研究

    YARN的基本组成结构是Master/Slave架构,ResourceManager作为Master,管理着整个集群的资源,而节点管理器NodeManager则作为Slave在集群的各个节点上运行,负责监控资源使用情况,与ResourceManager协同工作。...

    hadoop习题册.pdf

    - HDFS是Hadoop的分布式文件系统,采用主从结构,由NameNode和DataNode组成,负责数据的存储和管理。 - NameNode是主节点,负责元数据管理,SecondaryNameNode辅助NameNode进行定期检查点操作。 - HDF提供了...

    大数据核心技术A卷.doc

    大数据核心技术是现代信息技术领域中的重要组成部分,主要关注如何处理和分析海量数据。这份试卷主要涵盖了Hadoop生态系统中的核心组件,如HDFS(Hadoop Distributed File System)和MapReduce,以及相关的编程模型...

Global site tag (gtag.js) - Google Analytics