`
heipark
  • 浏览: 2097569 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

设置hadoop Job允许map task失败的比例

 
阅读更多

故事背景:

hadoop任务分为map task和reduce task,当map task执行失败后会重试,超过重试次数(mapred.map.max.attempts指定,默认为4),整个job会失败,这是我们不想看到的。

解决办法:

hadoop提供配置参数“mapred.max.map.failures.percent”解决这个问题。如果一个Job有200个map task,该参数设置为5的话,则单个job最多允许10个map task(200 x 5% =10)失败,这是我想要的。
把下面配置放到mapred-site.xml文件中,重启jobtracker(hadoop-daemon.sh stop/start jobtracker ),这下大家满足了吧^_^

 

  <property>
    <name>mapred.max.map.failures.percent</name>
    <value>5</value>
  </property>
 

 

PS:reduce task有类似配置mapred.max.reduce.failures.percent

 

分享到:
评论

相关推荐

    Hadoop源代码分析(MapTask辅助类,II)

    在Hadoop中,MapTask是MapReduce框架的关键组件,负责执行Mapper阶段的工作。MapTask辅助类,特别是MapOutputBuffer,是Mapper输出数据管理的核心部分。本文将继续深入分析MapOutputBuffer的内部实现,以便理解...

    提高hadoop的mapreduce job效率笔记

    除了上述参数,还有其他 Job 配置可以优化,如设置适当的`mapreduce.task.io.sort.mb`(排序缓冲区大小)和`mapreduce.reduce.shuffle.parallelcopies`(并行复制副本数),以及启用压缩以减少中间数据的存储空间。...

    远程调用执行Hadoop Map/Reduce

    例如,`org.apache.hadoop.mapred.MapTask`和`org.apache.hadoop.mapreduce.ReduceTask`分别对应Map和Reduce任务的实现,开发者可以通过阅读这些源码了解任务执行的详细流程。 7. **工具集成**:有许多开源工具可以...

    Hadoop源代码分析(Task的内部类和辅助类)

    在Hadoop框架中,`Task`类是处理数据的核心组件之一,它包括`MapTask`和`ReduceTask`两种类型,分别负责数据的映射处理和归约处理。本文将深入剖析`Task`类中的内部类及其辅助类,旨在理解这些类如何协同工作以支持...

    Hadoop源代码分析(类Task)

    在Hadoop框架中,Task类是一个关键的抽象类,它是MapTask和ReduceTask的父类,分别对应Map阶段和Reduce阶段的执行单元。Task类定义了任务的基本行为和状态管理,是整个MapReduce流程中不可或缺的一部分。 1. **成员...

    hadoop源码解析-Job提交.pdf

    `totalMaps`变量设置为Job中的Map任务数量,`merger`对象负责合并来自不同MapTask的数据。ReduceTask的输入来自多个溢写文件,这些文件在内存不足以容纳更多数据时生成。`sorter.sort()`方法对这些文件进行排序,`...

    Hadoop学习总结之四:Map-Reduce过程解析

    - **任务初始化**:JobTracker根据作业配置文件中的信息,计算出所需的MapTask和ReduceTask的数量,并为每个任务分配初始状态。 - **任务分配**:根据TaskTracker的心跳消息,JobTracker会了解各个节点的资源状况,...

    Hadoop运行流程详解

    - MapTask和ReduceTask:Mapper和Combiner(如有配置)由MapTask调用,Reducer由ReduceTask调用。Mapper读取输入数据,经过处理后生成中间结果,若配置了Combiner,则在Mapper本地进行预聚合。ReduceTask接收Map...

    hadoop作业调优参数整理及原理

    - **mapred.compress.map.output**:设置为true时,MapTask的中间结果将在写入磁盘前进行压缩,减少磁盘读写,提升性能。读取时会自动解压,增加CPU开销,但总体上有利于整体效率提升。 除了上述参数,还有其他...

    hadoop mapreduce helloworld 能调试

    3. **使用 DebugFlag**:在提交作业时,可以设置 `-Dmapred.map.task.debug.script` 和 `-Dmapred.reduce.task.debug.script` 参数,使得 Map 或 Reduce 任务在完成时生成一个脚本,用于进一步分析。 4. **使用可视...

    与 Hadoop 对比,如何看待 Spark 技术? - 知乎1

    处理逻辑隐藏在代码细节中,没有整体逻辑中间结果也放在 HDFS 文件系统中 ReduceTask 需要等待所有 MapTask 都完成后才可以开始时延高,只适用 Batch 数据处理,对于交互式数据处理,实时数据处理的支持不够。...

    hadoop 1.2.1 api 最新chm 伪中文版

    一个Map/Reduce 作业(job) 通常会把输入的数据集切分为若干独立的数据块,由 map任务(task)以完全并行的方式处理它们。框架会对map的输出先进行排序, 然后把结果输入给reduce任务。通常作业的输入和输出都会被...

    hadoop命令手册

    用法:hadoop job [GENERIC_OPTIONS] [-submit &lt;job-file&gt;] | [-status &lt;job-id&gt;] | [-counter &lt;job-id&gt; &lt;group-name&gt; ] | [-kill &lt;job-id&gt;] | [-events &lt;job-id&gt; &lt;from-event-#&gt; ] | [-history [all] ] | [-list ...

    Hadoop从入门到上手企业开发

    近百节课视频详细讲解,需要的小伙伴自行百度网盘下载,链接见附件,...064 源代码跟踪查看Map Task和Reduce Task数目的个数 065 回顾MapReduce执行过程以及MapReduce核心 066 Hadoop MapReduce框架数据类型讲解 067

    hadoop 源码解析_yarn源码解析

    MR 程序执行过程中,会生成多个 Task 任务,包括 MapTask 和 ReduceTask。Task 任务会被分配到不同的 NodeManager 节点上执行。 8. MapTask MapTask 是 MR 程序的映射阶段,负责将输入数据映射到键值对。 9. ...

    HadoopAPI使用

    TaskTracker 负责执行每一个任务,包括 MapTask 和 ReduceTask。JobClient 是一个客户端 API,用于将应用程序和配置参数打包成 jar 文件,并将其提交到 JobTracker 服务中。 JobInProgress 是 JobTracker 创建的一...

    hadoop中文版API.zip

    2. MapReduce API:涵盖Job、Task、InputFormat、OutputFormat、Mapper、Reducer等关键接口和类,用于构建MapReduce作业。 3. YARN API:涉及ResourceManager、ApplicationMaster、Container等概念,帮助开发者管理...

    hadoop 配置项的调优

    若输入数据量巨大,过多的Map Task会增加网络传输负担,对Job Tracker造成压力。可以通过调整**mapred.min.split.size**来控制Split的最小大小,从而影响Map任务的数量。 5. **mapred.compress.map.output**:启用...

    Hadoop集群测试报告.pdf

    - `mapreduce.map.failures.maxpercent` 和 `mapreduce.reduce.failures.maxpercent`: 规定了Map任务和Reduce任务失败的最大百分比。 - **HDFS参数**: - `dfs.namenode.handler.count` 和 `dfs.datanode.handler....

Global site tag (gtag.js) - Google Analytics