什么是Speculative Execution
所谓的推测执行,就是当所有task都开始运行之后,Job Tracker会统计所有任务的平均进度,如果某个task所在的task node机器配置比较低或者CPU load很高(原因很多),导致任务执行比总体任务的平均执行要慢,此时Job Tracker会启动一个新的任务(duplicate task),原有任务和新任务哪个先执行完就把另外一个kill掉,这也是我们经常在Job Tracker页面看到任务执行成功,但是总有些任务被kill,就是这个原因。
mapred.map.tasks.speculative.execution=true
mapred.reduce.tasks.speculative.execution=true
这两个是推测执行的配置项,它们默认值是true
然而在HBase中,这样做,会加重regionserver的load。
因为用Hadoop map/reduce操作HBase的时候,会尽量采用本地原则,即相应的task尽量使用本地的数据。
而如果另起一个task,则会导致数据不在本地,凭空浪费IO和网络资源。
所以,强烈建议关闭 Speculative Execution
关闭的方法是在jobconf中设定
分享到:
相关推荐
搭建pinpoint需要的hbase初始化脚本hbase-create.hbase
hbase官网下载地址(官网下载太慢): https://downloads.apache.org/hbase/ 国内镜像hbase-2.4.16: https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/2.4.16/hbase-2.4.16-bin.tar.gz
《深入理解HBase_libJar包及其在Linux环境中的配置》 HBase,作为一个分布式、高性能、基于列存储的NoSQL数据库,广泛应用于大数据处理场景。其中,`hbase_libJar包`是HBase运行的核心组件之一,包含了HBase运行所...
首先下载hbase安装包 wget http://mirror.bit.edu.cn/apache/hbase/stable/hbase-2.2.3-bin.tar.gz 解压压缩包 tar -zxvf hbase-2.2.3-bin.tar.gz 修改/opt/hbase-2.2.3/conf/hbse-env.sh文件 第一步 设置javahome ...
标题“hadoop map reduce hbase 一人一档”揭示了这个系统的核心组成部分。Hadoop MapReduce是一种分布式计算框架,用于处理和存储大规模数据集。它通过将复杂任务分解为可并行处理的“映射”和“化简”阶段,使得在...
HBase单机版部署需要安装JDK、下载HBase、解压HBase、设置环境变量、修改/etc/profile文件、配置hbase-env.sh文件、配置hbase-site.xml文件、启动HBase和访问HBase。通过这些步骤,我们可以成功部署HBase单机版。
由于Map/Reduce在HBase上的性能比在HDFS上慢3到4倍,启动开销大,且依赖磁盘计算,不适合快速查找。 接下来,文章描述了如何实现交互式查询。它介绍了HBase SQL的架构视图,其中包括了Hive和HBase SQL执行引擎,...
phoenix +hbase+spring 整合技术 phoenix +hbase+spring 整合技术 phoenix +hbase+spring 整合技术 根据需要 下载 集成的jar phoenix-core-4.13.0-HBase-0.98.jar
HBase是Apache Hadoop生态系统中的一个分布式、高性能的NoSQL数据库。在HBase 2.x版本中,HBCK2(HBase FileSystem Check Tool 2)是一个重要的工具,用于检查和修复HBase表和Region的不一致性。HBCK2是HBase维护和...
编辑 `/export/server/hbase/conf/hbase-env.sh` 文件,确保指定正确的Java Home路径,并关闭HBase管理ZooKeeper: ```bash vim hbase-env.sh # 第28行 export JAVA_HOME=/export/server/jdk1.8.0_241 export HBASE...
HBase 2.x之RIT问题解决 HBase 2.x中的Region-In-Transition(RIT)机制是一种Region状态变迁机制,例如merge、split、assign、unassign等操作。在RIT过程中,可能会出现异常情况,从而导致Region的状态一直保持在...
HBase 详细安装步骤 HBase 是一个分布式、面向列的 NoSQL 数据库,它基于 Hadoop 的分布式文件系统(HDFS)和 MapReduce 编程模型。以下是在 Ubuntu 环境下安装 HBase 的详细步骤: 安装 HBase 1. 获取安装文件 ...
HBase环境配置详解 HBase是基于Hadoop的分布式数据库,配置HBase环境需要在HDFS环境配置好了的前提下进行。下面将详细讲解HBase环境配置的步骤和注意事项。 一、单机环境下配置 1. 在$HBASE_HOME/conf/hbase-env....
批量执行hbase shell 命令 #!/bin/bash source /etc/profile exec $HBASE_HOME/bin/hbase shell <<EOF truncate 'tracker_total_apk_fact_zyt' major_compact('t_abc') disable 't_abc' drop 't_abc' create...
在IT行业中,尤其是在大数据存储和处理领域,HBase和Phoenix是非常重要的组件。HBase是一个分布式的、面向列的NoSQL数据库,它构建于Hadoop之上,适用于大规模数据存储。而Phoenix是一个高性能的关系型SQL层,它允许...
【大数据技术基础实验报告-HBase安装配置和应用实践】 这篇实验报告主要涵盖了HBase的安装、配置以及基本应用,这是大数据技术中一个重要的组件,它是一个分布式的、面向列的数据库,尤其适合处理大规模的数据。 1...
《HBase 2.4.11:大数据存储与管理的基石》 HBase,作为Apache软件基金会的一个开源项目,是构建在Hadoop文件系统(HDFS)之上的分布式、面向列的数据库,专为处理大规模数据而设计。标题中的“hbase-2.4.11-bin....
使用 HBase 和 Map Reduce 的迭代 k 均值 问题陈述 通过迭代运行 Map Reduce 作业,在 HBase 平台上使用 K-means 对能源效率数据集 ( ) 进行聚类。 数据加载到 Hbase 由 DataLoader 类执行。 该类将 Energy ...