`
杨俊华
  • 浏览: 97242 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

HBase跑 map/reduce 须关闭Speculative Execution

阅读更多
什么是Speculative Execution

所谓的推测执行,就是当所有task都开始运行之后,Job Tracker会统计所有任务的平均进度,如果某个task所在的task node机器配置比较低或者CPU load很高(原因很多),导致任务执行比总体任务的平均执行要慢,此时Job Tracker会启动一个新的任务(duplicate task),原有任务和新任务哪个先执行完就把另外一个kill掉,这也是我们经常在Job Tracker页面看到任务执行成功,但是总有些任务被kill,就是这个原因。

mapred.map.tasks.speculative.execution=true

mapred.reduce.tasks.speculative.execution=true

这两个是推测执行的配置项,它们默认值是true

然而在HBase中,这样做,会加重regionserver的load。

因为用Hadoop map/reduce操作HBase的时候,会尽量采用本地原则,即相应的task尽量使用本地的数据。
而如果另起一个task,则会导致数据不在本地,凭空浪费IO和网络资源。

所以,强烈建议关闭 Speculative Execution

关闭的方法是在jobconf中设定
分享到:
评论

相关推荐

    pinpoint的hbase初始化脚本hbase-create.hbase

    搭建pinpoint需要的hbase初始化脚本hbase-create.hbase

    hbase-2.4.16-bin.tar.gz

    hbase官网下载地址(官网下载太慢): https://downloads.apache.org/hbase/ 国内镜像hbase-2.4.16: https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/2.4.16/hbase-2.4.16-bin.tar.gz

    hbase_libJar包

    《深入理解HBase_libJar包及其在Linux环境中的配置》 HBase,作为一个分布式、高性能、基于列存储的NoSQL数据库,广泛应用于大数据处理场景。其中,`hbase_libJar包`是HBase运行的核心组件之一,包含了HBase运行所...

    centos7 安装 hbase单机版

    首先下载hbase安装包 wget http://mirror.bit.edu.cn/apache/hbase/stable/hbase-2.2.3-bin.tar.gz 解压压缩包 tar -zxvf hbase-2.2.3-bin.tar.gz 修改/opt/hbase-2.2.3/conf/hbse-env.sh文件 第一步 设置javahome ...

    hadoop map reduce hbase 一人一档

    标题“hadoop map reduce hbase 一人一档”揭示了这个系统的核心组成部分。Hadoop MapReduce是一种分布式计算框架,用于处理和存储大规模数据集。它通过将复杂任务分解为可并行处理的“映射”和“化简”阶段,使得在...

    HBase单机版部署教程

    HBase单机版部署需要安装JDK、下载HBase、解压HBase、设置环境变量、修改/etc/profile文件、配置hbase-env.sh文件、配置hbase-site.xml文件、启动HBase和访问HBase。通过这些步骤,我们可以成功部署HBase单机版。

    Interactive SQL query on HBase (孙元浩)

    由于Map/Reduce在HBase上的性能比在HDFS上慢3到4倍,启动开销大,且依赖磁盘计算,不适合快速查找。 接下来,文章描述了如何实现交互式查询。它介绍了HBase SQL的架构视图,其中包括了Hive和HBase SQL执行引擎,...

    phoenix+spring+hbase

    phoenix +hbase+spring 整合技术 phoenix +hbase+spring 整合技术 phoenix +hbase+spring 整合技术 根据需要 下载 集成的jar phoenix-core-4.13.0-HBase-0.98.jar

    hbase2.x-hbck2 jar包及测试命令

    HBase是Apache Hadoop生态系统中的一个分布式、高性能的NoSQL数据库。在HBase 2.x版本中,HBCK2(HBase FileSystem Check Tool 2)是一个重要的工具,用于检查和修复HBase表和Region的不一致性。HBCK2是HBase维护和...

    10-HBase安装操作1

    编辑 `/export/server/hbase/conf/hbase-env.sh` 文件,确保指定正确的Java Home路径,并关闭HBase管理ZooKeeper: ```bash vim hbase-env.sh # 第28行 export JAVA_HOME=/export/server/jdk1.8.0_241 export HBASE...

    HBase2.x之RIT问题解决.docx

    HBase 2.x之RIT问题解决 HBase 2.x中的Region-In-Transition(RIT)机制是一种Region状态变迁机制,例如merge、split、assign、unassign等操作。在RIT过程中,可能会出现异常情况,从而导致Region的状态一直保持在...

    Hbase详细安装步骤

    HBase 详细安装步骤 HBase 是一个分布式、面向列的 NoSQL 数据库,它基于 Hadoop 的分布式文件系统(HDFS)和 MapReduce 编程模型。以下是在 Ubuntu 环境下安装 HBase 的详细步骤: 安装 HBase 1. 获取安装文件 ...

    HBase详细环境配置

    HBase环境配置详解 HBase是基于Hadoop的分布式数据库,配置HBase环境需要在HDFS环境配置好了的前提下进行。下面将详细讲解HBase环境配置的步骤和注意事项。 一、单机环境下配置 1. 在$HBASE_HOME/conf/hbase-env....

    hbase-shell批量命令执行脚本的方法

    批量执行hbase shell 命令 #!/bin/bash source /etc/profile exec $HBASE_HOME/bin/hbase shell <<EOF truncate 'tracker_total_apk_fact_zyt' major_compact('t_abc') disable 't_abc' drop 't_abc' create...

    Hbase SYSTEM.STATS磁盘爆满 处理方法.docx

    在IT行业中,尤其是在大数据存储和处理领域,HBase和Phoenix是非常重要的组件。HBase是一个分布式的、面向列的NoSQL数据库,它构建于Hadoop之上,适用于大规模数据存储。而Phoenix是一个高性能的关系型SQL层,它允许...

    大数据技术基础实验报告-HBase安装配置和应用实践.doc

    【大数据技术基础实验报告-HBase安装配置和应用实践】 这篇实验报告主要涵盖了HBase的安装、配置以及基本应用,这是大数据技术中一个重要的组件,它是一个分布式的、面向列的数据库,尤其适合处理大规模的数据。 1...

    hbase-2.4.11-bin.tar.gz

    《HBase 2.4.11:大数据存储与管理的基石》 HBase,作为Apache软件基金会的一个开源项目,是构建在Hadoop文件系统(HDFS)之上的分布式、面向列的数据库,专为处理大规模数据而设计。标题中的“hbase-2.4.11-bin....

    hbase-kmeans:使用 HBase 和 Map Reduce 的迭代 k 均值

    使用 HBase 和 Map Reduce 的迭代 k 均值 问题陈述 通过迭代运行 Map Reduce 作业,在 HBase 平台上使用 K-means 对能源效率数据集 ( ) 进行聚类。 数据加载到 Hbase 由 DataLoader 类执行。 该类将 Energy ...

Global site tag (gtag.js) - Google Analytics