背景:
用Hadoop基于Hbase进行数据分析的时候,发现其会自动kill任务,但是job能够正常执行,结果也正确,只是Hbase的压力比较大。
原因:
Hadoop在执行task的时候采用预先计算的方法来加快整个处理过程。具体的就是当所有task都开始运行之后,Job Tracker会统计所有任务的平均进度,如果某个task所在的task node机器配置比较低或者CPU load很高(原因很多),导致任务执行比总体任务的平均执行要慢,此时Job Tracker会启动一个新的任务(duplicate task),原有任务和新任务哪个先执行完就把另外一个kill掉,这也是我们经常在Job Tracker页面看到任务执行成功,但是总有些任务被kill,就是这个原因。 其中有两项配置可以指定是否预测执行:
mapred.map.tasks.speculative.execution=true mapred.reduce.tasks.speculative.execution=true
这两个是预测执行的配置项,它们默认值是true 。
结论:
在HBase中,采用预测执行这样做,会加重regionserver的load。
用Hadoop map/reduce操作HBase的时候,会尽量采用本地原则,即相应的task尽量使用本地的数据。 而如果另起一个task,则会导致数据不在本地,凭空浪费IO和网络资源。 所以,强烈建议关闭 Speculative Execution 关闭的方法是在Configuration中设定 :
conf.setBoolean("mapred.map.tasks.speculative.execution", false); conf.setBoolean("mapred.reduce.tasks.speculative.execution", false);
相关推荐
在探讨Hadoop2.7.1、HBase1.0、Hive1.2以及ZooKeeper3.4.6的安装和配置时,我们首先需要了解这些组件的基本功能以及它们在整个大数据处理框架中所扮演的角色。以下对这些知识点进行详细说明: ### Hadoop2.7.1 ...
同时,对于希望加深对Hadoop的理解和提升实际操作能力的学习者来说,实践操作和对Hadoop生态系统中其他组件(如HBase、Hive、Pig等)的了解也是必要的。 总之,Hadoop认证考试不仅是对学习者理论知识的考察,也是对...
在IT行业中,尤其是在大数据处理...总结来说,HBase跨集群迁移是一项复杂但必要的任务,需要谨慎操作并做好充分的准备。理解并掌握上述步骤和注意事项,有助于确保迁移过程的顺利进行,同时减少可能出现的问题和风险。
`hadoop fs`命令用于文件操作,如列出文件系统内容(`-ls`)、上传文件到HDFS(`-put`)和下载文件(`-get`),`hadoop job`命令则用于MapReduce作业的管理,如查看任务列表(`-list`)和终止任务(`-kill`)。...
在搭建Hadoop HA高可用性集群时,确保系统在一台NameNode失效的情况下仍能正常运行至关重要。以下步骤展示了如何验证Hadoop HA的高可用性。 1. **启动JobHistoryServer查看历史记录** - 使用`mapred--daemonstart...
### CDH550@hive 使用及操作说明 #### 系统介绍 ##### 总体说明 本文档旨在详细介绍CDH 5.5.0环境下Hive的使用方法及其相关操作指南。Hive是一种建立在Hadoop之上的数据仓库工具,主要用于通过SQL查询语言来处理...
这些配置项需要在启动服务时作为参数传递给Hadoop进程。 #### HDFS组件 HDFS(Hadoop Distributed File System)是Hadoop生态系统中的分布式文件系统,用于存储海量的数据。下面列出了一些常用的HDFS命令: - **...
Shell 脚本可以自动化执行一系列命令,如备份、监控和数据处理任务。常用的 Shell 工具包括 `curl` 用于网络请求,`tar` 用于打包和压缩文件,`sed` 和 `awk` 用于文本处理,以及 `bash`、`sh` 或 `zsh` 等不同类型...
首先,卢亿雷介绍了AdMaster作为一家数据公司,使用了包括Hadoop、HBase、MapReduce、Pig、Hive、Spark、Storm、ElasticSearch和Pinot在内的大数据技术。这些技术的应用不仅限于数据存储、计算,还包括了数据的处理...
[root@master ~]# rm -rf /data/dfs /data/impala /data/yarn /dfs /impala /yarn /var/run/hadoop-* /var/run/hdfs-* /usr/bin/hadoop* /usr/bin/zookeeper* /usr/bin/hbase* /usr/bin/hive* /usr/bin/hdfs /usr/...
- **Shell 编程**:使用 Bash 脚本来自动化日常任务;掌握变量定义、条件判断、循环控制等基本语法。 - **进程管理**:ps/top 查看系统进程状态;kill 发送信号终止进程;nice 设置进程优先级等。 #### Hbase ...
18. Hadoop Kill扩展:这一扩展涉及到对Hadoop作业的管理和作业失败后的处理策略。 19. 血缘关系扩展:此部分关注数据和数据处理步骤之间的依赖关系,有助于数据产品的理解和维护。 20. 系统的高可用性设计:为了...
- **结束进程**:`kill -9 进程id` (`-9` 表示强制结束)。 - **为用户授权**:`chmod 777 文件或目录` (赋予所有用户读写执行权限)。 以上就是关于Linux系统常用软件和命令的详细介绍,希望对您有所帮助。熟悉这些...