hadoop中mapred.tasktracker.map.tasks.maximum的设置 - - ITeye博客

`

228298566

浏览: 39473 次
性别:
来自: 上海

最近访客更多访客>>

woodding2008

forestkqq

saint_me

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

hadoop中mapred.tasktracker.map.tasks.maximum的设置

博客分类：

hive

阅读更多

通过把一部分log已经迁移到Hadoop集群上

并由Hive来执行相关的查询

hadoop中默认的mapred.tasktracker.map.tasks.maximum设置是2

也即：每一个tasktracker同时运行的map任务数为2

照此默认设置，查询80天某用户的操作日志，耗时5mins, 45sec

经过测试，发现将mapred.tasktracker.map.tasks.maximum设置为节点的cpu cores数目减1比较合适

此时的运行效率最高，大概花费3mins, 25sec

我们现在的机器都是8核的，所以最终配置如下：

<property>
    <name>mapred.tasktracker.map.tasks.maximum</name>
    <value>8</value>
    <description>The maximum number of map tasks that will be run simultaneously by a task tracker.
    </description>
</property>

对于mapred.map.tasks（每个job的map任务数）值，hadoop默认值也为2

可以在执行hive前，通过set mapred.map.tasks=24来设定

但由于使用hive，会操作多个input文件，所以hive默认会把map的任务数设置成输入的文件数目

即使你通过set设置了数目，也不起作用…

对于mapred.reduce.tasks（每个job的reduce任务数）值，hadoop默认值也为2，最好设为配置参数，你想实现的分块数目。

转帖来自：http://www.tech126.com/category/hadoop-2/

如果mapred.tasktracker.map.tasks.maximum 的设置超过 cpu cores数目。

则在执行过程中会出现异常：

10/12/30 10:43:51 INFO mapred.JobClient: Task Id : attempt_201012300937_0001_m_000032_1, Status : FAILED
java.io.IOException: Could not obtain block: blk_-462377779899911007_1022 file=/user/asr/in-again/blog.20101213.5gram

分享到：

DistributedCache In Hadoop | ubuntu 时间设置

2013-10-21 22:00
浏览 641
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hadoop集群搭建.pdf: - `mapred.tasktracker.{map|reduce}.tasks.maximum`：定义TaskTracker上同时运行的最大Map或Reduce任务数量。 6. **日志管理**： - `HADOOP_LOG_DIR`：设置守护进程的日志文件存放目录，如果不存在，会自动创建...

hadoop集群各种配置文件: 2. `mapred.tasktracker.map.tasks.maximum`和`mapred.tasktracker.reduce.tasks.maximum`分别设置了每个TaskTracker可以并行运行的Map任务和Reduce任务的最大数量，这里分别是50和10。 3. `mapred.map.child.java....

hadoop配置含义: ##### 3.7 mapred.tasktracker.{map|reduce}.tasks.maximum **定义**：限制 TaskTracker 上同时运行的最大 Map 或 Reduce 任务数。 **描述**：默认值为 2，可根据实际情况调整以优化资源利用。 ##### 3.8 dfs.hosts...

MapReduce源码分析: MapReduce的性能很大程度上取决于配置参数，例如`mapred.map.tasks`和`mapred.reduce.tasks`分别控制Map和Reduce任务的数量。通过合理调整这些参数，可以优化数据处理效率，避免资源浪费或瓶颈。总结，MapReduce的...

Hadoop任务调度器: 一个TaskTracker可以有多个mapslot和reduceslot，具体数量由参数mapred.tasktracker.[map|reduce].tasks.maximum配置。这些slot资源被调度器用来分配给不同作业中的任务。 Hadoop的三级调度策略包括：队列、作业和...

Hadoop performance models: | pMaxMapsPerNode | mapred.tasktracker.map.tasks.max | 2 | 单节点最大 Map 任务数 | | pMaxRedPerNode | mapred.tasktracker.reduce.tasks.max | 2 | 单节点最大 Reduce 任务数 | | pNumMappers | mapred.map....

MapReduce研究现状 .zip: 4. **MapReduce参数调整**：例如，调整`mapred.tasktracker.map.tasks.maximum`和`mapred.tasktracker.reduce.tasks.maximum`，平衡Map和Reduce任务的数量。 5. **输入输出格式优化**：选择合适的输入输出格式，如...

hive优化 PDF 下载: - 调整 MapReduce 参数：如 mapred.tasktracker.map.tasks.maximum 和 mapred.tasktracker.reduce.tasks.maximum，以适应集群资源。 - 使用 YARN：YARN 提供更好的资源管理和调度，提高集群整体性能。 - 内存设置...

Hadoop学习总结之五：Hadoop的运行痕迹: - `mapred.job.reuse.jvm.num.tasks`: `-1` (允许Map和Reduce任务共享同一个JVM) - **内存排序大小调整**: - `io.sort.mb`: `1` (将内存排序大小从默认的100MB降低到1MB) - **远程调试端口配置**: - `mapred....

java大数据作业_1云计算、大数据、hadoop: - mapred.tasktracker.reduce.tasks.maximum：MapReduce中每个任务追踪器可运行的最大reduce任务数量。 - dfs.data.dir：HDFS的数据节点存储数据的目录列表。 8. HDFS监控项含义： - Configured Capacity：HDFS...

MapReduce2.0源码分析与实战编程: 4. 配置优化：学习如何调整各种配置参数，如mapred.map.tasks、mapred.reduce.tasks等，以适应不同规模的数据和集群环境。 5. Job的提交和监控：掌握如何提交作业，以及通过命令行工具或Web UI监控作业状态和进度。 ...

大数据hive笔记.zip: 5. 内存调优：调整Hive的内存参数，如mapred.tasktracker.map.tasks.maximum和hive.exec.memory.per.node，提高任务执行效率。七、Hive与Spark集成随着Spark的流行，Hive也提供了与Spark的集成，允许用户使用...

hadoop集群配置及mapreduce开发手册: - 配置Eclipse中的Hadoop插件，包括设置Hadoop安装路径、JDK路径等。 - 创建一个新的MapReduce项目，选择合适的模板，如WordCount示例。 ##### 3.3 建立MapReduce工程 - 在Eclipse中创建新的MapReduce工程，编写...

Hive查询优化整理与Hive简易版思维导图: 3. **配置调优**：根据集群资源和任务特性调整Hive的配置参数，如mapred.tasktracker.map.tasks.maximum、hive.exec.parallel等。四、Hive简易版思维导图这个思维导图可能包含了Hive的基本概念、重要组件、查询...

HadoopPMapPReduce-.rar_Java编程_Java_: - MapReduce参数调优：如io.sort.mb、mapred.tasktracker.map.tasks.maximum等，根据实际环境调整。本教程“Hadoop Map+Reduce”将详细阐述这些概念，通过实例讲解如何编写和运行MapReduce程序，帮助Java开发者...

haboop 配置文件: `mapred-site.xml`文件用于配置MapReduce作业的相关参数，比如JobTracker和TaskTracker的位置、作业的内存分配（`mapreduce.map.memory.mb`和`mapreduce.reduce.memory.mb`），以及任务的并行度（`mapreduce.map....

Global site tag (gtag.js) - Google Analytics