关于Map和Reduce最大的并发数设置 - - ITeye博客

`

dajuezhao

浏览: 61717 次
性别:
来自: 北京

最近访客更多访客>>

wjboy49

jaydonluo

追求卓绝

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

scu_cxh：您好，我在学习hadoop方面的东西，想做一个对task监控的 ...
JobClient应用概述
bennie19870116：看不到图呢...
Eclipse下配置使用Hadoop插件

关于Map和Reduce最大的并发数设置

博客分类：

hadoop

Hadoop Mapreduce Linux Gmail JSP

阅读更多

一、环境

1、hadoop 0.20.2

2、操作系统 Linux

二、设置

1、因为hadoop的集群所有的机器不可能完全的配置一样，所以，不同节点机器上并发的最大map和reduce数量最好也不要相同。

2、在对应的节点机器上修改mapreduce-sit.xml文件，添加参数如下：
<property>
<name>mapred.tasktracker.map.tasks.maximum</name>
<value>2</value>
<description>The maximum number of map tasks that will be run
simultaneously by a task tracker.
</description>
</property>

<property>
<name>mapred.tasktracker.reduce.tasks.maximum</name>
<value>2</value>
<description>The maximum number of reduce tasks that will be run
simultaneously by a task tracker.
</description>
</property>

各个节点机器上在这个字段值上可以不相同。

3、查看http://192.168.3.131:50030/machines.jsp?type=active来检查数量。

三、总结

１、配置完之后，不需要重启集群所有的机器，只需要重启你改动过的节点机器就可以。

２、如果通过网页看不到变化，那么执行任意一个job，数值就会凸显出变化。

3、结合公平调度器来使用，可以最大程度上提升性能。

4、写的不对或是有疑问可以发邮件沟通。dajuezhao@gmail.com

分享到：

Map/Reduce中分区和分组的问题 | 关于集群数据负载均衡

2010-10-27 09:34
浏览 1257
评论(0)
分类:企业架构
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

google map reduce论文中文版: MapReduce的编程模型基于两个主要函数——Map函数和Reduce函数： - **Map函数**：这是一个用户自定义的函数，它接收输入的键值对并生成一系列中间键值对。Map函数可以并行执行于不同的数据块上，从而大大提高了处理...

hive参数优化总结: 可以通过设置相关参数来控制 Map 数和 Reduce 数，例如：set mapred.max.split.size=256000000 等。 3. 解决数据倾斜解决数据倾斜是 Hive 中一个非常重要的优化手段，影响着数据处理的速度和效率。可以通过合并小...

用于JavaScript的异步迭代器扩展库包括mapreducefilterflatMappipe等: 这个名为"axax"的扩展库正是针对JavaScript的异步迭代器进行了功能增强，提供了诸如map、reduce、filter、flatMap和pipe等实用方法，使得异步数据处理更加方便和高效。首先，我们来了解下这些方法： 1. **异步Map...

hive参数配置说明大全: 该参数决定了通过TRANSFROM/MAP/REDUCE所执行的用户脚本所允许的最大序列化错误数，默认值为100000。 19. hive.exec.script.allow.partial.consumption 该参数决定了是否允许脚本只处理部分数据，如果设置为true，...

超大集群的简单数据处理: 在实际应用中，开发人员可以采用多种编程技巧来优化MapReduce作业，如数据本地化以减少网络传输、利用Combiner函数预先减少数据量、合理设置Map和Reduce任务的数量等。通过这些方法，可以进一步提升MapReduce的性能...

hive性能优化: 与Map不同，Reduce任务的个数可以通过直接设置`mapred.reduce.tasks`来调整。然而，这种方式并不利于集群资源的自动扩展。通常，Hive会根据输入数据量动态计算Reduce任务数量，公式为`num_reduce_tasks = min(${hive...

Hive优化方法整理: Hive 优化方法整理是 Hive 数据处理过程中的重要步骤，涉及到 Hive 的类 SQL 语句本身进行调优、参数调优、Hadoop 的 HDFS 参数调优和 Map/Reduce 调优等多个方面。 Hive 类 SQL 语句优化 1. 尽量尽早地过滤数据...

hive配置说明: - **含义**：定义通过TRANSFORM/MAP/REDUCE所执行的用户脚本所允许的最大序列化错误数。 - **默认值**：`100000` - **建议设置**：根据实际需求调整。 18. **hive.exec.script.allow.partial.consumption** - *...

大数据平台构建：MapReduce运行原理.pptx: TaskTracker上的计算资源被等量划分为slot，MapTask和ReduceTask各占一种类型的slot，Task并发度由slot数量控制。总的来说，MapReduce通过将大数据处理任务分解、并行化，实现高效、可靠的分布式计算。它的设计...

大数据技术基础培训-MapReduce技术培训.pptx: 每个Task占用一个Task Slot，TaskTracker根据配置的Slot数量决定可以并发执行的任务数。 4. MapReduce实例：Word Count Word Count是MapReduce的经典示例，其目标是统计文本中每个单词出现的次数。在Map阶段，输入...

hadoop集群: 1. **JobTracker**：负责任务调度和资源管理，分配Map和Reduce任务给TaskTracker。 2. **TaskTracker**：运行在每个集群节点上，接收JobTracker的指令，执行Map和Reduce任务。 3. **DataNode**：存储HDFS的数据块，...

MapReduce在超大集群上的简易数据处理: MapReduce的核心思想是将复杂的分布式计算任务分解成两个主要阶段：Map阶段和Reduce阶段。 1. Map阶段：用户定义一个Map函数，该函数接收输入的数据（通常是键值对），并对其进行处理。Map函数将每条输入记录转换...

Hadoop知识.pdf: - `mapreduce.reduce.shuffle.parallelcopies`：调整并发拷贝数据的线程数，应接近 Map 任务数量。 - `mapreduce.job.reduce.slowstart.completedmaps`：设置 Map 完成比例，影响 Reduce 启动时机。 - `mapred-...

js代码-面试题1:实现一个批量请求函数 multiRequest(urls, maxNum)，要求最大并发数 maxNum，每当有一个请求返回，就留下一个空位，可以增加新的请求，所有请求完成后，结果按照 urls 里面的顺序依次打出。: - `maxNum`参数用于设置最大并发数，这需要一种机制来跟踪当前正在进行的请求数量，并在有空位时启动新的请求。 - 可以使用计数器和队列来实现这一功能，当计数器小于`maxNum`时，从队列中取出URL发起请求；当请求...

MapReduce中文版.pdf: 通过这种模式，复杂的并行和分布式计算任务得以简化，程序员可以专注于编写Map和Reduce函数，而无需关心底层的并行化和容错机制。MapReduce的性能可以通过调整任务划分、数据分区策略和并发级别等参数来优化。在第...

hadoop3.1配置: `mapreduce.map.cpu.vcores`和`mapreduce.reduce.cpu.vcores`则是CPU核心数，影响并发处理能力。 4. **yarn-site.xml**: YARN（Yet Another Resource Negotiator）是Hadoop的资源调度器，负责管理集群的计算资源。`...

MapReduce and Bigtable（非英文）: 通过Map和Reduce这两个基本操作，MapReduce可以高效地处理大规模数据，同时具备容错性、输入/输出调度和状态监控等特性。 #### 执行概览 MapReduce的执行流程大致分为以下几个步骤： 1. 输入数据被切分成多个片段...

Global site tag (gtag.js) - Google Analytics