`
dajuezhao
  • 浏览: 60865 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

关于Map和Reduce最大的并发数设置

阅读更多

一、环境

1、hadoop 0.20.2

2、操作系统 Linux

二、设置

1、因为hadoop的集群所有的机器不可能完全的配置一样,所以,不同节点机器上并发的最大map和reduce数量最好也不要相同。

2、在对应的节点机器上修改mapreduce-sit.xml文件,添加参数如下:
<property>
<name>mapred.tasktracker.map.tasks.maximum</name>
<value>2</value>
<description>The maximum number of map tasks that will be run
simultaneously by a task tracker.
</description>
</property>

<property>
<name>mapred.tasktracker.reduce.tasks.maximum</name>
<value>2</value>
<description>The maximum number of reduce tasks that will be run
simultaneously by a task tracker.
</description>
</property>

各个节点机器上在这个字段值上可以不相同。

3、查看http://192.168.3.131:50030/machines.jsp?type=active来检查数量。

三、总结

1、配置完之后,不需要重启集群所有的机器,只需要重启你改动过的节点机器就可以。

2、如果通过网页看不到变化,那么执行任意一个job,数值就会凸显出变化。

3、结合公平调度器来使用,可以最大程度上提升性能。

4、写的不对或是有疑问可以发邮件沟通。dajuezhao@gmail.com

分享到:
评论

相关推荐

    google map reduce论文中文版

    MapReduce的编程模型基于两个主要函数——Map函数和Reduce函数: - **Map函数**:这是一个用户自定义的函数,它接收输入的键值对并生成一系列中间键值对。Map函数可以并行执行于不同的数据块上,从而大大提高了处理...

    hive参数优化总结

    可以通过设置相关参数来控制 Map 数和 Reduce 数,例如:set mapred.max.split.size=256000000 等。 3. 解决数据倾斜 解决数据倾斜是 Hive 中一个非常重要的优化手段,影响着数据处理的速度和效率。可以通过合并小...

    hive参数配置说明大全

    该参数决定了通过TRANSFROM/MAP/REDUCE所执行的用户脚本所允许的最大序列化错误数,默认值为100000。 19. hive.exec.script.allow.partial.consumption 该参数决定了是否允许脚本只处理部分数据,如果设置为true,...

    用于JavaScript的异步迭代器扩展库包括mapreducefilterflatMappipe等

    这个名为"axax"的扩展库正是针对JavaScript的异步迭代器进行了功能增强,提供了诸如map、reduce、filter、flatMap和pipe等实用方法,使得异步数据处理更加方便和高效。 首先,我们来了解下这些方法: 1. **异步Map...

    超大集群的简单数据处理

    在实际应用中,开发人员可以采用多种编程技巧来优化MapReduce作业,如数据本地化以减少网络传输、利用Combiner函数预先减少数据量、合理设置Map和Reduce任务的数量等。通过这些方法,可以进一步提升MapReduce的性能...

    hive性能优化

    与Map不同,Reduce任务的个数可以通过直接设置`mapred.reduce.tasks`来调整。然而,这种方式并不利于集群资源的自动扩展。通常,Hive会根据输入数据量动态计算Reduce任务数量,公式为`num_reduce_tasks = min(${hive...

    Hive优化方法整理

    Hive 优化方法整理是 Hive 数据处理过程中的重要步骤,涉及到 Hive 的类 SQL 语句本身进行调优、参数调优、Hadoop 的 HDFS 参数调优和 Map/Reduce 调优等多个方面。 Hive 类 SQL 语句优化 1. 尽量尽早地过滤数据...

    hive配置说明

    - **含义**:定义通过TRANSFORM/MAP/REDUCE所执行的用户脚本所允许的最大序列化错误数。 - **默认值**:`100000` - **建议设置**:根据实际需求调整。 18. **hive.exec.script.allow.partial.consumption** - *...

    大数据平台构建:MapReduce运行原理.pptx

    TaskTracker上的计算资源被等量划分为slot,MapTask和ReduceTask各占一种类型的slot,Task并发度由slot数量控制。 总的来说,MapReduce通过将大数据处理任务分解、并行化,实现高效、可靠的分布式计算。它的设计...

    大数据技术基础培训-MapReduce技术培训.pptx

    每个Task占用一个Task Slot,TaskTracker根据配置的Slot数量决定可以并发执行的任务数。 4. MapReduce实例:Word Count Word Count是MapReduce的经典示例,其目标是统计文本中每个单词出现的次数。在Map阶段,输入...

    hadoop集群

    1. **JobTracker**:负责任务调度和资源管理,分配Map和Reduce任务给TaskTracker。 2. **TaskTracker**:运行在每个集群节点上,接收JobTracker的指令,执行Map和Reduce任务。 3. **DataNode**:存储HDFS的数据块,...

    MapReduce在超大集群上的简易数据处理

    MapReduce的核心思想是将复杂的分布式计算任务分解成两个主要阶段:Map阶段和Reduce阶段。 1. Map阶段: 用户定义一个Map函数,该函数接收输入的数据(通常是键值对),并对其进行处理。Map函数将每条输入记录转换...

    Hadoop知识.pdf

    - `mapreduce.reduce.shuffle.parallelcopies`:调整并发拷贝数据的线程数,应接近 Map 任务数量。 - `mapreduce.job.reduce.slowstart.completedmaps`:设置 Map 完成比例,影响 Reduce 启动时机。 - `mapred-...

    js代码-面试题1:实现一个批量请求函数 multiRequest(urls, maxNum),要求最大并发数 maxNum,每当有一个请求返回,就留下一个空位,可以增加新的请求,所有请求完成后,结果按照 urls 里面的顺序依次打出。

    - `maxNum`参数用于设置最大并发数,这需要一种机制来跟踪当前正在进行的请求数量,并在有空位时启动新的请求。 - 可以使用计数器和队列来实现这一功能,当计数器小于`maxNum`时,从队列中取出URL发起请求;当请求...

    MapReduce中文版.pdf

    通过这种模式,复杂的并行和分布式计算任务得以简化,程序员可以专注于编写Map和Reduce函数,而无需关心底层的并行化和容错机制。MapReduce的性能可以通过调整任务划分、数据分区策略和并发级别等参数来优化。 在第...

    hadoop3.1配置

    `mapreduce.map.cpu.vcores`和`mapreduce.reduce.cpu.vcores`则是CPU核心数,影响并发处理能力。 4. **yarn-site.xml**: YARN(Yet Another Resource Negotiator)是Hadoop的资源调度器,负责管理集群的计算资源。`...

    MapReduce and Bigtable(非英文)

    通过Map和Reduce这两个基本操作,MapReduce可以高效地处理大规模数据,同时具备容错性、输入/输出调度和状态监控等特性。 #### 执行概览 MapReduce的执行流程大致分为以下几个步骤: 1. 输入数据被切分成多个片段...

Global site tag (gtag.js) - Google Analytics