Map/Reduce使用杂记 -

dajuezhao

浏览: 61513 次
性别:
来自: 北京

最近访客更多访客>>

wjboy49

jaydonluo

追求卓绝

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Map/Reduce使用杂记

博客分类：

hadoop

Hadoop

一、硬件环境

1、CPU：Intel(R) Core(TM)2 Duo CPU E4500 @ 2.20GHz

2、内存：2G

3、硬盘：500G

4、网卡：百兆电卡

5、网络：局域网络

6、集群数量：10台机器，1个master，10个slaves（master也做slave了！呵呵）

二、关于同时运行的map和reduce数量。

1、同时运行的数量通过mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum设置。

2、默认的设置都是2，也就是说Avg. Tasks/Node=4

3、关于数量，并非越大越好。通过测试发现，一个合适的值在2-4之间，也就是说Avg. Tasks/Node的值在4-8.当然这个和机器的性能有关系。

4、就我当前的环境，通过测试发现，map和reduce的数量都设置成2速度最快。

三、reduce的数量问题

1、reduce的数量默认是1，mapred.reduce.tasks，配置文件中的描述如下：

The default number of reduce tasks per job. Typically set to 99%
of the cluster's reduce capacity, so that if a node fails the reduces can
still be executed in a single wave.
Ignored when mapred.job.tracker is "local".

2、但是在实际的环境中，reduce的数量还是尽量多一点好，数额建议基本等于集群机器的数量。

3、reduce的数量直接决定输出的结果文件，所以在查看结果的时候可以将结果文件归并查看，命令如下：

hadoop fs -getmerge /jz /root/

4、参数mapred.jobtracker.taskScheduler.maxRunningTasksPerJob，用来控制一个job最大并行tasks数，这个是指在集群最大并行数

分享到：

Hadoop分布式安装 | Hadoop中自定义计数器

2010-10-27 09:40
浏览 972
评论(0)
分类:企业架构
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Map/Reduce使用杂记

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Map/Reduce使用杂记

评论

发表评论

相关推荐

Hadoop的基准测试工具使用(部分转载)

分布式集群中的硬件选择

Map/Reduce的内存使用设置

Hadoop开发常用的InputFormat和OutputFormat(转)

SecondaryNamenode应用摘记

Zookeeper分布式安装手册

Hadoop分布式安装

Hadoop中自定义计数器

Map/Reduce中的Partiotioner使用

Map/Reduce中的Combiner的使用

Hadoop中DBInputFormat和DBOutputFormat使用

Hadoop的MultipleOutputFormat使用

Map/Reduce中公平调度器配置

无法启动Datanode的问题

Map/Reduce的GroupingComparator排序简述

Map/Reduce中分区和分组的问题

关于Map和Reduce最大的并发数设置

关于集群数据负载均衡

Map/Reduce执行流程简述

Hadoop集群中关于SSH认证权限的问题

最近访客更多访客>>