`
gushengchang
  • 浏览: 29758 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

hadoop控制mapper的数目

阅读更多
由于数据上传后,一般以集群的默认dfs.block.size作为块大小。
但是由于我的输入文件小于块大小,但是每一行又需要在mapper中做并行,在默认的情况下,hadoop只会开一个mapper。后来通过看hadoop的源码分析发现有个方法:
在主函数中设置:
job.getConfiguration().setInt("mapred.max.split.size",10000000); // for split and get more mappers


在上述设置后,原来我默认的dfs.block.size是256mb,输入文件大小为120mb,按照10000000字节(不到10mb)来切分,因此得到mapper的任务数目为13。因此可以实现控制mapper的数目的目的。

当然要减少mapper的task的数目只要相应地调大这个值就好。
分享到:
评论

相关推荐

    行业分类-设备装置-一种于Hadoop平台中动态调整任务数目的方法及系统.zip

    4. **系统实现**:可能详细描述了该方法如何集成到Hadoop的作业调度器中,如Capacity Scheduler或FIFO Scheduler,以及如何与YARN(Yet Another Resource Negotiator)交互以控制任务执行。 5. **性能评估**:通过...

    hadoop streaming 表

    Hadoop Streaming是Hadoop的MapReduce编程模型的一个工具,它允许用户使用非Java语言编写MapReduce作业,使得其他编程语言如Python、Ruby和Perl等能够处理Hadoop上的大数据。Hadoop Streaming通过将数据流式传输到...

    Hadoop期末大作业

    ### Hadoop期末大作业知识点总结 #### HDFS操作 - HDFS的目录创建:使用`hdfs dfs -mkdir /exam/学号`命令创建目录。 - 文件上传:使用`hdfs dfs -put localfile /exam/学号/lyjd.txt`命令将本地文件上传至HDFS指定...

    hadoop分析原件

    此外,Hadoop提供了丰富的API和工具,如Hadoop Mapper类、Reducer类,以及用于Shuffle和排序的组件,帮助开发者更便捷地进行MapReduce程序的开发。 ### 应用 MapReduce的应用广泛,不仅限于数据处理领域,还被应用...

    基于hadoop实现的评价预测系统+源代码+文档说明

    ## 第一组:进行词频统计,得到每个词在对应评价下的数目,格式如下 类标_词语1\t计数 类标_词语2\t计数 类标_词语3\t计数 好评_好吃\t23 ### mapper实现: 将一行数据先以\t进行分割得到关键字行,再将...

Global site tag (gtag.js) - Google Analytics