`

MapReduce任务的优化

阅读更多
MapReduce任务的优化


        MapReduce计算模型的优化涉及了方方面面的内容,但是主要集中在两个方面:一是计算性能方面的优化;二是,I/O操作方面的优化。这其中,又包括六个方面的内容。

1.任务调度
        任务调度是hadoop中非常重要的一个环节,这个优化又涉及了两个方面的内容。计算方面:hadoop总会优先将任务分配给空闲的机器,使所有的任务能公平的分享系统资源。I/O方面:hadoop会尽力将Map任务分配给InputSplit所在的机器,以减少网络I/O的消耗。

2.数据处理与InputSplit的大小
        MapReduce任务擅长处理少量的大数据,而在处理大量的小数据时,MapReduce的性能会逊色很多。因此在提交MapReduce任务前可以先对数据进行一次预处理,将数据合并以提高MapReduce任务的执行效率,这个方法往往很有效。如果这还不行,可以参考MapReduce任务的运行时间。当一个Map任务只需要运行几秒就可以结束时,就需要考虑是否应该给他分配更多的数据。通常而言,一个Map任务的运行时间在一分钟左右会比较合适,可以通过设置Map的输入数据大小来调节Map任务的运行时间。在FileInputFormat中(除了combineFileInputFormat),hadoop会处理每个Block后将其作为一个inputSplit,因此合理的设置block块大小是很重要的调节方式。除此之外,也可以通过合理地设置Map任务的数量来调节Map任务的数据输入。

3.Map和Reduce任务的数量
        合理的设置Map和Reduce任务的数量对提高MapReduce任务的效率是非常重要的。默认的设置往往不能和好的体现出MapReduce任务的需求,不过,设置他们的数量也要有一定的实践经验。
        首先要定个两个概念-----Map/Reduce任务槽。Map/Reduce任务槽就是这个集群能够同时运行的Map/Reduce任务的最大数量。比如:在一个具有1200台机器的集群中,设置每台机器最多可以运行10个Map任务,5个Reduce任务。那么这个集群的Map任务槽数量就是12000,Reduce任务槽就是6000。任务槽可以帮助对任务调度进行设置。
        设置MapReduce任务的Map数量主要参考的是Map运行的时间,设置Reduce任务的数量就只需要参考任务槽的设置即可。一般来说,Reduce任务的数量应该是Reduce任务槽数量的0.95或者1.75倍,这是基于不同的考虑来决定的。当Reduce任务数是Reduce任务槽数量的0.95倍时,如果一个Reduce失败,hadoop可以很快的找到一台空闲的机器重新执行这个任务。当Reduce任务数是Reduce任务槽的1.75倍时,执行速度快的机器可以可以获得更多的reduce任务,一次可以使负载更加均衡,以提高任务的处理速度。

4.Combine函数
        Combine函数是用于本地合并数据的函数。在有些情况下,Map函数产生中间数据会有很多重复的,比如在一个简单的WordCount程序中,因为词频是接近与一个zipf分布的,每个Map任务可能会产生成千上万个<zhe,1>记录,若将这些记录一一传送给Reduce任务是很耗时的。所以MapReduce框架运行用户写的combine函数用于本地合并,这会大大减少网络I/O操作的消耗此时就可以利用combine函数先计算出在这个block中单词zhe的个数。合理的设计combine函数会有效的减少网络传输的数据量,提高mapreduce的效率。
        在MapReduce程序中使用combine函数很简单,只需要在程序中添加如下内容:
job.setCombineClass(combine.classs);

        在WordCount程序中,可以指定Reduce类为combine函数,如下:
job.setCombineClass(Reduce.class);


5.压缩
        编写MapReduce程序时,可以选择对Map的数据和最终的输出结果进行压缩(同时可以选择压缩方式)。在一些情况下,Map的中间输出可能会很大,对其进行压缩可以有效的减少网络上传输量。对最终结果进行压缩虽然会减少数据写HDFS的时间,但是也会对读取产生一定的影响,因此要根据实际情况来选择。

6.自定义comparator
        在hadoop中,可以自定义数据类型以实现更复杂的目的,比如:当读者想实现k-means算法(一种聚类的算法)时可以自顶一个K个整数的集合。自定义hadoop数据类型时,推荐自定义comparator来实现数据的二进制比较,这样可以省去数据序列化和反序列化的时间,提高程序的运行效率。







分享到:
评论

相关推荐

    mapreduce开发优化文档

    - **影响**:较大的数据块可以减少元数据开销,但启动MapReduce任务时需要更多时间。 - **建议值**:128MB。 ##### 3.4 dfs.datanode.du.reserved - **作用**:为MapReduce作业预留磁盘空间。 - **影响**:保证...

    【MapReduce篇08】MapReduce优化1

    MapReduce是一种分布式计算模型,常用于大...总的来说,MapReduce的优化是一个综合性的过程,涉及到硬件配置、任务调度、数据处理和通信效率等多个层面。通过精心调整上述策略,可以显著提升MapReduce作业的执行效率。

    Hive开发培训.pptx

    - **MapReduce任务优化**: 合并多个Map或Reduce阶段以减少任务数量。 - **资源管理**: 动态调整MapReduce任务所需的资源。 #### 七、总结 Hive作为一款构建在Hadoop之上的数据仓库工具,通过提供类SQL的查询语言...

    基于MapReduce的大数据在线聚集优化设计.pdf

    MapReduce作为一种分布式计算框架,被广泛应用于大数据处理领域,它能够处理PB级别的数据规模,有效地支持数据的在线聚集优化。然而,MapReduce在执行大数据在线聚集任务时往往存在执行时间长、执行性能较差以及延迟...

    MapReduce的小应用

    - 进一步优化MapReduce任务的效率,比如通过优化分区策略或改进排序算法。 - 考虑使用Hive等大数据查询工具来简化数据分析过程。 - 设计更直观的UI界面,以方便用户查看歌曲排行榜和用户音乐风格偏好。 - 进行更深入...

    用于期限约束的MapReduce任务调度算法

    MapReduce任务通常包含两个阶段:Map阶段和Reduce阶段。Map阶段处理输入数据,产生中间数据,而Reduce阶段则对Map阶段的中间数据进行汇总处理,产生最终结果。在实际应用中,许多情况下对这些任务的执行有时间上的...

    基于MapReduce实现的TFIDF计算

    在基于MapReduce实现TF-IDF计算时,这两个阶段分别负责不同的任务: 1. **Map阶段**: - 输入:原始的文本数据集,每个文件代表一个文档。 - 输出:键值对(&lt;词,&lt;文档ID,词频&gt;&gt;)。在这个阶段,我们需要对每个...

    CDH性能调优精髓,CDH热点问题分析

    ##### MapReduce任务优化 - **任务调度**:优化任务调度策略,确保资源的有效利用。 - **内存管理**:合理分配Map和Reduce任务的内存资源,避免内存溢出等问题。 - **并行度设置**:根据集群规模和数据量调整...

    HIVE查询优化

    Hive QL的执行本质上是MR任务的运行,因此优化主要考虑到两个方面:Mapreduce任务优化、SQL语句优化 一、Mapreduce任务优化 1、设置合理的task数量(map task、reduce task) 这里有几个考虑的点,一方面Hadoop MR ...

    hadoop技术支

    提升Hadoop性能涉及多个方面,包括硬件配置、HDFS参数调优、MapReduce任务优化、YARN配置等。合理的资源分配、数据本地化以及减少磁盘I/O是常见的优化策略。 总之,Hadoop作为大数据处理的重要工具,其技术支撑...

    基于MapReduce的分布式ETL调度优化方法.pdf

    根据提供的文件内容,以下是对标题“基于MapReduce的分布式ETL调度优化方法.pdf”和描述中知识点的详细解读。 分布式ETL调度优化方法是近年来大数据处理领域的一个热点技术。在大数据处理过程中,ETL(抽取 Extract...

    23、hadoop集群中yarn运行mapreduce的内存、CPU分配调度计算与优化

    在Hadoop集群中,YARN(Yet Another Resource Negotiator)作为资源管理器,负责调度MapReduce任务的内存和CPU资源。YARN支持基于内存和CPU的两种资源调度策略,以确保集群资源的有效利用。在非默认配置下,合理地...

    Hadoop平台的MapReduce模型性能优化研究

    在此研究基础之上,本文指出MapReduce应用可在程序、参数和系统三个层面进行优化。程序和参数两个层面实现优化的可选项很多,本文在第三章对此作了详细阐述。 Hadoop在管理资源中将内存和CPU两种计算资源捆绑在一起,...

    mapreduce案例文本文件.zip

    通过阅读相关博客文章,结合案例中的文件,可以深入理解MapReduce如何处理大规模数据,以及如何编写和优化Map和Reduce函数。这不仅是提升技能的好机会,也是准备Hadoop和大数据相关面试的宝贵资源。

    云计算分布式大数据Hadoop实战之路--从零开始(第1-10讲)

    8. 性能优化:讨论如何调优Hadoop集群,包括HDFS参数调整、MapReduce任务优化等。 9. 容错与可靠性:学习如何保证Hadoop系统的稳定性和数据的完整性,理解各种容错机制。 10. 实时数据处理:简介实时数据处理框架,...

    学生mapreduce成绩分析

    Hadoop提供了一个分布式文件系统(HDFS)用于存储数据,以及资源管理和调度(YARN)来协调MapReduce任务的执行。在“学生mapreduce成绩分析”项目中,学生数据可能会存储在HDFS中,然后通过Hadoop的MapReduce API...

    异构集群上优化MapReduce

    综上所述,这份文档可能详细讨论了如何在异构集群环境下,通过改进任务调度、优化数据本地性、调整任务并行度等方式来提升MapReduce的执行效率,实现资源的最大化利用。配合演示文稿,读者可以更好地理解和应用这些...

    MapReduce基础.pdf

    - **容错性**:MapReduce框架内置了容错机制,当某个任务失败时,框架会自动重试该任务,确保数据处理的完整性。 #### 六、MapReduce的限制 尽管MapReduce是一种强大的数据处理模型,但它也有一定的局限性: - **...

    hadoop mapreduce helloworld 能调试

    通过熟练掌握这些调试技巧,开发者可以更有效地定位和解决问题,从而优化 Hadoop MapReduce 应用程序的性能和效率。在实际操作中,不断实践和理解 Hadoop 生态系统将使你能够更好地驾驭这个强大的大数据处理工具。

Global site tag (gtag.js) - Google Analytics