1 map端优化:
1.1 shuffle过程中:
数据从mapper端传递到reducer端的过程, 网络传输 磁盘读写操作 这是最耗费时间的.
此时,可以进行数据压缩,参考链接:hadoop压缩
1.2 map端的数据排序是发生在内存中,如果map缓冲区越大,那么写出到磁盘的次数就越少。
map端将内存中的数据spill到磁盘的时候,如果磁盘的是固态硬盘,那么存储的速度会更快
1.3 如果map到reduce中,网络是千兆的自然也会比百兆的网速拷贝速度快.
1.4 map job调优:
推测执行: 如果某个任务执行过慢,会对同一份数据产生多个mapper任务,同时执行,谁先执行完了就用谁的东西, 这就是推测执行,在集群中需要关闭。
但是关闭后,如果这个任务执行失败了,那么还会重新启动这个任务,但是从概率上讲,很少发生。
mapred.map.task.speculative.execution=true;
mapred.reduce.task.speculative.execution=false ;
开启jvm重用: 每个mappre任务启动单独进程,JVM重用就用一个JVM数据都放在这一个里面,开启后避免了不断新建Java进程,坏处进程死掉则后面无法执行,如果数据存在属性变量会出现
环境污染,谨慎开启吧
mapred.job.reuse.jvm.num.tasks=-1
增加InputSplit大小: InputSplit.size由三个要素决定: min max blocksize
mapred.min.split.size=268435456
增大map输出的缓存: 意味着向磁盘输出map数量次数减少。
io.sort.mb=300
增加合并spill文件数量: 目的还是减少写入磁盘的次数
io.sort.factor=50
map端输出压缩,推荐LZO压缩算法
mapred.compress.map.output=true;
mapred.map.output.compression.codec=com.hadoop.compression.lzo.LzoCodec;
增大shuffle复制线程数: 加快拷贝速度
mapred.reduce.parallel.copies=15
设置单个节点的map和reduce执行数量(默认每个都是2) 前提是机器配置别太差,内存 硬盘都要足 ----> 看数据资源中心测试环境的配置
mapred.tasktracker.map.tasks.maxinum=2
mapred.tasktracker.reduce.tasks.maxinum=2
相关推荐
Hadoop平台的性能优化研究涉及了如何在大型分布式系统中提升任务处理速度和效率,这对于当前数据密集型应用的发展至关重要。本文将从以下几个关键点详细解读Hadoop平台性能优化的知识点。 首先,了解Hadoop平台的...
Hadoop 优化 Hadoop 作为大数据处理的核心技术,优化其性能是非常重要的。本文将总结 Hadoop 的优化技术,涵盖 MapReduce、Hive、Linux 层面的优化技术。 一、Hardware 配置优化 在 Hadoop 集群中,硬件配置的...
《Hadoop平台优化文献综述》 Hadoop作为开源的大数据处理框架,因其分布式计算的特性,被广泛应用在海量数据处理领域。然而,随着数据规模的不断扩大,Hadoop平台面临一系列挑战,需要对其进行优化以提高效率和稳定...
【基于GPU的Hadoop平台优化实现】 随着大数据的爆发式增长,互联网和物联网等领域产生的数据量呈现出指数级上升,这使得数据处理技术面临新的挑战。Hadoop作为一种分布式计算框架,因其强大的数据处理能力而在大...
在大数据处理领域,Hadoop是不可或缺的核心组件,它以其分布式计算框架著称,为企业和科研机构提供了海量数据处理的能力。...理解并熟练应用上述知识点,有助于构建出一个强大、可靠的Hadoop大数据处理平台。
【Hadoop平台的性能优化研究】这篇论文着重探讨了如何提升Hadoop分布式计算框架的效率。Hadoop基于MapReduce模型,随着其应用范围的扩大,性能优化变得至关重要。Hadoop的性能很大程度上取决于运行在其上的应用程序...
Hadoop优化以及MR跑的慢的原因和MR优化的一些方法,Hadoop对于小文件的优化方法,以及一些解决方案
本文将重点讨论Hadoop在大数据处理中的优化与新特性,特别是关于数据压缩的方面。 首先,Hadoop 提供了多种数据压缩格式,包括 DEFLATE、Gzip、Bzip2、LZO 和 Snappy。每种压缩算法都有其特点。DEFLATE 是一种通用...
hadoop平台的监控个、优化、自动调度等,强烈推荐大家
Hadoop 性能优化研究 对研究hadoop的人进行性能优化有一定的帮助
本文首先介绍了Hadoop平台的背景,包括它在技术背景上的产生与发展,在应用背景上的应用与前景。之后对 Hadoop的关键技术 HDFS、MapReduce和Scheduler进行研究分析。在此研究基础之上,本文指出MapReduce应用可在程序、...
hadoop高可用集群搭建及参数优化hadoop高可用集群搭建及参数优化hadoop高可用集群搭建及参数优化
### Hadoop平台性能优化研究 #### 摘要与引言 随着大数据处理需求的不断增长,基于MapReduce模型的应用程序日益增多。Hadoop作为分布式计算领域的领军者,其性能表现直接影响着各种大规模数据处理任务的效率。然而...
大数据处理框架:Hadoop:Hadoop性能优化与故障排查.docx