`
yeelor
  • 浏览: 417948 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

Hadoop性能调优

 
阅读更多

重要参数

name 说明
mapred.task.profile 是否对任务进行profiling,调用java内置的profile功能,打出相关性能信息
mapred.task.profile.{maps|reduces} 对几个map或reduce进行profiling。非常影响速度,建议在小数据量上尝试
mapred.job.reuse.jvm.num.tasks 1表示不reuse,-1表示无限reuse,其他数值表示每个jvm reuse次数。reuse的时候,map结束时不会释放内存!
mapred.{map|reduce}.tasks.speculative.execution 会对运行慢的任务起一个备份任务,看哪个先完成,kill掉后完成的备份
io.sort.spill.percent 开始spill的内存比例阈值,对map和reduce都生效
mapred.job.shuffle.input.buffer.percent reduce在copy时使用的堆空间的比例
mapred.tasktracker.{map|reduce}.tasks.maximum 一个Tasktracker上可同时运行的最大map、reduce任务数
mapred.reduce.copy.backoff reduce获取一份map输出数据的最大时间,单位秒。
io.compression.codecs 压缩算法
dfs.block.size hdfs上的文件block大小
mapred.reduce.slowstart.completed.maps 控制reduce的启动时机。表示全部map的百分之多少完成后,才启动reduce。如果机器内存紧张,可以适当设大改参数,等大部分map结束并释放内存后才启动reduce;如果希望尽快开始shuffle,则可配合大量map数,将该值设小,以尽早启动reduce,开始copy。
io.sort.mb map使用的缓存,影响spill的次数。
mapred.child.java.opts 同时设置map和reduce的jvm参数
mapred.map.child.java.opts 分开设置map的jvm参数,包括GC策略
mapred.reduce.child.java.opts 分开设置reduce的jvm参数
map.sort.class 对map的输出key的排序方法
mapred.output.compression.type 压缩类型
mapred.min.split.size 每个map的最小输入大小,该值越大,map数越少
mapred.max.split.size 每个map的最大输入大小,该值约小,map数越多
mapred.reduce.parallel.copies reduce从map结果copy数据时,每个reduce起的并行copy线程数。该值越大,io压力越大,但可能引起网络堵塞,copy效率反而降低。
io.sort.factor merge时的并行merge数,同时影响map的spill文件merge和reduce中的merge
mapred.compress.map.output 指定map的输出是否压缩。有助于减小数据量,减小io压力,但压缩和解压有cpu成本,需要慎重选择压缩算法。
mapred.map.output.compression.codec map输出的压缩算法
mapred.output.compress reduce输出是否压缩
mapred.output.compression.codec 控制mapred的输出的压缩的方式
io.sort.record.percent map中间数据的index和data在io.sort.mb中占内存的比例,默认0.05%,需要根据具体数据的特点调整:index的大小固定为16byte,需要根据data的大小调整这个比例,以使io.sort.mb的内存得到充分利用)。

 

 

 

参考:

http://blog.csdn.net/dajuezhao/article/details/6591034

分享到:
评论

相关推荐

    hadoop调优指南 hadoop调优指南

    为了充分发挥Hadoop的性能优势,进行合理的系统调优是非常必要的。本文将基于提供的标题、描述、标签以及部分内容,深入探讨Hadoop调优的关键知识点。 #### Hadoop概述 Hadoop是一个开源软件框架,用于分布式存储...

    hadoop性能调优与运维

    Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据...

    hadoop作业调优参数整理及原理

    Hadoop作业调优是提升大数据处理效率的关键环节,通过对Hadoop MapReduce框架中的参数进行精细调整,可以显著改善作业的性能。以下是对标题和描述中涉及的参数及原理的详细说明: 1. **MapTask运行内部原理** - **...

    2014年大数据处理HADOOP与性能调优

    【Hadoop性能调优】涉及多个层面,包括硬件选择、配置参数调整、数据分布策略等。选择适合Hadoop的硬件配置至关重要,一般考虑硬盘I/O性能、内存大小和CPU计算能力。在配置优化方面,调整如Block Size、Replication ...

    Hadoop&spark-性能调优

    Hadoop性能调优 主要涉及hdfs、yarn、mapreduce、hive等的调优,同时也包括一些linux系统产生调优

    Hadoop参数调优

    Hadoop参数调优是指通过调整Hadoop配置文件中的各个参数来达到性能优化的目的。Hadoop配置文件中包含了大量的参数,每个参数都有其特定的作用和默认值。通过调整这些参数,可以大大提高Hadoop的性能。但是,参数调整...

    Hive及Hadoop作业调优

    文档内容围绕Hadoop生态系统中的两个主要组件Hive和Hadoop进行展开,对它们的工作原理、性能调优策略等方面进行了深入讨论。 首先,Hive是建立在Hadoop上的一个数据仓库工具,可以将结构化的数据文件映射为一张...

    hadoop 配置项的调优

    总的来说,Hadoop的配置调优是一个综合考虑硬件资源、数据特性、作业需求和系统性能的过程。每个参数的调整都需要谨慎,因为它们之间存在相互影响的关系。通过深入理解这些配置项的作用和相互关系,可以有效地优化...

    hadoop和hive调优个人总结

    Hadoop和Hive调优是当前大数据处理中非常重要的一部分,如何提高Hadoop和Hive的性能,将直接影响到整个数据处理的效率和质量。本文将总结个人在学习和测试Hive过程中的调优经验,包括Datanode的热插拔、启动自动...

    基于Hadoop的电商大数据平台性能调优.pdf

    基于Hadoop的电商大数据平台性能调优主要涉及两大方面:数据重新组织和平台参数调优。针对电商大数据平台的特点,通过调整存储数据格式、优化数据表的分区与分桶策略,以及调整涉及业务主要组件的关键参数,可以显著...

    Hadoop大数据开发与性能调优实战培训课程-Hadoop组件详解.rar

    本课程“Hadoop大数据开发与性能调优实战培训课程-Hadoop组件详解”旨在深入探讨Hadoop的主要组件及其优化策略,帮助开发者和数据工程师提升在大数据环境中的实践能力。 首先,我们要了解Hadoop的基础架构,它主要...

    五分钟学大数据-Hadoop企业级调优手册1

    【标题】:“五分钟学大数据-Hadoop企业级调优手册1” ...综上所述,Hadoop企业级调优涵盖了从基础参数配置到集群性能测试、扩展与维护的全方位流程,旨在最大化HDFS的性能和稳定性,为企业的大数据应用提供有力支撑。

    大数据各类性能调优

    ### 大数据各类性能调优 #### 12.1 配置原则 在大数据环境中,合理配置资源是实现高效能的关键。以下是一些基本原则: **原则1:CPU核数分配原则** - **数据节点**: 建议预留2~4个核心给操作系统和其他进程(如...

    Cloudera Hadoop 5&Hadoop高阶管理及调优课程

    Cloudera Hadoop 5&Hadoop高阶管理及调优课程,完整版,提供课件代码资料下载。 内容简介 本教程针对有一定Hadoop基础的学员,深入讲解如下方面的内容: 1、Hadoop2.0高阶运维,包括Hadoop...5、Hadoop各组件性能调优

    Hadoop_Performance_Tuning_Guide.pdf

    Hadoop性能调优指南介绍了一种有效的方法来提升Hadoop集群的运行效率,它不仅涵盖了硬件优化,还包括了系统和Hadoop架构层面的优化。Hadoop是一个开源的分布式存储和计算框架,广泛应用于大数据的存储与处理。对于...

    hadoop 文档:Hadoop开发者下载

    8. **Hadoop性能调优**:包括Datanode和Namenode的内存设置、Block大小调整、网络优化、任务调度策略等,这些都是提升Hadoop性能的关键。 9. **Hadoop故障排查**:学习识别和解决Hadoop运行中的常见问题,如数据...

    Hadoop大数据开发与性能调优实战培训课程.pptx

    Hadoop大数据开发与性能调优实战培训课程.pptx

Global site tag (gtag.js) - Google Analytics