`
小网客
  • 浏览: 1241035 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

yarn下的hdfs和mr性能调优参数一览表

 
阅读更多

mr核心的几个参数:

conf/mapred-site.xml:

mapreduce.task.io.sort.mb

任务内部排序缓冲区大小默认100m

mapreduce.map.sort.spill.percent

Map阶段溢写文件的阈值(排序缓冲区大小的百分比)默认0.8

mapreduce.reduce.shuffle.parallelcopies

Reduce Task启动的并发拷贝数据的线程数目默认5

mapreduce.map.memory.mb

每个Map Task需要的内存量默认1024m

mapreduce.map.java.opts

map的最大累计内存如:-Xmx1024M

mapreduce.reduce.memory.mb

每个Reduce Task需要的内存量默认1024m

mapreduce.reduce.java.opts

所有reduce加起来的总和内存大小如:-Xmx1024M 

mapreduce.job.jvm.num.tasks 

默认为1,设置为 -1,重用jvm

 

dfs io:

io.file.buffer.size

默认4k,根据需要适当调高

 

namenode性能调优参数:

dfs.namenode.handler.count

主要是namenode处理datanode的rpc进程数默认是100

 

其他参数:

mapreduce.job.reduce.slowstart.completed.maps 

默认值是0.05,也就是map task完成数目达到5%时,开始启动reduce task

 

下述意义不大

conf/yarn-site.xml

yarn.nodemanager.resource.memory-mb

NodeManager总的可用物理内存,默认值是8192MB,一般情况下不要修改

yarn.nodemanager.vmem-pmem-ratio

每使用1MB物理内存,最多可用的虚拟内存数默认2.1

yarn.nodemanager.resource.cpu-vcores

参数解释:NodeManager总的可用虚拟CPU个数。默认值:8

0
0
分享到:
评论

相关推荐

    hadoop学习总结包含mr、yarn、hdfs

    hadoop学习总结包含mr、yarn、hdfs

    大数据各类性能调优

    - 类似地,当Solr使用HDFS作为底层存储时,也需要注意HDFS的性能调优,以保证数据访问的高效性。 #### 12.9 Spark ##### 12.9.1 Spark Core调优 - Spark Core的调优主要涉及以下方面: - **数据序列化**: 选择...

    大数据性能调优

    在大数据领域,性能调优是...通过上述各种优化手段,可以显著提升Java在大数据环境下的性能,实现更高效的数据处理和分析。不过,调优并非一蹴而就,需要结合具体应用场景,逐步探索和实践,才能找到最适合的优化策略。

    Hadoop&YARN;权威指南

    在《Hadoop YARN权威指南》中,读者可以了解到如何提交和监控应用程序,理解容器化执行环境,以及如何进行YARN的性能调优。书中还涵盖了YARN与Hadoop其他组件如HDFS、HBase、Oozie等的集成,展示了如何构建高效、...

    spark性能调优

    Spark性能调优是大数据处理领域中的一个重要话题,它涉及到如何最大化地利用计算资源,提高数据处理的速度和效率。以下是对Spark性能调优的一些关键知识点的详细解析: 1. **资源调度与分配**:Spark默认使用的是...

    1-1-HDFS+and+YARN.pdf

    Hadoop集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起。 (1)HDFS集群:负责海量数据的存储,集群中的角色主要有 NameNode / DataNode/SecondaryNameNode。 (2)YARN集群:负责...

    Hadoop&spark-性能调优

    Hadoop性能调优 主要涉及hdfs、yarn、mapreduce、hive等的调优,同时也包括一些linux系统产生调优

    Hadoop Core(MapReduce + YARN + HDFS)_

    Hadoop Core是大数据处理领域中的核心组件,主要包括MapReduce、YARN和HDFS三大部分。这些技术构建了一个可扩展、高容错性的分布式计算框架,为海量数据的存储和处理提供了强大支持。 **MapReduce**是Hadoop的核心...

    Spark内核机制解析及性能调优

    最后,通过对Spark日志的监控和分析,可以发现性能瓶颈,从而针对性地进行调优。同时,持续关注Spark的新特性,如Spark SQL、Spark Streaming、GraphX等,可以帮助开发者更好地利用Spark解决各种大数据问题。

    Hadoop大数据开发与性能调优实战培训课程-Hadoop组件详解.rar

    本课程“Hadoop大数据开发与性能调优实战培训课程-Hadoop组件详解”旨在深入探讨Hadoop的主要组件及其优化策略,帮助开发者和数据工程师提升在大数据环境中的实践能力。 首先,我们要了解Hadoop的基础架构,它主要...

    hadoop-yarn-hdfs

    java开发领域标准文档,适合初级,中级,高级,架构师学习观看

    【Spark调优篇01】Spark之常规性能调优1

    本文主要探讨Spark的常规性能调优策略,包括资源分配优化和RDD优化,旨在帮助用户最大化利用资源,提升任务执行效率。 首先,我们要理解资源分配的重要性。Spark性能调优的核心在于合理分配资源,这涉及到Executor...

    spark性能调优文档

    Spark性能调优是提高大数据处理效率的关键步骤,尤其在处理大规模数据时,高效的资源配置和并行度设置至关重要。本文将详细解析如何通过分配更多资源和提高并行度来优化Spark作业的性能。 **1. 分配更多的资源** ...

    hadoop调优指南 hadoop调优指南

    为了充分发挥Hadoop的性能优势,进行合理的系统调优是非常必要的。本文将基于提供的标题、描述、标签以及部分内容,深入探讨Hadoop调优的关键知识点。 #### Hadoop概述 Hadoop是一个开源软件框架,用于分布式存储...

    02-Spark性能调优与故障处理.doc

    本文主要探讨Spark的性能优化策略,包括常规性能调优、算子调优、shuffle调优、JVM调优,以及如何防止数据倾斜和Out Of Memory (OOM)问题,所有内容都源于实际生产环境的一线经验。 1. **常规性能调优** - **最优...

    基于Hadoop的电商大数据平台性能调优.zip

    - 修改`hdfs-site.xml`和`mapred-site.xml`中的各种配置参数,如`io.sort.mb`、`mapreduce.reduce.shuffle.parallelcopies`等,以适应特定场景的性能需求。 5. 数据预处理和格式化: - 对输入数据进行清洗和格式...

    大数据性能调优.docx

    ### 大数据性能调优详解 #### 一、性能调优概述 在《大数据性能调优》文档中,主要介绍了公司...通过上述性能调优方法的应用,可以有效地提高Hadoop大数据平台的整体性能和稳定性,满足企业级大数据处理的需求。

    Spark性能调优

    本文将详细介绍如何基于Spark 2.0进行性能调优,并通过具体的案例分析,帮助读者更好地理解和掌握调优方法。 #### 二、构建Spark 在开始性能调优之前,首先需要确保正确地构建了Spark环境。根据提供的部分内容,...

    hadoop、habse、yarn、MapReduce调优等总结的集合调优.docx

    这篇文章是对Hadoop、HBase、YARN以及MapReduce进行...总结来说,Hadoop、HBase、YARN和MapReduce的调优是一个涉及多层面、多参数的复杂过程,需要根据实际业务需求和系统负载情况进行细致调整,以达到最佳的性能表现。

Global site tag (gtag.js) - Google Analytics