mapreduce数据流配置 -

zhangxiong0301

浏览: 363987 次

最近访客更多访客>>

brosnan2800

rl724

itgege

fhtwins

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

mapreduce数据流配置

博客分类：

HADOOP

mapreduce

Hadoop配置文件设定了Hadoop平台运行时各方面属性。大量实验证明，合理的配置会大大提高Hadoop的性能。在Hadoop-0.19.2版本中，Hadoop配置文件在conf目录下，包括文件hadoop-default.xml和hadoop-site.xml，前者做了默认配置，不允许修改，用户需要配置时可以在后者中设置。Hadoop平台启动时首先加载hadoop-site.xml文件来配置系统属性，然后加载hadoop- default.xml文件来配置其它默认属性。属性的结构以及解释如下所示。
<property>
  <name>XXX</name> //XXX代表某属性的名称
  <value>YYY</value> //YYY代表某属性值，修改属性值以达到优化目的
  <description>ZZZ</description> //ZZZ代表某属性的说明
</property>
    Hadoop配置文件分为以下几个大类：包括全局（global）属性、日志（logging）属性、输入/输出（i/o）属性、文件系统（file system）属性、MapReduce（map/reduce）属性、进程通信（ipc）属性，以及作业通知（Job Notification）配置、网页界面（web interface）配置、代理（proxy）配置、机架（Rack）配置。
    在本节主要关注与MapReduce数据流相关的属性，具体包括I/O属性和MapReduce属性这两类。在开始具体介绍配置属性的优化之前，有几个问题需要首先说明：
(1) 部分属性除了配置文件之外还可以在MapReduce作业中动态修改，将其放在下一节介绍。
(2) 在MapReduce执行过程中，特别是Shuffle阶段，尽量使用内存缓冲区存储数据，减少磁盘溢写次数；同时在作业执行过程中增加并行度，都能够显著提高系统性能，这也是配置优化的一个重要依据。
(3) 由于每个Hadoop集群的机器和硬件之间都存在一定差别，所以Hadoop框架应根据其集群特性做配置优化，可能需要经历大量的实验。在此仅提出部分比较重要的可优化属性，以及其优化的依据。
    下面分别介绍I/O属性和MapReduce属性这两个类的部分属性，并指明其优化方向。
1   I/O属性类的优化
I/O属性类主要包括在Shuffle阶段中相关的I/O过程的属性，在分析了每个具体属性后从以下几个属性入手进行优化。
(1) io.sort.factor属性，int类型，Map端和Reduce端使用
该属性设置在Map端和Reduce端都使用到的对文件Sort时一次合并的最大流，其默认值是10，即一次合并10个流。在集群中，将其适当增大能够提高并行度以缩短合并所需时间。将此默认值增加到100是比较常见的。
(2) io.sort.mb属性，int类型，Map端使用
该属性设置对Map输出进行排序时使用的环形内存缓冲区的大小，以M字节为单位，默认是100M。如果允许，应该增加它的值来减少磁盘溢写的次数以提高性能。
(3) io.sort.record.percent属性，float类型，Map端使用
该属性设置保留的io.sort.mb的比例用来存储Map输出的记录边界，剩余的空间用来存储Map输出记录本身，默认是0.05。
(4) io.sort.spill.percent属性，float类型，Map端使用
该属性设置Map输出内存缓冲和边界记录索引两者使用比例的阈值，达到此值后开始溢写磁盘的过程，默认是0.80。
(5) io.file.buffer.size属性，int类型，MapReduce作业使用
该属性设置MapReduce作业的I/O操作中所提供的缓冲区的大小，以字节为单位，默认是4096字节。这是一个比较保守的设置，通过增大它的大小能够减少I/O次数以提高性能。如果系统允许，64KB（65536字节）至128KB（131072字节）是较普遍的选择。
2   MapReduce属性类的优化
    MapReduce属性类主要包括在MapReduce执行过程中相关配置属性，重点从以下的部分属性去分析性能优化。
(1) mapred.reduce.parallel.copies属性，int类型，Reduce端使用
该属性设置将Map输出复制到Reduce的线程的数量，默认为5。根据需要可以将其增大到20-50，增加了Reduce端复制过程的并行数，提高了系统性能。
(2) mapred.child.java.opts属性，String类型，Map和Reduce任务虚拟机使用
该属性设置Map和Reduce任务运行时Java虚拟机指定的内存的大小，默认-Xmx200m，分配给每个任务200MB内存。只要条件允许，应该让任务节点上的内存大小尽量大，可以将其增大到-Xmx512m，即512MB，以提高MapReduce作业的性能。
(3) mapred.job.shuffle.input.buffer.percent属性，float类型，Reduce端使用
该属性设置整个堆空间的百分比，用于Shuffle的复制阶段分配给Map输出缓存，默认是0.70，适当增大比例可以使Map输出不被溢写到磁盘，能够提高系统性能。另外一个解释：Reduce在shuffle阶段对下载来的map数据，并不是立刻就写入磁盘的，而是会先缓存在内存中，然后当使用内存达到一定量的时候才刷入磁盘。这个内存大小的控制就不像map一样可以通过io.sort.mb来设定了，而是通过另外一个参数来设置：mapred.job.shuffle.input.buffer.percent（default 0.7），

这个参数其实是一个百分比，意思是说，shuffile在reduce内存中的数据最多使用内存量为：0.7 × maxHeap of reduce task。也就是说，如果该reduce task的最大heap使用量（通常通过mapred.child.java.opts来设置，比如设置为-Xmx1024m）的一定比例用来缓存数据。默认情况下，reduce会使用其heapsize的70%来在内存中缓存数据。如果reduce的heap由于业务原因调整的比较大，相应的缓存大小也会变大，这也是为什么reduce用来做缓存的参数是一个百分比，而不是一个固定的值了。

(4) mapred.job.shuffle.merge.percent属性，float类型，Reduce端使用
该属性设置Map输出缓存中使用比例的阈值，用于启动合并输出和磁盘溢写的过程，默认是0.66。如果允许，适当增大其比例能够减少磁盘溢写次数，提高系统性能。详细解释：假设mapred.job.shuffle.input.buffer.percent为0.7，reduce task的max heapsize为1G，

那么用来做下载数据缓存的内存就为大概700MB左右，这700M的内存，跟map端一样，

也不是要等到全部写满才会往磁盘刷的，而是当这700M中被使用到了一定的限度（通常是一个百分比），就会开始往磁盘刷。

(5) mapred.inmem.merge.threshold属性，int类型，Reduce端使用
该属性设置启动合并输出和磁盘溢写过程的最大Map输出数量，默认为1000。由于Reduce端复制的中间值能够全部存在内存中可以获得最佳性能。如果Reduce函数内存需求很少，可以将该属性设置为0，即没有阈值限制，由mapred.job.shuffle.merge.percent属性单独控制溢写过程。

(6) mapred.job.reduce.input.buffer.percent属性，float类型，Reduce端使用
该属性设置在Reduce过程中用来在内存中保存Map输出的空间占整个堆空间的比例。Reduce阶段开始时，内存中的Map输出大小不能大于这个值。默认为0.0，说明在Reduce开始前所有的Map输出都合并到硬盘中以便为Reduce提供尽可能多的内存。然而如果Reduce函数内存需求较小，可以将该值设置为1.0来提升性能。另一个解释：当reduce将所有的map上对应自己partition的数据下载完成后，就会开始真正的reduce计算阶段（中间有个sort阶段通常时间非常短，几秒钟就完成了，因为整个下载阶段就已经是边下载边sort，然后边merge的）。当reduce task真正进入reduce函数的计算阶段的时候，有一个参数也是可以调整reduce的计算行为。也就是：mapred.job.reduce.input.buffer.percent（default 0.0）。

由于reduce计算时肯定也是需要消耗内存的，而在读取reduce需要的数据时，同样是需要内存作为buffer，

这个参数是控制，需要多少的内存百分比来作为reduce读已经sort好的数据的buffer百分比。

默认情况下为0，也就是说，默认情况下，reduce是全部从磁盘开始读处理数据。

如果这个参数大于0，那么就会有一定量的数据被缓存在内存并输送给reduce，

当reduce计算逻辑消耗内存很小时，可以分一部分内存用来缓存数据，反正reduce的内存闲着也是闲着。

(7) tasktracker.http.threads属性，int类型，Map端使用
该属性设置集群中每个tasktracker用于将map输出传给reducer的工作线程的数量，默认是40。可以将其提高至40-50之间，能够增加并线线程数，提高集群性能。

分享到：

yarn中资源分配规整化 | HADOOP2 yarn相关参数

2015-04-15 21:15
浏览 961
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

mapreduce数据流配置

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

mapreduce数据流配置

评论

发表评论

相关推荐

HADOOP中mapreduce开启压缩功能

HIVE跑mapjoin时所有任务失败--问题分析及解决

hadoop、hbase节点下线

HADOOP中设置map个数

hadoop安全机制

CDH对hadoop的一些配置指南，包括THP

MAP运行过程

MAP/REDUCE TASK作业状态转移图

YARN常见问题

转载--淘宝hadoop升级遇到的问题

HADOOP2 yarn相关参数

HADOOP2 mapreduce配置（转）

（转）hadoop yarn 内存相关配置

YARN的一些常见错误

(转) hadoop2安装LZO

（转）提高mapreduce性能的几点建议-cloudera

（转）YARN内存配置

（转）HADOOP2.6基于标签的调度

HADOOP平台优化综述（转自董的博客）

hadoop ha 启停命令

最近访客更多访客>>