`
kelvinliu117
  • 浏览: 20176 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Hadoop 优化性能

 
阅读更多

Hadoop 可配置参数

Hadoop 提供许多配置选项,用户和管理员可以通过它们进行集群设置和调优。core/hdfs/mapred-default.xml 中有许多变量,可以在core/hdfs/mapred-site.xml 中覆盖它们。一些变量指定系统上的文件路径,而其他变量对 Hadoop 的内部进行深入的调整。

性能调优主要有四个方面:CPU、内存、磁盘 I/O 和网络。本文介绍与这四个方面最相关的参数,您可以使用后面介绍的方法研究 *-default.xml 中的其他参数。

与 CPU 相关的参数:mapred.tasktracker.map 和 reduce.tasks.maximum
决定由任务跟踪器同时运行的 map/reduce 任务的最大数量。这两个参数与 CPU 利用率最相关。这两个参数的默认值都是 2。根据集群的具体情况适当地增加它们的值,这会提高 CPU 利用率,由此提高性能。例如,假设集群中的每个节点有 4 个 CPU,支持并发多线程,每个 CPU 有两个核;那么守护进程的总数不应该超过 4x2x2=16 个。考虑到 DN 和 TT 要占用两个,map/reduce 任务最多可以占用 14 个,所以这两个参数最合适的值是 7。

在 mapred-site.xml 中设置此参数。

与内存相关的参数:mapred.child.java.opts
这是用于 JVM 调优的主要参数。默认值是 -Xmx200m,这给每个子任务线程分配最多 200 MB 内存。如果作业很大,可以增加这个值,但是应该确保这不会造成交换,交换会严重降低性能。

我们来研究一下这个参数如何影响总内存使用量。假设 map/reduce 任务的最大数量设置为 7,mapred.child.java.opts 保持默认值。那么,正在运行的任务的内存开销为 2x7x200 MB =2800 MB。如果每个工作者节点都有 DN 和 TT 守护进程,每个守护进程在默认情况下占用 1 GB 内存,那么分配的总内存大约为 4.8 GB。

在 mapred-site.xml 中设置此参数。

与磁盘 I/O 相关的参数:mapred.compress.map.outputmapred.output.compress 和 mapred.map.output.compression.codec
这些参数控制是否对输出进行压缩,其中 mapred.compress.map.output 用于 map 输出压缩,mapred.output.compress 用于作业输出压缩,mapred.map.output.compression.codec 用于压缩代码。这些选项在默认情况下都是禁用的。

启用输出压缩可以加快磁盘(本地/Hadoop Distributed File System (HDFS))写操作,减少数据传输的总时间(在 shuffle 和 HDFS 写阶段),但是在另一方面压缩/解压过程会增加开销。

根据个人经验,启用压缩对于使用随机键/值的操作序列是无效的。建议只在处理大量有组织的数据(尤其是自然语言数据)时启用压缩。

在 mapred-site.xml 中设置这些参数。

io.sort.mb 参数
这个参数设置用于 map 端排序的缓冲区大小,单位是 MB,默认值是 100。这个值越大,溢出到磁盘就越少,因此会减少 map 端的 I/O 时间。注意,增加这个值会导致每个 map 任务需要的内存增加。

根据个人经验,在 map 输出很大而且 map 端 I/O 很频繁的情况下,应该尝试增加这个值。

在 mapred-site.xml 中设置此参数。

io.sort.factor 参数
这个参数设置在 map/reduce 任务中同时合并的输入流(文件)数量。这个值越大,溢出到磁盘就越少,因此会减少 map/reduce 的 I/O 时间。注意,如果给每个任务分配的内存不够大,增加这个值可能会导致更多垃圾收集活动。

根据个人经验,如果出现大量溢出到磁盘,而且排序和 shuffle 阶段的 I/O 时间很高,就应该尝试增加这个值。

在 mapred-site.xml 中设置此参数。

mapred.job.reduce.input.buffer.percent 参数
这个参数设置用于在 reduce 阶段保存 map 输出的内存的百分比(相对于最大堆大小),默认值是 0。当 shuffle 结束时,内存中剩余的 map 输出必须少于这个阈值,然后 reduce 阶段才能够开始。这个值越大,磁盘上的合并就越少,因此会减少 reduce 阶段本地磁盘上的 I/O 时间。注意,如果给每个任务分配的内存不够大,增加这个值可能会导致更多垃圾收集活动。

根据个人经验,如果 map 输出很大而且在 reduce 到排序阶段本地磁盘 I/O 很频繁,应该尝试增加这个值。

在 mapred-site.xml 中设置此参数。

mapred.local.dir 和 dfs.data.dir 参数
这两个参数决定把 Hadoop 中的数据放在什么地方,mapred.local.dir 决定存储 MapReduce 中间数据( map 输出数据)的位置,dfs.data.dir 决定存储 HDFS 数据的位置。

根据个人经验,把这些位置分散在每个节点上的所有磁盘上可以实现磁盘 I/O 平衡,因此会显著改进磁盘 I/O 性能。

在 mapred-site.xml 中设置 mapred.local.dir,在 hdfs-site.xml 中设置 dfs.data.dir

与网络相关的参数:topology.script.file.name
这个参数指向一个用户定义的脚本,这个脚本判断机架-主机(rack-host)映射以配置机架感知。在 core-site.xml 文件中设置此参数。

机架感知是对于提高网络性能最重要的配置,强烈建议按http://wiki.apache.org/hadoop/topology_rack_awareness_scripts 上的说明配置它。

mapred.reduce.parallel.copies 参数
这个参数决定把 map 输出复制到 reduce 所使用的线程数量,默认值是 5。增加这个值可以提高网络传输速度,加快复制 map 输出的过程,但是也会增加 CPU 使用量。

根据个人经验,增加这个值的效果不太明显,建议只在 map 输出非常大的情况下增加这个值。

注意:上面列出的参数名都是 Hadoop 0.20.x 中的;如果使用 0.21.0,名称可能有变化。除了 Hadoop 参数之外,还有一些会影响总体性能的系统参数,比如机架间带宽。

 

如何调优和提高性能

介绍了上面的预备知识之后,现在讨论如何调优和提高性能。可以把整个过程划分为以下步骤。

步骤 1:选择测试基准

整个 Hadoop 集群的性能由两个方面决定:HDFS I/O 性能和 MapReduce 运行时性能。Hadoop 本身提供几个基准,比如用于 HDFS I/O 测试的TestDFSIO 和 dfsthroughput(包含在 hadoop-*-test.jar 中)、用于总体硬件测试的 Sort(包含在 hadoop-*-examples.jar 中)和Gridmix(它模拟网格环境中的混合工作负载,放在 $HADOOP_HOME/src/benchmarks 目录中)。可以根据自己的测试需求选择任何基准。

在所有这些基准中,当输入数据很大时,Sort 可以同时反映 MapReduce 运行时性能(在 “执行排序” 过程中)和 HDFS I/O 性能(在 “把排序结果写到 HDFS” 过程中)。另外,Sort 是 Apache 推荐的硬件基准。(可以通过 Hadoop Wiki 找到相关信息。)因此,本文使用 Sort 作为示例测试基准讲解性能调优方法。

步骤 2:构建基线

  1. 测试环境:
    • 基准:Sort
    • 输入数据规模:500 GB
    • Hadoop 集群规模:10 个 DN/TT 节点
    • 所有节点都是相同类型的
    • 节点信息:
      • Linux OS
      • 两个 4 核处理器,支持并发多线程
      • 32 GB 内存
      • 5 个 500 GB 磁盘
  2. 测试脚本:下面是测试使用的脚本(关于运行 Sort 基准的更多信息参见 Hadoop Wiki)。所有脚本都应该在 JT 节点上运行。

    注意:把上面提到的 start_nmon.sh 脚本和以下脚本放在存储测试结果的目录中。

    • baseline_test.sh
      #!/bin/sh
      # since there are 10 nodes, should write 50 GB file on each
      fSize=5368709120
      $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-0.20.1-examples.jar 
      randomwriter -D
      test.randomwrite.bytes_per_map=$fSize /rand_$fSize 2>&1 | tee 
      ./testRes/randomwriter_$fSize.out
      mkdir -p ./testRes/nmonFiles
      # run three cycles to get a more precise result
      for runtimes in {a,b,c}
      do
          ./ run_sort_baseline.sh $fSize $runtimes
      done
    • run_sort_baseline.sh
      #!/bin/sh
      $HADOOP_HOME/bin/hadoop dfs -rmr /rand_$1-sorted
      ./start_nmon.sh
      $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-0.20.1-examples.jar sort 
      -r 70 /rand_$1
      /rand_$1-sorted 2>&1 |tee ./testRes/sort_baseline_$2.out
      cp -r /home/hadoop/perf_share ./testRes/nmonFiles/mb$4_$2
  3. 基线测试使用的参数值:
    • Hadoop 参数值:
      • mapred.tasktracker.map.tasks.maximum = 2 (默认值)
      • mapred.tasktracker.reduce.tasks.maximum = 2 (默认值)
      • mapred.reduce.parallel.copies = 5 (默认值)
      • mapred.child.java.opts = -Xmx200m (默认值)
      • mapred.job.reduce.input.buffer.percent = 0 (默认值)
      • io.sort.mb = 100 (默认值)
      • io.sort.factor = 10 (默认值)
      • mapred.local.dir = /hadoop/sdb
      • dfs.data.dir = /hadoop/sdc/hadoop/sdd/hadoop/sde
    • 系统参数值: 
      机架间带宽 = 1 Gb
  4. 基线测试结果:
    • 执行时间:10051 秒
    • 资源使用量汇总:   平均 CPU 平均内存(活跃) 平均磁盘 平均网络 (KB/s) 磁盘读 (KB/s) 磁盘写 (KB/s) 每秒 IO 读 写 NameNode JobTracker DataNode
      0.10% 552.43MB 0.0 18.1 1.7 8.0 31.8
      0.30% 822.19MB 0.0 34.1 2.0 8.8 13.0
      42.5% 6522.32MB 49431.2 37704.0 605.3 6134.9 7126.4
    • 详细的图表:

      获得所有 nmon 数据之后,可以使用 nmonanalyser 生成图表。因为 nmonanalyser 是一个 Excel 电子表格,所以只需打开它,单击analyse nmon data,选择 nmon 文件。然后就可以得到经过分析的图表。

      图 1. 使用 nmonanalyser 分析 nmon 数据
      使用 nmonanalyser 分析 nmon 数据

      nmonanalyser 对于基线测试生成的详细图表如下:

      图 2. NameNode 图表
      NameNode 图表
      图 3. JobTracker 图表
      JobTracker 图表
      图 4. DataNode/TaskTracker 图表
      DataNode/TaskTracker 图表

步骤 3:寻找瓶颈

需要根据监视数据和图表仔细地研究系统瓶颈。因为主要的工作负载分配给 DN/TT 节点,所以应该首先观察 DN/TT 节点的资源使用量(下面只给出 DN/TT 节点的 nmon 图表以节省篇幅)。

通过研究基线监视数据和图表,可以发现系统中有几个瓶颈:在 map 阶段,没有充分使用 CPU(大多数时候不到 40%),而且磁盘 I/O 相当频繁。

步骤 4:打破瓶颈

首先尝试提高 map 阶段的 CPU 利用率。前面对 Hadoop 参数的说明指出,要想提高 CPU 利用率,需要增加 mapred.tasktracker.map 和reduce.tasks.maximum 参数的值。

在测试环境中,每个节点有两个支持并发多线程的 4 核处理器,所以有 16 个可用的位置,可以把这两个参数设置为 7。

为了完成这一修改,需要在 mapred-site.xml 中设置 mapred.tasktracker.map 和 reduce.tasks.maximum 参数,重新启动集群,再次启动baseline_test.sh(因为在 mapred-site.xml 文件中进行配置,所以这里不需要修改脚本)。修改后的 mapred-site.xml 如下所示:

<configuration>
  <property>
    <name>mapred.tasktracker.map.tasks.maximum</name>
    <value>7</value>
  </property>
  <property>
    <name>mapred.tasktracker.map.tasks.maximum</name>
    <value>7</value>
  </property>
</configuration>

下面是调优后的测试结果:

  • 执行时间:8599 秒
  • 资源使用量汇总:   平均 CPU 平均内存(活跃) 平均磁盘 平均网络 (KB/s) 磁盘读 (KB/s) 磁盘写 (KB/s) 每秒 IO 读 写
    NameNode 0.10% 520.88MB 0.0 21.2 2.0 6.4 12.7
    JobTracker 0.50% 1287.4MB 0.0 22.5 1.6 6.4 5.1
    DataNode 48.4% 12466.8MB 51729.07 44060.67 669.9 7462 6865
图 5. 调优后的 DataNode/TaskTracker 图表

DataNode/TaskTracker 图表

步骤 5:新一轮调优,重复步骤 3 和 4

增加每个 TaskTracker 中 map/reduce 任务的最大数量之后,观察获取的数据和图表,可以看到在 map 阶段已经充分使用 CPU 了。但是与此同时,磁盘 I/O 频率仍然很高,所以需要新一轮调优-监视-分析过程。

需要重复这些步骤,直到系统中没有瓶颈,每种资源都充分使用为止。

注意,每次调优不一定会提高性能。如果出现性能下降,需要恢复以前的配置,尝试用其他调优措施打破瓶颈。在这次测试中,最终取得的优化结果如下:

  • 执行时间:5670 秒
  • 系统参数值:机架间带宽 = 1Gb
  • 资源使用量汇总:
图 6. DataNode/TaskTracker 图表 - 第二轮调优

DataNode/TaskTracker

步骤 6:可伸缩性测试和改进

为了进一步检验调优结果,需要在使用优化后的配置的情况下增加集群规模和输入数据规模,从而测试配置的可伸缩性。具体地说,把集群规模增加到 30 个节点,把输入数据规模增加到 1.5TB,然后再次执行上面的测试过程。

由于篇幅有限,这里不详细描述调优过程。监视和分析方法与上面提到的完全相同,发现的主要瓶颈出现在网络中。当输入数据增加到 TB 量级时,机架间带宽变得不足。把机架间带宽增加到 4 Gb,10 节点集群优化后的所有其他参数保持不变,最终的执行时间是 5916 秒,这相当接近 10 节点集群优化后的结果(5670 秒)。

 

结束语

您现在了解了如何监视 Hadoop 集群、使用监视数据分析系统瓶颈和优化性能。希望这些知识能够帮助您充分使用 Hadoop 集群,更高效地完成作业。可以使用本文描述的方法进一步研究 Hadoop 的可配置参数,寻找参数配置与不同作业特征之间的关联。

另外,这种基于参数的调优比较 “静态”,因为一套参数配置只对于一类作业是最优的。为了获得更大的灵活性,您应该研究 Hadoop 的调度算法,寻找提高 Hadoop 性能的新方法。

分享到:
评论

相关推荐

    Hadoop平台性能优化

    Hadoop平台的性能优化研究涉及了如何在大型分布式系统中提升任务处理速度和效率,这对于当前数据密集型应用的发展至关重要。本文将从以下几个关键点详细解读Hadoop平台性能优化的知识点。 首先,了解Hadoop平台的...

    Hadoop集群高可用与性能优化

    本篇文章将深入探讨Hadoop集群的高可用性和性能优化策略,帮助你构建更加稳定、高效的Hadoop环境。 一、Hadoop高可用性 1. **NameNode HA**: Hadoop集群中的NameNode是元数据管理的关键节点,其高可用性至关重要。...

    Hadoop Namenode性能诊断及优化

    ### Hadoop Namenode性能诊断及优化 #### 一、Namenode简介与性能挑战 Hadoop作为大数据处理领域的核心技术之一,其分布式文件系统HDFS(Hadoop Distributed File System)是整个框架的重要组成部分。HDFS主要由两...

    hadoop的优化.docx

    Hadoop 作为大数据处理的核心技术,优化其性能是非常重要的。本文将总结 Hadoop 的优化技术,涵盖 MapReduce、Hive、Linux 层面的优化技术。 一、Hardware 配置优化 在 Hadoop 集群中,硬件配置的选择对于性能的...

    Hadoop集群性能优化技术研究

    ### Hadoop集群性能优化技术研究 #### 一、引言 随着互联网技术的快速发展和大数据时代的到来,数据处理的需求日益增长。Hadoop作为一种强大的分布式计算框架,在数据处理领域发挥着重要作用。然而,随着应用场景...

    hadoop调优指南 hadoop调优指南

    为了充分发挥Hadoop的性能优势,进行合理的系统调优是非常必要的。本文将基于提供的标题、描述、标签以及部分内容,深入探讨Hadoop调优的关键知识点。 #### Hadoop概述 Hadoop是一个开源软件框架,用于分布式存储...

    集群Hadoop性能测试

    随着阈值的增大,执行时间有所波动,说明适当调整此值可能优化性能。 - **Mapred.job.shuffle.merge.percent**: 控制shuffle阶段的合并比例。测试显示,不同的比例对性能有不同影响,需找到最优值。 - **io.sort....

    hadoop性能优化研究

    Hadoop 性能优化研究 对研究hadoop的人进行性能优化有一定的帮助

    Hadoop集群性能优化技术研究.docx

    6. **程序调试与瓶颈分析**:通过日志和性能工具找出并优化性能瓶颈。 **Hadoop系统参数优化研究** Hadoop系统有上百个配置参数,通过调整这些参数可以显著提升性能: 1. **Linux文件系统参数调整**: - 使用`...

    Hadoop平台的性能优化研究 Hadoop论文

    【Hadoop平台的性能优化研究】这篇论文着重探讨了如何提升Hadoop分布式计算框架的效率。Hadoop基于MapReduce模型,随着其应用范围的扩大,性能优化变得至关重要。Hadoop的性能很大程度上取决于运行在其上的应用程序...

    hadoop平台性能研究

    ### Hadoop平台性能优化研究 #### 摘要与引言 随着大数据处理需求的不断增长,基于MapReduce模型的应用程序日益增多。Hadoop作为分布式计算领域的领军者,其性能表现直接影响着各种大规模数据处理任务的效率。然而...

    hadoop性能测试报告

    - 从测试结果来看,Hadoop集群在数据读写和排序方面表现出色,但在大规模数据处理时,map和reduce任务的分配、执行时间以及资源利用率等方面可能需要进一步优化,以提升整体性能。 - 考虑到硬件配置和软件版本,...

    Hadoop 安装文档 性能测试

    本文将详细介绍Hadoop在Ubuntu系统上的安装过程以及初步的性能测试方法,旨在帮助读者理解和掌握Hadoop的基本部署与优化技巧。 #### 二、Hadoop安装准备 ##### 2.1 JDK安装 Hadoop的运行依赖于Java环境,因此首先...

    基于多元线性回归模型的Hadoop集群节点性能计算方法.pdf

    本文档介绍了一种基于多元线性回归模型的Hadoop集群节点性能计算方法,该方法可以对Hadoop集群节点的性能进行准确的评估和优化。 什么是Hadoop集群节点性能计算? Hadoop集群节点性能计算是指对Hadoop集群中每个...

    hadoop hbase性能报告(英文)

    此外,与BigTable相比,HBase的性能差距表明了进一步优化和开发的必要性。此测试不仅揭示了HBase当前的性能限制,也为HBase的未来改进提供了方向。 总体而言,Hadoop与HBase的性能评估揭示了在大规模数据处理和...

Global site tag (gtag.js) - Google Analytics