`
rockkyle
  • 浏览: 10770 次
最近访客 更多访客>>
社区版块
存档分类
最新评论

hadoop基准测试

 
阅读更多

第一步:数据准备要准备2份数据 一份key-value形式的,一份非key-value的形式

key-value准备,写了个py脚本:

import random
import string
a='abcdefghijklmnopqrstuvwxyz'
alist=list(a)
blist=range(0,10)
f=open('testdata.txt','wb')
flag=True
j=0
while flag:
        astr=''.join(str(i) for i in random.sample(alist,5))
        bstr=''.join(str(i) for i in random.sample(blist,5))
#num j 决定生成数据的行数
        if j==20000000 :
                flag=False

        f.write("%s\t%s\n"%(astr,bstr))
        j+=1

将数据导入HDFS

      hadoop fs -put testdata.txt /test/input/

另一份数据有hadoop-exmaple.jar里面的randomwriter生成

      cd /usr/lib/hadoop/

      hadoop jar hadoop-exmaple.jar randomwriter /test/input1/

 

第二步:执行测试

MRReliabilityTest:

 

hadoop jar hadoop-test.jar MRReliabilityTest -libjars hadoop-examples.jar

 

 

 

loadgen:

Usage: [-m <maps>] [-r <reduces>]
       [-keepmap <percent>] [-keepred <percent>]
       [-indir <path>] [-outdir <path]
       [-inFormat[Indirect] <InputFormat>] [-outFormat <OutputFormat>]
       [-outKey <WritableComparable>] [-outValue <Writable>]

可以根据情况设置参数

 

hadoop jar hadoop-test.jar loadgen -m 6 -r 3 -indir /test/input/ -outdir /test/output/

 

mapredtest:

Usage: TestMapRed <range> <counts>

 

hadoop jar hadoop-test-1.2.0.1.3.0.0-107.jar mapredtest 2 10

 

testarrayfile:

Usage: TestArrayFile [-count N] [-nocreate] [-nocheck] file

 

hadoop jar hadoop-test-1.2.0.1.3.0.0-107.jar testarrayfile -count 4 /test/input/testdata.txt

testsequencefile:

 

Usage: SequenceFile [-count N] [-seed #] [-check] [-compressType <NONE|RECORD|BLOCK>] -codec <compressionCodec> [[-rwonly] | {[-megabytes M] [-factor F] [-nocreate] [-fast] [-merge]}] file

 

hadoop jar hadoop-test-1.2.0.1.3.0.0-107.jar testsequencefile -count 4 -check True -fast True /test/input/testdata.txt

 

testsetfile:

 

Usage: TestSetFile [-count N] [-nocreate] [-nocheck] [-compress type] file

 

hadoop jar hadoop-test-1.2.0.1.3.0.0-107.jar testsetfile -count 4 /test/input/testdata.txt

 

threadedmapbench:

 

hadoop jar hadoop-test-1.2.0.1.3.0.0-107.jar threadedmapbench

testfilesystem:

 

Usage: TestFileSystem -files N -megaBytes M [-noread] [-nowrite] [-noseek] [-fastcheck]

 

hadoop jar hadoop-test-1.2.0.1.3.0.0-107.jar -file 1 -megaBytes 1000

testmapredsort:

 

sortvalidate [-m <maps>] [-r <reduces>] [-deep] -sortInput <sort-input-dir> -sortOutput <sort-output-dir>

 

hadoop jar hadoop-test.jar -m 10 -r 5 -sortInput /test/input/ -sortOutpur /test/output

testbigmapoutput:

BigMapOutput -input <input-dir> -output <output-dir> [-create <filesize in MB>]hadoop jar hadoop-test.jar testbigmapoutput -input /test/input1/ -output /test/output1/

 

TestDFSIO基准测试HDFS 

 

测试顺序应该是先写测试后读测试

 

Usage: TestDFSIO -read | -write | -clean [-nrFiles N] [-fileSize MB] [-resFile resultFileName] [-bufferSize Bytes]

 

写测试:

 

使用10map任务写10个文件,每个500m

 

hadoop jar $HADOOP_HOME/hadoop-test-1.2.0.1.3.0.0-107.jar TestDFSIO -write -nrFiles 10  -fileSize 1000 /tmp/TestDFSIO_log.txt

 

在运行的最后,结果被写入控制台并记录到路径/tmp/TestDFSIO_log.txt

 

数据默认写入 /benchmarks/TestDFSIO目录下 

 

读测试:

 

hadoop jar $HADOOP_HOME/hadoop-test-1.2.0.1.3.0.0-107.jar TestDFSIO -read-nrFiles 10  -fileSize 1000 /tmp/TestDFSIO_log.txt

 

清除测试数据:

 

hadoop jar $HADOOP_HOME/hadoop-test-1.2.0.1.3.0.0-107.jar TestDFSIO -clean

 

 

 

namenode 基准测试:

 

12mapper6reducer来创建1000个文件

 

hadoop jar hadoop-test.jar nnbench -operation create_write  -maps 12 -reduces 6 
-blockSize 1 -bytesToWrite 0 -numberOfFiles 1000 -replicationFactorPerFile 3 
-readFileAfterOpen true -baseDir /benchmarks/NNBench-`hostname -s`

mapreduce 基准测试:

 

mrbench会多次重复执行一个小作业,用于检查在机群上小作业的运行是否可重复以及运行是否高效

 

运行一个小作业50

 

hadoop jar hadoop-test.jar mrbench -numRuns 50

 

 

 

 

 

 

 

 

 

testipc和tectrpc:

hadoop jar hadoop-test.jar testipc

 

 

hadoop jar hadoop-test.jar testrpc

 

PS:命令参数选择和设计可以根据硬件环境的设定

一些错误解决办法:

目的文件夹已存在:删除目标文件夹,再重跑相关命令

java heapsize不足:调高相应参数,或者跑任务之前参数设置多点maptask和reducetask

 

 

 

 

 

 

 

分享到:
评论

相关推荐

    Hibench大数据基准测试手册 - 修订1.docx

    例如,运行`bin/run.sh hibench hadoop_benchmark`即可启动Hadoop基准测试。 ##### 2.3 运行Spark基准测试 对于Spark基准测试,除了上述步骤外,还需要配置Spark环境并确保Hibench能够识别到Spark集群。 1. **...

    hadoop性能测试报告

    3. **Hadoop集群基准测试** - **写测试**:通过执行TestDFSIO工具,向Hadoop集群写入10个1000MB的文件,平均写入速率达到了约20.2MB/s,测试执行时间约为104.69秒。这意味着集群在写入大量数据时具有稳定的吞吐量。...

    Hadoop权威指南 第二版(中文版)

     Hadoop基准测试程序  用户的作业  云上的Hadoop  Amazon EC2上的Hadoop 第10章 管理Hadoop  HDFS  永久性数据结构  安全模式  日志审计  工具  监控  日志  度量  Java管理扩展(JMX)  维护  日常...

    Hadoop权威指南(中文版)2015上传.rar

    Hadoop基准测试程序 用户的作业 云上的Hadoop Amazon EC2上的Hadoop 第10章 管理Hadoop HDFS 永久性数据结构 安全模式 日志审计 工具 监控 日志 度量 Java管理扩展(JMX) 维护 日常管理过程 委任节点和解除节点 ...

    TeraByte Sort on Apache Hadoop

    《TeraByte Sort on Apache Hadoop》是由Yahoo公司的Owen O’Malley撰写的一篇关于Hadoop基准测试方法的论文,该论文详细介绍了一种用于Hadoop平台的大规模数据排序算法——TeraByte Sort。这一基准测试方法因其高效...

    HADOOP案例及测试资料

    【HADOOP案例及测试资料】是一份涵盖了Hadoop平台搭建、实例运行、源代码分析、测试问题以及基准测试的综合资料集。这份压缩包包含了多个文档,它们分别提供了不同方面的深入理解和实践指导。 首先,"Hadoop平台...

    Virtualized Hadoop Performance with VMware vSphere 6 on Servers

    #### Hadoop基准测试 ##### 测试指标 为了全面评估Hadoop在虚拟化环境下的性能,本研究采用了一系列标准的基准测试方法。这些测试涵盖了多个关键指标,包括但不限于: - **耗时**:衡量Hadoop任务完成所需的时间。...

    Hadoop集群测试报告.pdf

    综上所述,这份Hadoop集群测试报告详细地介绍了集群的硬件配置、软件服务部署情况以及关键的Hadoop配置参数,并通过基准测试进一步验证了HDFS读写性能的实际表现。这对于评估Hadoop集群的整体性能和可靠性具有重要...

    aloja:[已弃用]对于ALOJA大数据基准测试平台的只读参考

    [已弃用] ALOJA大数据基准测试平台(仅供参考)快速开始熟悉Web应用程序,在以下位置浏览数据和视图: : 签出一些幻灯片或出版物作为背景和文档... 在ALOJA中,我们目前已创建了最大的与供应商无关的Hadoop基准测试库,

    TPCDS测试-99条Hive基准测试流程

    TPCDS(Transaction Processing Performance Council Data Warehouse Benchmark)是大数据领域常用的一种数据仓库基准测试套件,主要用于衡量数据仓库系统的性能。Hive作为Apache Hadoop生态系统中的一个数据仓库...

    Hadoop 分布式部署配置及基准性能测试

    本文将详细介绍如何在Hadoop v3.3.3版本下进行分布式集群的部署,并进行DFSIO和Tersort基准测试,以评估系统的性能。 首先,我们来看硬件环境的要求。为了建立一个高效的Hadoop集群,至少需要两台服务器,这里分别...

    Hadoop平台基准性能测试研究_张新玲.pdf

    ### Hadoop平台基准性能测试研究 #### 摘要与背景 随着移动互联网、物联网以及社交网络等技术的快速发展,全球的数据量呈现爆炸性增长,标志着我们已经步入大数据时代。IBM将大数据定义为具备三个核心特征的技术:...

    大数据中枢平台解决方案.pptx

    - **SQL-On-Hadoop基准测试**: 用于评估Hadoop环境下SQL查询的性能和兼容性。 综上所述,大数据中枢平台解决方案不仅涵盖了数据的全生命周期管理,还强调了安全性和隐私保护的重要性,旨在帮助企业或组织通过高效的...

    hadoop-test-report.zip_hadoop_hadoop word_压力测试报告

    它可能会提供每项测试的基准数据、实际数据对比,以及针对性能优化的建议。此外,报告可能还会包含测试环境的配置信息,如硬件规格、Hadoop和HBase的版本等,以便于复现测试场景。 总结,这个压缩包中的报告是对...

    hadoop集群通用wordcount测试程序

    "hadoop集群通用wordcount测试程序"是一个基于Hadoop实现的、不依赖特定平台的WordCount示例,它广泛应用于学习、研究以及性能基准测试。WordCount是Hadoop入门的经典案例,其主要任务是对文本中的单词进行计数。 ...

    Hadoop大数据性能测试总结报告.doc

    同时,每秒点击数和每秒事务数较高,无网络瓶颈,服务器硬件监控性能良好,表明硬件平台能够满足需求,系统基准测试达到了预期。 通过这次性能测试,我们可以得出结论,Hadoop在处理大量数据时表现出良好的性能,...

Global site tag (gtag.js) - Google Analytics