第一步:数据准备要准备2份数据 一份key-value形式的,一份非key-value的形式
key-value准备,写了个py脚本:
import random import string a='abcdefghijklmnopqrstuvwxyz' alist=list(a) blist=range(0,10) f=open('testdata.txt','wb') flag=True j=0 while flag: astr=''.join(str(i) for i in random.sample(alist,5)) bstr=''.join(str(i) for i in random.sample(blist,5)) #num j 决定生成数据的行数 if j==20000000 : flag=False f.write("%s\t%s\n"%(astr,bstr)) j+=1
将数据导入HDFS
hadoop fs -put testdata.txt /test/input/
另一份数据有hadoop-exmaple.jar里面的randomwriter生成
cd /usr/lib/hadoop/
hadoop jar hadoop-exmaple.jar randomwriter /test/input1/
第二步:执行测试
MRReliabilityTest:
hadoop jar hadoop-test.jar MRReliabilityTest -libjars hadoop-examples.jar
loadgen:
Usage: [-m <maps>] [-r <reduces>]
[-keepmap <percent>] [-keepred <percent>]
[-indir <path>] [-outdir <path]
[-inFormat[Indirect] <InputFormat>] [-outFormat <OutputFormat>]
[-outKey <WritableComparable>] [-outValue <Writable>]
可以根据情况设置参数
hadoop jar hadoop-test.jar loadgen -m 6 -r 3 -indir /test/input/ -outdir /test/output/
mapredtest:
Usage: TestMapRed <range> <counts>
hadoop jar hadoop-test-1.2.0.1.3.0.0-107.jar mapredtest 2 10
testarrayfile:
Usage: TestArrayFile [-count N] [-nocreate] [-nocheck] file
hadoop jar hadoop-test-1.2.0.1.3.0.0-107.jar testarrayfile -count 4 /test/input/testdata.txt
testsequencefile:
Usage: SequenceFile [-count N] [-seed #] [-check] [-compressType <NONE|RECORD|BLOCK>] -codec <compressionCodec> [[-rwonly] | {[-megabytes M] [-factor F] [-nocreate] [-fast] [-merge]}] file
hadoop jar hadoop-test-1.2.0.1.3.0.0-107.jar testsequencefile -count 4 -check True -fast True /test/input/testdata.txt
testsetfile:
Usage: TestSetFile [-count N] [-nocreate] [-nocheck] [-compress type] file
hadoop jar hadoop-test-1.2.0.1.3.0.0-107.jar testsetfile -count 4 /test/input/testdata.txt
threadedmapbench:
hadoop jar hadoop-test-1.2.0.1.3.0.0-107.jar threadedmapbench
testfilesystem:
Usage: TestFileSystem -files N -megaBytes M [-noread] [-nowrite] [-noseek] [-fastcheck]
hadoop jar hadoop-test-1.2.0.1.3.0.0-107.jar -file 1 -megaBytes 1000
testmapredsort:
sortvalidate [-m <maps>] [-r <reduces>] [-deep] -sortInput <sort-input-dir> -sortOutput <sort-output-dir>
hadoop jar hadoop-test.jar -m 10 -r 5 -sortInput /test/input/ -sortOutpur /test/output
testbigmapoutput:
BigMapOutput -input <input-dir> -output <output-dir> [-create <filesize in MB>]hadoop jar hadoop-test.jar testbigmapoutput -input /test/input1/ -output /test/output1/
TestDFSIO基准测试HDFS
测试顺序应该是先写测试后读测试
Usage: TestDFSIO -read | -write | -clean [-nrFiles N] [-fileSize MB] [-resFile resultFileName] [-bufferSize Bytes]
写测试:
使用10个map任务写10个文件,每个500m。
hadoop jar $HADOOP_HOME/hadoop-test-1.2.0.1.3.0.0-107.jar TestDFSIO -write -nrFiles 10 -fileSize 1000 /tmp/TestDFSIO_log.txt
在运行的最后,结果被写入控制台并记录到路径/tmp/TestDFSIO_log.txt。
数据默认写入 /benchmarks/TestDFSIO目录下
读测试:
hadoop jar $HADOOP_HOME/hadoop-test-1.2.0.1.3.0.0-107.jar TestDFSIO -read-nrFiles 10 -fileSize 1000 /tmp/TestDFSIO_log.txt
清除测试数据:
hadoop jar $HADOOP_HOME/hadoop-test-1.2.0.1.3.0.0-107.jar TestDFSIO -clean
namenode 基准测试:
12个mapper和6个reducer来创建1000个文件
hadoop jar hadoop-test.jar nnbench -operation create_write -maps 12 -reduces 6
-blockSize 1 -bytesToWrite 0 -numberOfFiles 1000 -replicationFactorPerFile 3
-readFileAfterOpen true -baseDir /benchmarks/NNBench-`hostname -s`
mapreduce 基准测试:
mrbench会多次重复执行一个小作业,用于检查在机群上小作业的运行是否可重复以及运行是否高效
运行一个小作业50次
hadoop jar hadoop-test.jar mrbench -numRuns 50
testipc和tectrpc:
hadoop jar hadoop-test.jar testipc
hadoop jar hadoop-test.jar testrpc
PS:命令参数选择和设计可以根据硬件环境的设定
一些错误解决办法:
目的文件夹已存在:删除目标文件夹,再重跑相关命令
java heapsize不足:调高相应参数,或者跑任务之前参数设置多点maptask和reducetask
相关推荐
例如,运行`bin/run.sh hibench hadoop_benchmark`即可启动Hadoop基准测试。 ##### 2.3 运行Spark基准测试 对于Spark基准测试,除了上述步骤外,还需要配置Spark环境并确保Hibench能够识别到Spark集群。 1. **...
3. **Hadoop集群基准测试** - **写测试**:通过执行TestDFSIO工具,向Hadoop集群写入10个1000MB的文件,平均写入速率达到了约20.2MB/s,测试执行时间约为104.69秒。这意味着集群在写入大量数据时具有稳定的吞吐量。...
Hadoop基准测试程序 用户的作业 云上的Hadoop Amazon EC2上的Hadoop 第10章 管理Hadoop HDFS 永久性数据结构 安全模式 日志审计 工具 监控 日志 度量 Java管理扩展(JMX) 维护 日常...
Hadoop基准测试程序 用户的作业 云上的Hadoop Amazon EC2上的Hadoop 第10章 管理Hadoop HDFS 永久性数据结构 安全模式 日志审计 工具 监控 日志 度量 Java管理扩展(JMX) 维护 日常管理过程 委任节点和解除节点 ...
《TeraByte Sort on Apache Hadoop》是由Yahoo公司的Owen O’Malley撰写的一篇关于Hadoop基准测试方法的论文,该论文详细介绍了一种用于Hadoop平台的大规模数据排序算法——TeraByte Sort。这一基准测试方法因其高效...
【HADOOP案例及测试资料】是一份涵盖了Hadoop平台搭建、实例运行、源代码分析、测试问题以及基准测试的综合资料集。这份压缩包包含了多个文档,它们分别提供了不同方面的深入理解和实践指导。 首先,"Hadoop平台...
#### Hadoop基准测试 ##### 测试指标 为了全面评估Hadoop在虚拟化环境下的性能,本研究采用了一系列标准的基准测试方法。这些测试涵盖了多个关键指标,包括但不限于: - **耗时**:衡量Hadoop任务完成所需的时间。...
综上所述,这份Hadoop集群测试报告详细地介绍了集群的硬件配置、软件服务部署情况以及关键的Hadoop配置参数,并通过基准测试进一步验证了HDFS读写性能的实际表现。这对于评估Hadoop集群的整体性能和可靠性具有重要...
[已弃用] ALOJA大数据基准测试平台(仅供参考)快速开始熟悉Web应用程序,在以下位置浏览数据和视图: : 签出一些幻灯片或出版物作为背景和文档... 在ALOJA中,我们目前已创建了最大的与供应商无关的Hadoop基准测试库,
TPCDS(Transaction Processing Performance Council Data Warehouse Benchmark)是大数据领域常用的一种数据仓库基准测试套件,主要用于衡量数据仓库系统的性能。Hive作为Apache Hadoop生态系统中的一个数据仓库...
本文将详细介绍如何在Hadoop v3.3.3版本下进行分布式集群的部署,并进行DFSIO和Tersort基准测试,以评估系统的性能。 首先,我们来看硬件环境的要求。为了建立一个高效的Hadoop集群,至少需要两台服务器,这里分别...
### Hadoop平台基准性能测试研究 #### 摘要与背景 随着移动互联网、物联网以及社交网络等技术的快速发展,全球的数据量呈现爆炸性增长,标志着我们已经步入大数据时代。IBM将大数据定义为具备三个核心特征的技术:...
- **SQL-On-Hadoop基准测试**: 用于评估Hadoop环境下SQL查询的性能和兼容性。 综上所述,大数据中枢平台解决方案不仅涵盖了数据的全生命周期管理,还强调了安全性和隐私保护的重要性,旨在帮助企业或组织通过高效的...
它可能会提供每项测试的基准数据、实际数据对比,以及针对性能优化的建议。此外,报告可能还会包含测试环境的配置信息,如硬件规格、Hadoop和HBase的版本等,以便于复现测试场景。 总结,这个压缩包中的报告是对...
"hadoop集群通用wordcount测试程序"是一个基于Hadoop实现的、不依赖特定平台的WordCount示例,它广泛应用于学习、研究以及性能基准测试。WordCount是Hadoop入门的经典案例,其主要任务是对文本中的单词进行计数。 ...
在大数据测试的第一阶段,焦点集中在Hadoop平台上,通过《大数据平台基准测试第一部分:技术要求》和《大数据平台基准测试第二部分:测试方法》来制定测试方案。此阶段的测试主要关注性能,包括数据生成、负载选择和...