http://adaishu.blog.163.com/blog/static/175831286201151272221903/
为了测试Hadoop用mapreduce方式读写文件系统的性能,开发了TestDFSIO,用法如下:
写测试
cd到hadoop安装目录:
# cd hadoop
看看内存情况:
# free -g
同步内存文件缓存到硬盘:
# sync
清空linux文件系统缓存:
# echo 3 > /proc/sys/vm/drop_caches
再次查看内存情况:
# free -g
切换到hadoop用户:
# su - hadoop
$ cd hadoop
$ hadoop jar hadoop-test-0.20.2-cdh3u0.jar TestDFSIO -write -nrFiles 1000 -fileSize 512 -bufferSize 67108864
其中hadoop-test-0.20.2-cdh3u0.jar在下载来的hadoop里面应该已经编译好了。参数应该很清楚,-nrFiles为写入文件数量,-fileSize为每个文件大小。
测试结果:
11/06/09 11:04:03 INFO fs.TestDFSIO: ----- TestDFSIO ----- : write
11/06/09 11:04:03 INFO fs.TestDFSIO: Date & time: Thu Jun 09 11:04:03 CST 2011
11/06/09 11:04:03 INFO fs.TestDFSIO: Number of files: 1000
11/06/09 11:04:03 INFO fs.TestDFSIO: Total MBytes processed: 512000
11/06/09 11:04:03 INFO fs.TestDFSIO: Throughput mb/sec: 3.0791832418338796
11/06/09 11:04:03 INFO fs.TestDFSIO: Average IO rate mb/sec: 3.3843436241149902
11/06/09 11:04:03 INFO fs.TestDFSIO: IO rate std deviation: 1.4860198954469508
11/06/09 11:04:03 INFO fs.TestDFSIO: Test exec time sec: 218.298
结果说明:
Total MBytes processed : 总共需要写入的数据量 ==》 512X1000
Throughput mb/sec :总共需要写入的数据量/(每个map任务实际写入数据的执行时间之和(这个时间会远小于Test exec time sec))==》512000/(map1写时间+map2写时间+...)
Average IO rate mb/sec :(每个map需要写入的数据量/每个map任务实际写入数据的执行时间)之和/任务数==》(512/map1写时间+512/map2写时间+...)/1000,所以这个值跟上面一个值总是存在差异。
IO rate std deviation :上一个值的标准差
Test exec time sec :整个job的执行时间
读测试
如果说写测试还可以不要清空linux文件系统缓存的话,跟着的读测试则必须清空,否则可能会对结果影响很大。
$ su root
# free -g
# sync
# echo 3 > /proc/sys/vm/drop_caches
# free -g
# su - hadoop
$ hadoop jar hadoop-test-0.20.2-cdh3u0.jar TestDFSIO -read -nrFiles 1000 -fileSize 512 -bufferSize 67108864
测试结果:
11/05/31 16:41:02 INFO fs.TestDFSIO: ----- TestDFSIO ----- : read
11/05/31 16:41:02 INFO fs.TestDFSIO: Date & time: Tue May 31 16:41:02 CST 2011
11/05/31 16:41:02 INFO fs.TestDFSIO: Number of files: 1000
11/05/31 16:41:02 INFO fs.TestDFSIO: Total MBytes processed: 512000
11/05/31 16:41:02 INFO fs.TestDFSIO: Throughput mb/sec: 51.157743703700746
11/05/31 16:41:02 INFO fs.TestDFSIO: Average IO rate mb/sec: 55.17451095581055
11/05/31 16:41:02 INFO fs.TestDFSIO: IO rate std deviation: 14.862287798304873
11/05/31 16:41:02 INFO fs.TestDFSIO: Test exec time sec: 38.702
结果说明:
结果的意思同写,就是标准差比写要大。
清理测试文件
hadoop jar hadoop-test-0.20.2-cdh3u0.jar TestDFSIO -clean
集群比较小的情况下,这个测试并发map(mapred.tasktracker.map.tasks.maximum)数越少,则显示出来的速度会越快。
分享到:
相关推荐
- **写测试**:通过执行TestDFSIO工具,向Hadoop集群写入10个1000MB的文件,平均写入速率达到了约20.2MB/s,测试执行时间约为104.69秒。这意味着集群在写入大量数据时具有稳定的吞吐量。 - **读测试**:读取同样...
Hadoop集群测试报告
【HADOOP案例及测试资料】是一份涵盖了Hadoop平台搭建、实例运行、源代码分析、测试问题以及基准测试的综合资料集。这份压缩包包含了多个文档,它们分别提供了不同方面的深入理解和实践指导。 首先,"Hadoop平台...
通过执行`TestDFSIO-write`命令进行了10次连续写操作的测试,测试结果记录在表格中。这里我们关注的主要指标是吞吐量(Throughput)和平均I/O速率(Average I/O rate),这两个指标直接反映了HDFS系统的写入性能。具体的...
这个“hadoop入门测试数据”压缩包正是为了帮助初学者理解和实践Hadoop的核心功能而设计的。下面我们将深入探讨Hadoop的基本概念、工作原理以及如何利用这些测试数据进行学习。 Hadoop由Apache软件基金会开发,其...
hadoop本地测试环境搭建工具包 1.hadoop.dll 2.hadoop源码请到官网下载
真实的用户上网行为数据,已经过清洗。数据量超100万,可直接使用。是学习大数据,进行测试的不二之选
"hadoop人脸分析测试数据"是一个专门针对人脸识别技术的测试集,用于验证和优化基于Hadoop的数据分析流程。 人脸识别是一种生物特征识别技术,它通过分析和比较人脸图像的特征来确认或验证个人身份。在大数据环境中...
Hadoop2.4.0测试环境搭建 http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.1-latest/bk_installing_manually_boo k/content/rpm-chap1-11.html [bigdata@namenode1 scripts]$ pwd /home/bigdata/software/...
常用的测试工具有Hadoop自带的Benchmark工具如`hadoop dfsio`和`testDFSIO`等。通过执行这些工具的不同模式(如读、写、随机读等),可以评估Hadoop集群的性能表现,为后续的调优提供数据支持。 #### 四、结语 ...
标题“Win本地测试hadoop”指的是在Windows操作系统环境下搭建Hadoop环境进行本地测试,以便于进行快速的开发和迭代工作。Hadoop是一个开源的分布式计算框架,由Apache基金会开发,主要用于处理和存储大规模数据。在...
Hadoop 测试题 Hadoop 测试题主要涵盖了 Hadoop 的基本概念、架构、组件、应用场景等方面的知识点,本节对测试题的每个问题进行详细的解释和分析。 HDFS 1. HDFS 中,NameNode 负责管理文件系统的命名空间,...
Hadoop阶段测试3.doc
标题中的“Hadoop测试数据”指的是使用Hadoop框架进行处理和分析的一组样例数据集。Hadoop是Apache基金会开发的一个开源分布式计算平台,它允许在大规模集群中处理海量数据。这些测试数据通常用于验证Hadoop集群的...
在这个主题“4、Hadoop多节点部署和测试(HA_HDFS)”中,我们将深入探讨如何在高可用性(HA)模式下配置和测试Hadoop的HDFS(Hadoop分布式文件系统)组件。这里我们将详细讨论涉及的知识点: 1. **HDFS高可用性**:...
在这个压缩包文件中,包含的“天气测试案例”和“执行脚本”旨在帮助读者更好地理解和实践Hadoop在实际问题解决中的应用。 Hadoop是基于Google的MapReduce编程模型和GFS分布式文件系统理念开发的开源框架,主要用于...
**Hadoop MRUnit测试** Hadoop MRUnit是一个用于测试MapReduce程序的强大工具,它允许开发者在没有实际Hadoop集群的情况下,对MapReduce作业进行单元测试。这个框架模拟了Hadoop MapReduce的执行环境,使开发者可以...
标题“hadoop-test-report.zip_hadoop_hadoop word_压力测试报告”指出这是一个关于Hadoop的测试报告,特别关注了Hadoop在处理Word数据时的压力测试情况。"hadoop_test_report.doc"是压缩包内的文档,很可能是详细的...
【Hadoop HA 集群部署与 YARN HA 测试Job 教学】 在大数据处理领域,Hadoop 是一个至关重要的分布式计算框架,它提供了高可用性(HA)的特性来确保服务的连续性和稳定性。Hadoop HA 主要指的是 HDFS(Hadoop ...