`
小网客
  • 浏览: 1244072 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Hadoop之wordcount性能测试

 
阅读更多

概述:

利用wordcount做hadoop性能测试,依据count的数据规模增长进行性能分析评测

 

版本:

bin/hadoop version

Hadoop 2.3.0-cdh5.0.0

 

测试步骤:

1.利用randomtextwriter生成指定规模的测试集合

2.执行wordcount:

nohup bin/hadoop jar share/hadoop/mapreduce2/hadoop-mapreduce-examples-2.3.0-cdh5.0.0.jar wordcount /home/test/mrinput50 /home/test/mroutput50 > wc.log 2>&1 & 

3.评测内容:

Total time spent by all maps in occupied slots (ms)=1504892
Total time spent by all reduces in occupied slots (ms)=84038
Total time spent by all map tasks (ms)=1504892
Total time spent by all reduce tasks (ms)=84038
GC time elapsed (ms)=17285
CPU time spent (ms)=1812107

 

0
0
分享到:
评论
2 楼 小网客 2014-11-26  
planeking2009 写道
你好,请问你有没有发现randomtextwriter写出来的text会有乱码?然后会影响job例如wordcount的output结果。请问你用randomtextwriter写出来的text有乱码吗?也有可能是我的编码问题?谢谢啊。

那你们是中文的吗?如果是中文的话那么编码是gbk还是utf8 如果是gbk就会有乱码,默认utf8 如果必须要gbk那么需要重写
1 楼 planeking2009 2014-11-26  
你好,请问你有没有发现randomtextwriter写出来的text会有乱码?然后会影响job例如wordcount的output结果。请问你用randomtextwriter写出来的text有乱码吗?也有可能是我的编码问题?谢谢啊。

相关推荐

    hadoop 运行成功代码(wordcount)

    在实际应用中,Hadoop WordCount的示例不仅可以帮助理解MapReduce的工作原理,还常用于性能基准测试和调试Hadoop集群。掌握这一基础,可以进一步学习更复杂的Hadoop应用,如数据分析、图计算等。 总之,通过这个...

    hadoop集群通用wordcount测试程序

    "hadoop集群通用wordcount测试程序"是一个基于Hadoop实现的、不依赖特定平台的WordCount示例,它广泛应用于学习、研究以及性能基准测试。WordCount是Hadoop入门的经典案例,其主要任务是对文本中的单词进行计数。 ...

    Hadoop2.2.0环境测试详细傻瓜说明

    描述中的“配置以后的一些测试,wordcount啥的,有信心的就不用下了”进一步指出,我们将进行的是Hadoop环境的常规验证,通过运行经典的WordCount程序来检查系统是否正常运行。 Hadoop是分布式计算框架,主要用于...

    Hadoop cluster配置

    6. **测试集群**:使用`hadoop fs -ls`命令检查HDFS是否正常工作,或者运行一个简单的WordCount程序来验证MapReduce功能。 WordCount是Hadoop中的经典示例,用于统计文本文件中单词出现的次数。其主要包括Mapper和...

    windows eclipse 运行wordcount连接linux hadoop2.8 NativeIO YARNRunner 完项目 源码

    在本项目中,我们主要关注的是如何在Windows环境下使用Eclipse IDE运行一个WordCount程序,该程序连接到Linux上的Hadoop 2.8集群,并利用NativeIO和YARNRunner进行分布式处理。以下是对这些关键概念的详细解释: 1....

    hadoop-3.1.0.rar windows 环境依赖

    8. **运行示例程序**:你可以尝试运行Hadoop自带的示例程序,如WordCount,来测试你的安装是否成功。 在Windows环境中,由于缺少原生支持,你可能需要使用像cygwin这样的模拟Unix环境,或者使用像Scoop这样的包管理...

    hadoop-3.2.4.tar.gz

    为了测试Hadoop集群,你可以尝试运行一些示例程序,如WordCount,这是一个经典的MapReduce程序,用于统计文本文件中的单词出现次数。 总之,Hadoop 3.2.4提供了一个强大且可靠的分布式计算平台,适用于大数据分析、...

    win10下编译过的hadoop jar包--hadoop-2.7.2.zip

    Hadoop 2.7.2 版本是在Hadoop 2.x系列中的一个重要版本,带来了许多性能优化和功能改进。 HDFS是Hadoop的核心组件,它是一个分布式文件系统,设计目标是为了处理和存储大量数据。HDFS通过将数据分片存储在多台机器...

    HADOOP安装过程

    - 启动Hadoop,并进行WordCount测试。 #### 三、详细步骤 **1. 安装Ubuntu:** - 使用VMware Workstation 8安装Ubuntu 10.04 LTS虚拟机。由于Ubuntu 10.04为长期支持版本,其稳定性较好。 **2. 配置软件源:** ...

    基于任务节点系统进程优先级的hadoop源码修改及测试报告

    在Hadoop分布式计算环境中,优化调度机制对于提升整体性能至关重要。本报告主要探讨了如何通过修改Hadoop源码,利用Linux操作系统中的进程优先级特性来改进作业的调度策略,从而提高集群的效率。 1. Linux进程...

    hadoop-2.7.2.zip

    在测试阶段,你可以使用Hadoop自带的WordCount示例程序来验证安装是否成功。WordCount是一个简单的应用,统计文本文件中每个单词出现的次数,展示了MapReduce的基本工作原理。此外,你还可以使用Hadoop的其他工具,...

    hadoop-3.1.0-windows依赖文件.7z

    Hadoop 3.1.0是Hadoop发展过程中的一个重要版本,它在Hadoop 3.0的基础上进行了多项改进和优化,提升了系统的稳定性和性能。这个"hadop-3.1.0-windows"压缩包是专为在Windows环境下运行Hadoop设计的,包含了所有必要...

    hadoop 安装部署手册

    学习监控Hadoop集群的性能,调整参数以适应不同的工作负载,如增加DataNode的内存分配,优化网络通信等。 总之,Hadoop的安装部署涉及多个步骤,包括环境准备、软件安装、配置文件修改、集群启动和测试。理解这些...

    hadoop-3.1.4.tar.gz

    7. **测试运行**:通过`hadoop fs -ls`命令检查HDFS是否正常工作,使用WordCount示例验证MapReduce功能。 四、Hadoop的使用场景与最佳实践 Hadoop广泛应用于数据分析、日志处理、推荐系统、机器学习等领域。在使用...

    hadoop环境搭建手册

    1. **性能测试**:评估集群在不同负载下的表现。 2. **稳定性测试**:模拟硬件故障,测试集群的恢复能力。 3. **容量测试**:增加集群规模,测试扩展性。 #### 十、随想 随着数据量的不断增加,分布式计算框架如...

    hadoop-0.18.2 的安装包

    7. **测试运行**:可以使用Hadoop自带的示例程序(如WordCount)来验证安装是否成功。 四、进一步学习与优化 1. **Hadoop集群管理**:了解如何管理Hadoop集群,包括监控、日志收集、性能调优等。 2. **Hadoop与...

    Hadoop分布式文件系统(HDFS)运行测试

    本次实验旨在通过对Hadoop分布式文件系统(HDFS)进行运行测试,深入理解并掌握Hadoop及其核心组件之一——HDFS的基本原理与操作方法。随着大数据时代的到来,如何高效地存储和处理海量数据成为了一个重要的技术挑战...

    Hadoop MapReduce.pdf

    - 使用`hadoop jar wordcount.jar WordCount /user/zwxq/wordcount/input/sample.txt /user/zwxq/wordcount/output`命令执行WordCount程序。 - **步骤5:查看执行结果** - 使用`hadoop fs -ls /user/zwxq/...

    hadoop -1.2.1-jar(全)

    4. **hadoop-examples-1.2.1.jar**:此JAR包提供了几个示例程序,演示了如何使用Hadoop MapReduce进行简单的数据处理任务,如WordCount、PiEstimator等,这些示例对于初学者理解Hadoop的工作原理非常有帮助。...

Global site tag (gtag.js) - Google Analytics