`
Kevin12
  • 浏览: 236000 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

hadoop2.2运行wordcount例子

阅读更多
转载请注明出处:http://kevin12.iteye.com/blog/2028776
hadoop2.2环境搭建好后可以运行wordcount例子来查看一个文件中的单词数量,废话不多说,看下面的步骤:
首先在/usr/local/hadoop/下创建一个目录,是为了存放我们的测试文件,目录名称为myfile,在进入myfile中创建一个名称为wordcount.txt文件里面输入数据如下:
hello hadoop
hello java
hello world
运行命令hadoop fs -mkdir /input在hdfs中创建一个input目录;
运行命令hadoop fs -input /usr/hadoop/myfile/wordcount.txt /input/,将本地系统的wordcount.txt文件上传到hdfs的input目录中;
确保hdfs中的input目录下面没有out目录,否则会报错,将光标定位到/usr/local/hadoop/share/hadoop/mapreduce/目录中,然后运行下面的命令进行统计字母:
hadoop jar hadoop-mapreduce-examples-2.2.0.jar  wordcount /input/wordcount.txt /input/out
下面是运行结束打印的结果:
[root@master mapreduce]# hadoop jar hadoop-mapreduce-examples-2.2.0.jar  wordcount /input/wordcount.txt /input/out
14/03/09 19:32:19 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032
14/03/09 19:32:22 INFO input.FileInputFormat: Total input paths to process : 1
14/03/09 19:32:22 INFO mapreduce.JobSubmitter: number of splits:1
14/03/09 19:32:22 INFO Configuration.deprecation: user.name is deprecated. Instead, use mapreduce.job.user.name
14/03/09 19:32:22 INFO Configuration.deprecation: mapred.jar is deprecated. Instead, use mapreduce.job.jar
14/03/09 19:32:22 INFO Configuration.deprecation: mapred.output.value.class is deprecated. Instead, use mapreduce.job.output.value.class
14/03/09 19:32:22 INFO Configuration.deprecation: mapreduce.combine.class is deprecated. Instead, use mapreduce.job.combine.class
14/03/09 19:32:22 INFO Configuration.deprecation: mapreduce.map.class is deprecated. Instead, use mapreduce.job.map.class
14/03/09 19:32:22 INFO Configuration.deprecation: mapred.job.name is deprecated. Instead, use mapreduce.job.name
14/03/09 19:32:22 INFO Configuration.deprecation: mapreduce.reduce.class is deprecated. Instead, use mapreduce.job.reduce.class
14/03/09 19:32:22 INFO Configuration.deprecation: mapred.input.dir is deprecated. Instead, use mapreduce.input.fileinputformat.inputdir
14/03/09 19:32:22 INFO Configuration.deprecation: mapred.output.dir is deprecated. Instead, use mapreduce.output.fileoutputformat.outputdir
14/03/09 19:32:22 INFO Configuration.deprecation: mapred.map.tasks is deprecated. Instead, use mapreduce.job.maps
14/03/09 19:32:22 INFO Configuration.deprecation: mapred.output.key.class is deprecated. Instead, use mapreduce.job.output.key.class
14/03/09 19:32:22 INFO Configuration.deprecation: mapred.working.dir is deprecated. Instead, use mapreduce.job.working.dir
14/03/09 19:32:23 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1394289329220_0002
14/03/09 19:32:25 INFO impl.YarnClientImpl: Submitted application application_1394289329220_0002 to ResourceManager at /0.0.0.0:8032
14/03/09 19:32:25 INFO mapreduce.Job: The url to track the job: http://master:8088/proxy/application_1394289329220_0002/
14/03/09 19:32:25 INFO mapreduce.Job: Running job: job_1394289329220_0002
14/03/09 19:32:55 INFO mapreduce.Job: Job job_1394289329220_0002 running in uber mode : false
14/03/09 19:32:55 INFO mapreduce.Job:  map 0% reduce 0%
14/03/09 19:33:33 INFO mapreduce.Job:  map 100% reduce 0%
14/03/09 19:33:45 INFO mapreduce.Job:  map 100% reduce 100%
14/03/09 19:33:46 INFO mapreduce.Job: Job job_1394289329220_0002 completed successfully
14/03/09 19:33:47 INFO mapreduce.Job: Counters: 43
        File System Counters
                FILE: Number of bytes read=54
                FILE: Number of bytes written=158345
                FILE: Number of read operations=0
                FILE: Number of large read operations=0
                FILE: Number of write operations=0
                HDFS: Number of bytes read=139
                HDFS: Number of bytes written=32
                HDFS: Number of read operations=6
                HDFS: Number of large read operations=0
                HDFS: Number of write operations=2
        Job Counters
                Launched map tasks=1
                Launched reduce tasks=1
                Data-local map tasks=1
                Total time spent by all maps in occupied slots (ms)=36121
                Total time spent by all reduces in occupied slots (ms)=7030
        Map-Reduce Framework
                Map input records=3
                Map output records=6
                Map output bytes=60
                Map output materialized bytes=54
                Input split bytes=103
                Combine input records=6
                Combine output records=4
                Reduce input groups=4
                Reduce shuffle bytes=54
                Reduce input records=4
                Reduce output records=4
                Spilled Records=8
                Shuffled Maps =1
                Failed Shuffles=0
                Merged Map outputs=1
                GC time elapsed (ms)=588
                CPU time spent (ms)=14810
                Physical memory (bytes) snapshot=213233664
                Virtual memory (bytes) snapshot=720707584
                Total committed heap usage (bytes)=136908800
        Shuffle Errors
                BAD_ID=0
                CONNECTION=0
                IO_ERROR=0
                WRONG_LENGTH=0
                WRONG_MAP=0
                WRONG_REDUCE=0
        File Input Format Counters
                Bytes Read=36
        File Output Format Counters
                Bytes Written=32
[root@master mapreduce]#


查看结果:
[root@master mapreduce]# hadoop fs -lsr /input
lsr: DEPRECATED: Please use 'ls -R' instead.
drwxr-xr-x   - root supergroup          0 2014-03-09 19:33 /input/out
-rw-r--r--   3 root supergroup          0 2014-03-09 19:33 /input/out/_SUCCESS
-rw-r--r--   3 root supergroup         32 2014-03-09 19:33 /input/out/part-r-00000
-rw-r--r--   3 root supergroup         36 2014-03-09 19:26 /input/wordcount.txt
[root@master mapreduce]# hadoop fs -cat /input/out/part-r-00000
hadoop  1
hello   3
java    1
world   1
[root@master mapreduce]#

成功!
转载请注明出处:http://kevin12.iteye.com/blog/2028776
1
2
分享到:
评论

相关推荐

    hadoop 2.2 安装包

    Hadoop 2.2 是一个重要的版本,它在Hadoop生态系统中引入了多项改进和优化,使得大数据处理变得更加高效和可靠。在这个版本中,Hadoop增强了其分布式存储系统HDFS(Hadoop Distributed File System)以及分布式计算...

    Hadoop mapreduce实现wordcount

    在实际环境中,我们需要配置 Hadoop 集群,设置输入文件路径,编译并打包 WordCount 程序,最后通过 Hadoop 的 `hadoop jar` 命令提交作业到集群运行。调试时,可以查看日志输出,检查错误信息,优化性能。 通过...

    hadoop2.2 64位 (下)

    hadoop2.2 64位 (下) centos6.4 64位编译 这是下半部分

    Hadoop集群-WordCount运行详解

    在linux环境下部署的Hadoop集群-WordCount运行详解。

    Hadoop2.2+Zookeeper3.4.5+HBase0.96集群环境搭建

    Hadoop2.2+Zookeeper3.4.5+HBase0.96集群环境搭建 Hadoop2.2+Zookeeper3.4.5+HBase0.96集群环境搭建是大数据处理和存储的重要组件,本文档将指导用户从零开始搭建一个完整的Hadoop2.2+Zookeeper3.4.5+HBase0.96集群...

    hadoop运行wordcount实例

    ### Hadoop运行WordCount实例详解 #### 一、Hadoop简介与WordCount程序的重要性 Hadoop 是一个由Apache基金会所开发的分布式系统基础架构。它能够处理非常庞大的数据集,并且能够在集群上运行,通过将大数据分割...

    使用hadoop实现WordCount实验报告.docx

    3. **运行WordCount程序**:调用Hadoop自带的Java程序`hadoop-mapreduce-examples-2.7.7.jar`,指定输入和输出参数。 ### 四、实验结果 成功运行WordCount后,可以在指定的输出文件夹(例如/output)中看到统计...

    Hadoop2.2 安装手册

    《Hadoop 2.2 安装手册》是针对大数据处理框架Hadoop 2.2的详尽安装指南,特别适合初学者和有经验的IT专业人员参考。这份手册不仅包含了文字描述,还配有完整的截图,使安装过程更加直观易懂。在本文中,我们将深入...

    hadoop2.2-64-native包(redhat6.3x64)

    总的来说,这个"hadoop2.2-64-native包"是专为RHEL 6.3 64位系统定制的,包含了通过源代码编译得到的本地库文件,是Hadoop在该环境中高效运行的基础。对于系统管理员和Hadoop开发者来说,理解如何构建、安装和使用...

    hadoop2.2在window7 sp1 32位系统中运行所需要的文件

    首先,我们关注的标题是“hadoop2.2在window7 sp1 32位系统中运行所需要的文件”。这意味着我们要在32位Windows环境下搭建Hadoop 2.2环境。通常,在Windows上安装Hadoop会遇到一些挑战,因为官方主要支持Linux平台。...

    hadoop2.2集群搭建

    hadoop2.2集群环境搭建,按照本文档操作,可以搭建hadoop2.2的环境,从而进行大数据学习

    Hadoop示例程序WordCount运行及详解

    Hadoop示例程序WordCount运行及详解 Hadoop平台上进行WordCount是非常重要的,掌握了WordCount可以更好地理解Hadoop的map-reduce编程模型。本文将详细讲解Hadoop平台上WordCount的运行和实现。 基于Hadoop的map-...

    hadoop2.2 eclipse插件编译

    标题中的“hadoop2.2 eclipse插件编译”意味着我们要讨论的是如何在Eclipse中编译适用于Hadoop 2.2版本的插件。这个过程通常涉及到下载源代码、配置构建环境以及执行编译命令。 描述中提到的“hadoop 2.x插件编译所...

    hadoop入门例子wordcount

    hadoop入门例子wordcount

    hadoop-1.2.1运行WordCount

    ### Hadoop-1.2.1 运行WordCount实例详解 #### 一、环境准备与搭建 在开始运行WordCount实例之前,首先确保已经按照之前的步骤完成了Hadoop-1.2.1环境的搭建。这包括但不限于安装JDK、配置Hadoop环境变量以及设置...

    hadoop2.2 下hive的安装

    首先,我们需要确保Hadoop 2.2已经正确安装并运行。这包括配置Hadoop的环境变量,如`HADOOP_HOME`,以及设置`JAVA_HOME`环境变量,因为Hadoop依赖Java运行。同时,确保Hadoop集群能够正常启动,包括NameNode和...

    hadoop2.2简易安装工具

    hadoop2.2 安装 工具 hive hbase快速安装工具

    hadoop2.2编译安装详解

    2. 运行一个简单的WordCount示例,验证Hadoop工作正常。 八、安全模式与高可用性 Hadoop 2.2引入了HA(高可用性)特性,通过配置多个NameNode实现故障切换。在生产环境中,还需要考虑安全性,可以启用Kerberos以...

    hadoop 2.2 eclipse plugins 插件

    hadoop 2.2 eclipse plugins 插件 拷贝至plugins即可 留给自己的,当做备份用

    (转经修改)ganglia监控HADOOP 2.2

    《Ganglia监控Hadoop 2.2详解》 Ganglia是一款开源的分布式监控系统,广泛用于监控大型计算集群的资源使用情况,包括CPU、内存、网络等关键指标。在Hadoop这样的大数据处理框架中,Ganglia的集成显得尤为重要,因为...

Global site tag (gtag.js) - Google Analytics