`
jayghost
  • 浏览: 440159 次
  • 性别: Icon_minigender_1
  • 来自: 成都
社区版块
存档分类
最新评论

单独编译运行hadoop自带wordcount例子

 
阅读更多

1、首先要找到wordcount的源代码,在http://svn.apache.org/repos/asf/hadoop/中,用svn客户端check out下来,找到svn.apache.org_repos_asf\hadoop\hadoop-mapreduce-project\hadoop-mapreduce-examples\src\main\java\org\apache\hadoop\examples\WordCount.java

2、创建文件夹并且把wordcount文件拷出来:

mkdir playground

mkdir playground/src

mkdir playground/classes

cp src/examples/org/apache/hadoop/examples/WordCount.java playground/src/WordCount.java

3、在hadoop框架中编译和执行这个副本

javac -classpath hadoop-core-1.0.1.jar:lib/commons-cli-1.2.jar -d playground/classes/ playground/src/WordCount.java

 

jar -cvf playground/wordcount.jar -C playground/classes/ .

 

  1. 标明清单(manifest)  
  2. 增加:org/(读入= 0) (写出= 0)(存储了 0%)  
  3. 增加:org/apache/(读入= 0) (写出= 0)(存储了 0%)  
  4. 增加:org/apache/hadoop/(读入= 0) (写出= 0)(存储了 0%)  
  5. 增加:org/apache/hadoop/examples/(读入= 0) (写出= 0)(存储了 0%)  
  6. 增加:org/apache/hadoop/examples/WordCount.class(读入= 1911) (写出= 996)(压缩了 47%)  
  7. 增加:org/apache/hadoop/examples/WordCount$IntSumReducer.class(读入= 1789) (写出= 746)(压缩了 58%)  
  8. 增加:org/apache/hadoop/examples/WordCount$TokenizerMapper.class(读入= 1903) (写出= 819)(压缩了 56%) 

 

4、运行你的程序,出现如下信息说明执行成功:

$ bin/hadoop jar playground/wordcount.jar org.apache.hadoop.examples.WordCount input my_output


  1. 11/12/05 21:33:30 INFO input.FileInputFormat: Total input paths to process : 1  
  2. 11/12/05 21:33:31 INFO mapred.JobClient: Running job: job_201111281334_0014  
  3. 11/12/05 21:33:32 INFO mapred.JobClient:  map 0% reduce 0%  
  4. 11/12/05 21:33:41 INFO mapred.JobClient:  map 100% reduce 0%  
  5. 11/12/05 21:33:53 INFO mapred.JobClient:  map 100% reduce 100%  
  6. 11/12/05 21:33:55 INFO mapred.JobClient: Job complete: job_201111281334_0014  
  7. 11/12/05 21:33:55 INFO mapred.JobClient: Counters: 17  
  8. 11/12/05 21:33:55 INFO mapred.JobClient:   Job Counters   
  9. 11/12/05 21:33:55 INFO mapred.JobClient:     Launched reduce tasks=1  
  10. 11/12/05 21:33:55 INFO mapred.JobClient:     Launched map tasks=1  
  11. 11/12/05 21:33:55 INFO mapred.JobClient:     Data-local map tasks=1  
  12. 11/12/05 21:33:55 INFO mapred.JobClient:   FileSystemCounters  
  13. 11/12/05 21:33:55 INFO mapred.JobClient:     FILE_BYTES_READ=25190  
  14. 11/12/05 21:33:55 INFO mapred.JobClient:     HDFS_BYTES_READ=44253  
  15. 11/12/05 21:33:55 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=50412  
  16. 11/12/05 21:33:55 INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=17876  
  17. 11/12/05 21:33:55 INFO mapred.JobClient:   Map-Reduce Framework  
  18. 11/12/05 21:33:55 INFO mapred.JobClient:     Reduce input groups=1857  
  19. 11/12/05 21:33:55 INFO mapred.JobClient:     Combine output records=1857  
  20. 11/12/05 21:33:55 INFO mapred.JobClient:     Map input records=734  
  21. 11/12/05 21:33:55 INFO mapred.JobClient:     Reduce shuffle bytes=25190  
  22. 11/12/05 21:33:55 INFO mapred.JobClient:     Reduce output records=1857  
  23. 11/12/05 21:33:55 INFO mapred.JobClient:     Spilled Records=3714  
  24. 11/12/05 21:33:55 INFO mapred.JobClient:     Map output bytes=73129  
  25. 11/12/05 21:33:55 INFO mapred.JobClient:     Combine input records=7696  
  26. 11/12/05 21:33:55 INFO mapred.JobClient:     Map output records=7696  
  27. 11/12/05 21:33:55 INFO mapred.JobClient:     Reduce input records=1857  

5、查看结果,在文件系统的my_output中

分享到:
评论

相关推荐

    hadoop运行wordcount实例

    ### Hadoop运行WordCount实例详解 #### 一、Hadoop简介与WordCount程序的重要性 Hadoop 是一个由Apache基金会所开发的分布式系统基础架构。它能够处理非常庞大的数据集,并且能够在集群上运行,通过将大数据分割...

    使用hadoop实现WordCount实验报告.docx

    3. **运行WordCount程序**:调用Hadoop自带的Java程序`hadoop-mapreduce-examples-2.7.7.jar`,指定输入和输出参数。 ### 四、实验结果 成功运行WordCount后,可以在指定的输出文件夹(例如/output)中看到统计...

    ubuntu运行hadoop的wordcount

    - 上述命令中,`hadoop-0.20.2-examples.jar`是Hadoop自带的例子程序集合,包含了WordCount等示例程序。 - `wordcount`表示执行WordCount任务。 - `input`和`output`分别代表输入文件夹和输出文件夹路径。 #### ...

    Hadoop mapreduce实现wordcount

    在实际环境中,我们需要配置 Hadoop 集群,设置输入文件路径,编译并打包 WordCount 程序,最后通过 Hadoop 的 `hadoop jar` 命令提交作业到集群运行。调试时,可以查看日志输出,检查错误信息,优化性能。 通过...

    hadoop 运行成功代码(wordcount)

    本项目将详细介绍如何在Hadoop环境中成功运行WordCount程序,以及涉及到的相关知识点。 首先,`Hadoop`是一个基于Java的框架,设计用来处理和存储大规模数据。它采用了分布式计算模型,即MapReduce,将大型任务分解...

    hadoop1.2.1修改WordCount并编译

    "Hadoop 1.2.1 版本下修改 WordCount 程序并编译" Hadoop 是一种基于分布式处理的大数据处理框架,其中 WordCount 程序是一个经典的示例程序,用于统计文本文件中的词频信息。在 Hadoop 1.2.1 版本下,我们可以修改...

    hadoop之wordcount例程代码

    运行WordCount程序时,Hadoop会自动将数据分发到集群的各个节点上,每个节点上的TaskTracker会执行对应的Map任务。当Map任务完成,中间结果会被排序和分区,然后传递给Reduce任务。Reduce任务最终将结果写回到HDFS,...

    Hadoop集群-WordCount运行详解

    在linux环境下部署的Hadoop集群-WordCount运行详解。

    hadoop入门例子wordcount

    hadoop入门例子wordcount

    Hadoop开发WordCount源码详细讲解

    Hadoop开发WordCount源码程序详细讲解,每一行都带注释说明。

    hadoop的wordcount简单实例

    这是一个wordcount的一个简单实例jar包,仅仅用来做测试。...map类:org.apache.hadoop.wordcount.WordCountMapReduce$WordCountMapper reduce类 org.apache.hadoop.wordcount.WordCountMapReduce$WordCountReducer

    hadoop-wordcount测试程序

    hadoop-wordcount测试程序,jar包,单词统计的不二之选

    hadoop实现wordcount

    在"wordcount"例子中,mapper接收文本行,对每一行进行分词,生成键值对(单词作为key,出现次数1作为value)。 接着是Reduce阶段,Hadoop将相同的key分组并将对应的values(出现次数)相加,从而得到每个单词的...

    Hadoop集群-WordCount运行详解.pdf

    1.2.2运行例子步骤是在集群上运行WordCount程序,以input目录作为输入,output目录作为输出。1.2.3查看结果则是在MapReduce作业完成后,到指定的output目录下检查输出结果,通常输出结果以part-r-00000的形式存储。 ...

    WordCount2_hadoopwordcount_

    在标题中的"WordCount2_hadoopwordcount_"可能指的是Hadoop WordCount的第二个版本,通常是在Hadoop 2.x环境下运行。这个程序的核心任务是对输入文本进行分词,统计每个单词出现的次数,并将结果输出。在这个过程中...

    Eclipse中编译运行Hadoop-0.20.1源码

    例如,你可以尝试编译和运行位于`src/examples`目录下的WordCount程序,这是一个经典的Hadoop示例,用于统计文本文件中的单词出现次数。在Eclipse中,右键点击WordCount.java文件,选择“Run As” -> “Java ...

    hadoop wordcount 打包部署

    ### Hadoop WordCount项目打包与部署详解 #### 一、Hadoop WordCount...通过以上步骤,可以成功地在Hadoop环境下部署并运行WordCount程序。这不仅是一个基础的数据处理练习,也是深入了解Hadoop生态系统的重要一步。

    hadoop-1.2.1运行WordCount

    ### Hadoop-1.2.1 运行WordCount实例详解 #### 一、环境准备与搭建 在开始运行WordCount实例之前,首先确保已经按照之前的步骤完成了Hadoop-1.2.1环境的搭建。这包括但不限于安装JDK、配置Hadoop环境变量以及设置...

    hadoop mapreduce wordcount

    <artifactId>wordcount <version>0.0.1-SNAPSHOT <packaging>jar <name>wordcount <url>http://maven.apache.org</url> <project.build.sourceEncoding>UTF-8 <groupId>org.apache.hadoop ...

    Hadoop的WordCount实例代码

    在Map阶段,Hadoop将大文件分割成多个小块(Block),并分别在集群的不同节点上运行Map任务。对于WordCount,每个Map任务读取输入数据,通常是文本文件的一行。然后,它将每一行拆分为单词(以空格、标点符号等为...

Global site tag (gtag.js) - Google Analytics