`

MapReduce列子WordCount

 
阅读更多
  1. 写程序MyWordCount.java
    package org.myorg;
    
    import java.io.IOException;
    import java.util.*;
    
    import org.apache.hadoop.fs.Path;
    import org.apache.hadoop.conf.*;
    import org.apache.hadoop.io.*;
    import org.apache.hadoop.mapred.*;
    import org.apache.hadoop.util.*;
    
    public class WordCount {
    	public static void main(String[] args) throws Exception {
    		JobConf conf = new JobConf(WordCount.class);
    		conf.setJobName("wordcount");
    
    		//conf.setNumReduceTasks(0);		
    		
    		conf.setOutputKeyClass(Text.class);
    		conf.setOutputValueClass(IntWritable.class);
    		
    		conf.setMapperClass(Map.class);
    		conf.setCombinerClass(Reduce.class);
    		//conf.setReducerClass(Reduce.class);
    	
    		conf.setInputFormat(TextInputFormat.class);
    		conf.setOutputFormat(TextOutputFormat.class);
    		
    		FileInputFormat.setInputPaths(conf, new Path(args[0]));
    		FileOutputFormat.setOutputPath(conf, new Path(args[1]));
    		
    		JobClient.runJob(conf);
    	}
    
    	public static class Map extends MapReduceBase implements Mapper<LongWritable, Text, Text, IntWritable> {
    		private final static IntWritable one = new IntWritable(1);
    		private Text word = new Text();
    
    		public void map(LongWritable key, Text value, OutputCollector<Text, IntWritable> output, Reporter reporter) throws IOException {
    			String line = value.toString();
    			StringTokenizer tokenizer = new StringTokenizer(line);
    			while (tokenizer.hasMoreTokens()) {
    				word.set(tokenizer.nextToken());
    				output.collect(word, one);
    			}
    		}
    	}
    
    	public static class Reduce extends MapReduceBase implements Reducer<Text, IntWritable, Text, IntWritable> {
    		public void reduce(Text key, Iterator<IntWritable> values, OutputCollector<Text, IntWritable> output, Reporter reporter) throws IOException {
    			int sum = 0;
    			while (values.hasNext()) {
    				sum += values.next().get();
    			}
    			output.collect(key, new IntWritable(sum));
    		}
    	}
    }
    
     源文档 <http://hadoop.apache.org/docs/r0.18.3/mapred_tutorial.html>

    注:conf.setInputFormat(TextInputFormat.class);    //TextInputFormat是默认的InputFormat。这说明Map类的键是LongWritable类型,存储整个文件的字节偏移量,值是Text类型,是一行内容。StringTokenizer 把行按空格拆分成单词。
    conf.setOutputFormat(TextOutputFormat.class);     //输出格式为TextOutputFormat,把输出记录写成文本行。键值可以使任何类型,因为可以用toString()方法转成字符串。这里的输出键是Text类型,值是IntWritable类型。

     2. 编译

         Mkdir  wordcountsource

        hduser@ubuntu:/usr/local/hadoop$ javac -classpath hadoop-core-1.1.1.jar -d wordcountsource                       MyWordCount.java
        编译java到wordcountsource文件夹下
          如果出现错误:error while writing Map: could not create parent directories
         说明没有写入input文件的权限

     3.生成jar

        hduser@ubuntu:/usr/local/hadoop$ sudo jar -cvf MyWordCount.jar  -C wordcountsource/ .

       在当前目录下生成MyWordCount.jar

      4.在input文件夹下创建file0和file1

         hduser@ubuntu:/usr/local/hadoop/input$ mkdir input    //input文件夹为输入

         hduser@ubuntu:/usr/local/hadoop/input$ sudo gedit file0
         hduser@ubuntu:/usr/local/hadoop/input$ sudo gedit file1

      5.运行MyWordCount.jar

       hduser@ubuntu:/usr/local/hadoop$ sudo bin/hadoop jar MyWordCount.jar org.myorg.MyWordCount              input output

       确保有创建output的权限

      6.查看结果

      hduser@ubuntu:/usr/local/hadoop$ cat output/part-00000

      Bye 1
     Hello 1
    World 2

转载

分享到:
评论

相关推荐

    Hadoop mapreduce实现wordcount

    【标题】Hadoop MapReduce 实现 WordCount MapReduce 是 Apache Hadoop 的核心组件之一,它为大数据处理提供了一个分布式计算框架。WordCount 是 MapReduce 框架中经典的入门示例,它统计文本文件中每个单词出现的...

    mapreduce的wordCount案例

    WordCount是MapReduce最基础且经典的示例,它演示了如何利用MapReduce处理文本数据并统计每个单词出现的次数。在这个案例中,我们将深入理解MapReduce的工作原理,并通过WordCount的例子来解析其实现过程。 首先,...

    MapReduce的wordcount的jar包

    MapReduce的wordcount的jar包

    云计算与大数据 MapReduce实验 WordCount.jar

    云计算与大数据 MapReduce实验 Wordcount实验中所需数据包 WordCount.jar 不需要封装,centos7 linux hadoop实验上传所需

    MapReduce之Wordcount实现

    WordCount是MapReduce编程的经典入门案例,用于统计文本数据中每个单词出现的次数。下面我们将详细阐述如何使用Java语言在Hadoop框架中实现WordCount程序。 首先,理解MapReduce的两个主要处理阶段:Map阶段和...

    MapReduce之wordcount范例代码

    WordCount是MapReduce中的一个经典示例,它用于统计文本中各个单词出现的次数,简单明了地展示了MapReduce的核心理念和工作流程。 在Hadoop环境中,MapReduce通过两个主要阶段来完成任务:Map阶段和Reduce阶段。...

    03.mapreduce实现wordcount的逻辑代码.mp4

    03.mapreduce实现wordcount的逻辑代码.mp4

    分布式网络环境中基于MapReduce的WordCount实现.pdf

    综上所述,分布式网络环境下基于MapReduce的WordCount实现,不仅是对MapReduce编程模型理解和应用的展示,更是对云计算和分布式计算领域理论与实践结合的体现。通过深入学习和应用MapReduce模型,开发者可以构建出...

    python MapReduce的wordcount

    ### Python 实现 MapReduce 的 WordCount 示例详解 #### 一、引言 MapReduce 是 Hadoop 生态系统中的一种编程模型,主要用于大规模数据集的并行处理。它通过两个主要阶段——`Map` 和 `Reduce` 来实现数据处理任务...

    hadoop 框架下 mapreduce源码例子 wordcount

    WordCount是MapReduce中的一个经典示例,它演示了如何利用该框架进行数据处理。在这个例子中,我们将深入理解Hadoop MapReduce的工作原理以及如何在Eclipse环境下实现WordCount源码。 1. **Hadoop MapReduce概述**...

    mapreduce-wordcount

    wordcount, mapreduce经典,文字计数

    Ubuntu安装Hadoop实现MapReduce里的WordCount

    ### Ubuntu安装Hadoop实现MapReduce里的WordCount #### 核心知识点概述 1. **Ubuntu环境下的基础配置**:包括VMware Tools的安装、JDK的安装与配置。 2. **Hadoop的安装与配置**:包括下载与解压、环境变量配置、...

    MapReduce - WordCount案例 - 含各种部署方式源码

    本文将详细解析MapReduce在实现WordCount案例中的原理、步骤以及如何通过Java进行编程,并涵盖本地提交和远程调用的不同部署方式。 1. **MapReduce基本原理** MapReduce分为两个主要阶段:Map阶段和Reduce阶段。...

    使用python实现mapreduce(wordcount).doc

    本篇文章将探讨如何在Hadoop平台上利用Python实现WordCount,一个经典的MapReduce示例。 Hadoop是Apache基金会的一个项目,其目标是解决大数据处理的效率问题。MapReduce是Hadoop中的核心组件,负责数据的并行处理...

    mapreduce-wordcount:Go 和 Cassandra DB (Java) 中的简单 MapReduce 字数实现

    在本项目"mapreduce-wordcount"中,我们将探讨如何在Go语言和Cassandra数据库(利用Java API)环境中实现一个简单的MapReduce任务,该任务用于统计文本中的单词数量。 首先,让我们了解MapReduce的基本原理。它分为...

    实验项目 MapReduce 编程

    WordCount是MapReduce的经典示例,它统计文本中单词的出现次数。在Eclipse或IDEA中,开发者创建了一个新的Java包,仿照Hadoop自带的WordCount.java,编写了自己的WordCount程序。完成后,将程序打包成JAR文件,上传...

    hadoop mapreduce wordcount

    &lt;groupId&gt;com.hadoop.mapreduce&lt;/groupId&gt; &lt;artifactId&gt;wordcount &lt;version&gt;0.0.1-SNAPSHOT &lt;packaging&gt;jar &lt;name&gt;wordcount &lt;url&gt;http://maven.apache.org&lt;/url&gt; &lt;project.build.sourceEncoding&gt;UTF-8 ...

    MapReduce WordCount例子

    接下来,创建一个Java类,比如`WordCount`,并实现`org.apache.hadoop.mapreduce.Mapper`和`org.apache.hadoop.mapreduce.Reducer`接口。Mapper类中定义`map()`方法,Reducer类中定义`reduce()`方法。同时,你需要...

    hadoop mapreduce 例子项目,运行了单机wordcount

    这个例子项目是关于在单机环境中运行WordCount程序的,这是一个经典的MapReduce示例,用于统计文本文件中每个单词出现的次数。 首先,让我们深入了解Hadoop。Hadoop是由Apache软件基金会开发的开源框架,专门设计...

    初学Hadoop之图解MapReduce与WordCount示例分析

    Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算...1、Hadoop示例程序WordCount详解及实例2、hadoop学习笔记:mapreduce框架详解3、hadoop示例程序wo

Global site tag (gtag.js) - Google Analytics