hadoop 2.3.0 wordcount -

powertech

浏览: 541378 次

最近访客更多访客>>

zdfjt

wxwshdt

qijjmyth

ppgg908

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

hadoop 2.3.0 wordcount

博客分类：

java

hadoop java maven

新建maven项目

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
  <modelVersion>4.0.0</modelVersion>
  <groupId>hadoop2.3</groupId>
  <artifactId>example</artifactId>
  <version>0.0.1-SNAPSHOT</version>
  <name>hadoop示例</name>
  
  
  <properties>
  	<hadoop-version>2.3.0</hadoop-version>
  </properties>
  
  <dependencies>
  
  <dependency>
	<groupId>org.apache.hadoop</groupId>
	<artifactId>hadoop-core</artifactId>
	<version>1.2.1</version>
</dependency>
  
	<dependency>
		<groupId>org.apache.hadoop</groupId>
		<artifactId>hadoop-mapreduce-client-app</artifactId>
		<version>${hadoop-version}</version>
	</dependency>
	
	<dependency>
	    <groupId>jdk.tools</groupId>
	    <artifactId>jdk.tools</artifactId>
	    <version>1.6</version>
	    <scope>system</scope>
	    <systemPath>${JAVA_HOME}/lib/tools.jar</systemPath>
	</dependency>
	
	<dependency>
		<groupId>org.apache.hadoop</groupId>
		<artifactId>hadoop-mapreduce-examples</artifactId>
		<version>${hadoop-version}</version>
	</dependency>
	
	
  </dependencies>
</project>

2、新建类

/**
 * 
 */
package com.xxx.example;


	import java.io.IOException;
	import java.util.StringTokenizer;

	import org.apache.hadoop.conf.Configuration;
	import org.apache.hadoop.fs.Path;
	import org.apache.hadoop.io.IntWritable;
	import org.apache.hadoop.io.Text;
	import org.apache.hadoop.mapreduce.Job;
	import org.apache.hadoop.mapreduce.Mapper;
	import org.apache.hadoop.mapreduce.Reducer;
	import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
	import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
	import org.apache.hadoop.util.GenericOptionsParser;

	public class MyWordcount {

	  public static class TokenizerMapper 
	       extends Mapper<Object, Text, Text, IntWritable>{
	    
	    private final static IntWritable one = new IntWritable(1);
	    private Text word = new Text();
	      
	    public void map(Object key, Text value, Context context
	                    ) throws IOException, InterruptedException {
	      StringTokenizer itr = new StringTokenizer(value.toString());
	      while (itr.hasMoreTokens()) {
	        word.set(itr.nextToken());
	        context.write(word, one);
	      }
	    }
	  }
	  
	  public static class IntSumReducer 
	       extends Reducer<Text,IntWritable,Text,IntWritable> {
	    private IntWritable result = new IntWritable();

	    public void reduce(Text key, Iterable<IntWritable> values, 
	                       Context context
	                       ) throws IOException, InterruptedException {
	      int sum = 0;
	      for (IntWritable val : values) {
	        sum += val.get();
	      }
	      result.set(sum);
	      context.write(key, result);
	    }
	  }

	  public static void main(String[] args) throws Exception {
	    Configuration conf = new Configuration();
	    String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
	    if (otherArgs.length != 2) {
	      System.err.println("Usage: wordcount <in> <out>");
	      System.exit(2);
	    }
	    Job job = new Job(conf, "word count");
	    job.setJarByClass(MyWordcount.class);
	    job.setMapperClass(TokenizerMapper.class);
	    job.setCombinerClass(IntSumReducer.class);
	    job.setReducerClass(IntSumReducer.class);
	    job.setOutputKeyClass(Text.class);
	    job.setOutputValueClass(IntWritable.class);
	    FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
	    FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
	    System.exit(job.waitForCompletion(true) ? 0 : 1);
	  }
	}

3、maven install
生成jar
example-0.0.1-SNAPSHOT.jar

4、上传到hadoop_home目录

5、创建word.txt
mkdir input

vi input/word.txt
输入文字

保存

6、执行
bin/hadoop jar example-0.0.1-SNAPSHOT.jar com.xxx.example.MyWordcount file:///data01/javaapp/hadoop-2.3.0/input/word.txt output

7、查看结果
http://192.168.1.22:50070/explorer.html

或者

bin/hadoop fs -ls -R output

bin/hadoop fs -cat output/part-**

8、删除执行结果

bin/hadoop fs -rm -r output*

分享到：

uglifyjs批量压缩js | hadoop Insufficient space for shared mem ...

2014-06-12 17:51
浏览 1558
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hadoop 2.3.0 wordcount

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hadoop 2.3.0 wordcount

评论

发表评论

相关推荐

charles4.2下载与破解方法以及配置https

序列号批量生成算法

使用ANTLR处理文本

解决maven-metadata.xml文件下载卡死问题

rsync备份和删除指定文件

javaLocale格式化日期和数字

centos6 tomcat 启动脚本 tomcat服务

win7 命令行改IP和DNS

jenkins中集成sonar，使用findbug、pmd、checkstyle提升代码质量

jenkins 集成sonar

activeMQ5.14权限配置

solaris 使用解压版的jdk

solaris tomcat开机启动

HibernateTemplate Vs HibernateDaoSupport Vs Direct Hibernate Access

spring mvc mybatis will not be managed by Spring

java里判断一点是否在某个区域

12306的技术升级

工作流的123

sping mvc 使用@Value注解为controller注入值

googleapis.com域名访问慢的解决办法

最近访客更多访客>>