Hadoop 统计不同引用次数的专利数目（三）

bo_hai

浏览: 567434 次
性别:
来自: 武汉

最近访客更多访客>>

nison

alpenliebe

loris_jand

qst10141

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

一、在（二）的基础之上做修改，代码如下：

import java.io.IOException;

import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.KeyValueTextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

/**
 * 计算不同引用次数专利的数目
 * 
 * @author liuhongbo
 * 
 */
public class PatentCiteCount extends Configured implements Tool {

	public static class PatentCiteCountMapper extends
			Mapper<Text, Text, Text, IntWritable> {

		private final IntWritable one = new IntWritable(1);

		@Override
		protected void map(Text key, Text value, Context context)
				throws IOException, InterruptedException {
			context.write(value, one);
		}
	}

	public static class PatentCiteCountReducer extends
			Reducer<Text, IntWritable, Text, LongWritable> {
		private final LongWritable result = new LongWritable();

		@Override
		protected void reduce(Text key, Iterable<IntWritable> values,
				Context context) throws IOException, InterruptedException {
			int sum = 0;
			for (IntWritable value : values) {
				sum += value.get();
			}
			result.set(sum);
			context.write(key, result);
		}
	}

	@Override
	public int run(String[] args) throws Exception {
		Job job = new Job(getConf());
		job.setJarByClass(getClass());
		job.setJobName("patentcitecount");

		job.setInputFormatClass(KeyValueTextInputFormat.class);
		job.setOutputFormatClass(TextOutputFormat.class);

		job.setMapperClass(PatentCiteCountMapper.class);
		job.setReducerClass(PatentCiteCountReducer.class);

		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(IntWritable.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(LongWritable.class);

		FileInputFormat.setInputPaths(job, new Path(
				"/patent/test/input/patentcitecount.txt"));
		FileOutputFormat.setOutputPath(job, new Path("/patent/test/outnput"));

		boolean success = job.waitForCompletion(true);

		return success ? 0 : 1;

	}

	public static void main(String[] args) throws Exception {
		int result = ToolRunner.run(new PatentCiteCount(), args);
		System.exit(result);
	}

}

分享到：

Hadoop 自定义数据类型实例 | Hadoop 统计专利被引用次数（二）

2013-11-23 16:14
浏览 748
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hadoop 统计不同引用次数的专利数目（三）

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hadoop 统计不同引用次数的专利数目（三）

评论

发表评论

相关推荐

lockInterruptibly 和lock的区别

Spring MVC 的单元测试实例

HTTPClient 简单使用

tomcat 配置虚拟主机实例

Eclipse3.6 安装EGit

ThreadPoolExecutor 中饱和策略分析

FutureTask 实例

ReadWriteLock 使用实例

安全发布单例模式

JAVA notifyAll wait 实例

获取机器CPU数量的方法

动态代理的实现

线程同步优化实例

JavaScript 遍历JSON 获取key value

计算器算法（支持加减乘除括号）

实用工具类 && CollectionUtils

解决fatal: unable to connect to github.com问题

JAVA多线程 Semaphore 应用

JAVA多线程 Exchanger 应用

Condition 在多线程协作中应用实例

最近访客更多访客>>