Hadoop 统计专利被引用次数（二）

bo_hai

浏览: 570647 次
性别:
来自: 武汉

最近访客更多访客>>

nison

alpenliebe

loris_jand

qst10141

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

一、在（一）中，我们计算出专利被那些专利所引用，在此基础上计算被引用的次数，不难实现。我们用两种方法来完成。代码（1）如下：

import java.io.IOException;

import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.KeyValueTextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

public class PatentCitationsCount extends Configured implements Tool{
	
	public static class PatentCitationsCountMapper extends Mapper<Text, Text, Text, IntWritable> {
		private final IntWritable length = new IntWritable();
		@Override
		protected void map(Text key, Text value, Context context) throws IOException, InterruptedException {
			String[] array = value.toString().split("[,]");
			length.set(array.length);
			context.write(key, length);
		}
	}
	
	public static class PatentCitationsCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
		private final IntWritable sumResult = new IntWritable();
		@Override
		protected void reduce(Text key, Iterable<IntWritable> values,Context context) throws IOException, InterruptedException {
			int sum = 0;
			for (IntWritable intWritable : values) {
				sum += intWritable.get();
			}
			sumResult.set(sum);
			context.write(key, sumResult);
		}
	}
	
	@Override
	public int run(String[] args) throws Exception {
		Job job = new Job(getConf());
		job.setJarByClass(getClass());
		job.setJobName("patentcitationscount");
		
		job.setMapperClass(PatentCitationsCountMapper.class);
		job.setReducerClass(PatentCitationsCountReducer.class);
		job.setCombinerClass(PatentCitationsCountReducer.class);
		
		job.setInputFormatClass(KeyValueTextInputFormat.class);
		job.setOutputKeyClass(TextOutputFormat.class);
		
		FileInputFormat.setInputPaths(job, new Path("/patent/test/input/patentcitationscount.txt"));
		FileOutputFormat.setOutputPath(job, new Path("/patent/test/outnput"));
		
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);
		
		boolean success = job.waitForCompletion(true);
		return success ? 0 : 1;
	}

	public static void main(String[] args) throws Exception {
		int result = ToolRunner.run(new PatentCitationsCount(), args);
		System.exit(result);
	}
	
}

代码2如下：

import java.io.IOException;

import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.KeyValueTextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

public class PatentCitationsCountOther extends Configured implements Tool {

	public static class CountOtherMapper extends Mapper<Text, Text, Text, Text> {

		@Override
		protected void map(Text key, Text value, Context context)
				throws IOException, InterruptedException {
			context.write(key, value);
		}
	}

	public static class CountOtherReducer extends
			Reducer<Text, Text, Text, IntWritable> {
		private IntWritable result = new IntWritable();

		@Override
		protected void reduce(Text key, Iterable<Text> values, Context context)
				throws IOException, InterruptedException {
			int sum = 0;
			for (Text text : values) {
				String[] array = text.toString().split("[,]");
				sum += array.length;
			}
			result.set(sum);
			context.write(key, result);
		}
	}

	@Override
	public int run(String[] args) throws Exception {
		Job job = new Job(getConf());
		job.setJarByClass(getClass());
		job.setJobName("patentcitationscountother");

		job.setMapperClass(CountOtherMapper.class);
		job.setReducerClass(CountOtherReducer.class);

		job.setInputFormatClass(KeyValueTextInputFormat.class);
		job.setOutputFormatClass(TextOutputFormat.class);

		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);

		FileInputFormat.setInputPaths(job, new Path(
				"/patent/test/input/patentcitationscount.txt"));
		FileOutputFormat.setOutputPath(job, new Path("/patent/test/outnput"));

		boolean success = job.waitForCompletion(true);

		return success ? 0 : 1;
	}

	public static void main(String[] args) throws Exception {
		int result = ToolRunner.run(new PatentCitationsCountOther(), args);
		System.exit(result);
	}
}

都可以实现相同的功能。但我不知道谁更好？

分享到：

Hadoop 统计不同引用次数的专利数目（三） | Hadoop 统计专利被那些专利所引用（一）

2013-11-23 16:03
浏览 927
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hadoop 统计专利被引用次数（二）

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hadoop 统计专利被引用次数（二）

评论

发表评论

相关推荐

lockInterruptibly 和lock的区别

Spring MVC 的单元测试实例

HTTPClient 简单使用

tomcat 配置虚拟主机实例

Eclipse3.6 安装EGit

ThreadPoolExecutor 中饱和策略分析

FutureTask 实例

ReadWriteLock 使用实例

安全发布单例模式

JAVA notifyAll wait 实例

获取机器CPU数量的方法

动态代理的实现

线程同步优化实例

JavaScript 遍历JSON 获取key value

计算器算法（支持加减乘除括号）

实用工具类 && CollectionUtils

解决fatal: unable to connect to github.com问题

JAVA多线程 Semaphore 应用

JAVA多线程 Exchanger 应用

Condition 在多线程协作中应用实例

最近访客更多访客>>