Hadoop利用Partitioner对输出文件分类

superlxw1234

浏览: 551390 次
性别:
来自: 西安

最近访客更多访客>>

huageng520

rattersnake

yuanyuan7891

ticojj

博主相关

博客

微博

相册

留言

关于我

博客专栏

: Hive入门
浏览量：44446

文章分类

社区版块

存档分类

博客分类：

hadoop

需求描述：

1. 对文件1.txt中统计每个单词的个数(wordcount)$ cat 1.txt

aa
bb
aa
dd
ff
rr
ee
aa
kk
jj
hh
uu
ii
tt
rr
tt
oo
uu

2. 输出文件限定为两个，其中一个存放aa~kk之间的单词，另外一个存放ll~zz之间的单词

解决方法：

MR默认的reduce输出分区为HashParition

public class HashPartitioner<K, V> extends Partitioner<K, V> { 

  /** Use {@link Object#hashCode()} to partition. */ 
  public int getPartition(K key, V value, 
                          int numReduceTasks) { 
    return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks; 
  } 

}

重写改方法即可：

private static class MyPartitioner extends Partitioner<Text,IntWritable> {
		@Override
		public int getPartition(Text key, IntWritable value, int numReduceTasks) {
			if (key.toString().compareTo("aa") >= 0 && key.toString().compareTo("kk") <= 0) {
				return 0;
			} else {
				return 1;
			}
		}
	}

设定conf和job参数：

conf.set("mapred.reduce.tasks", "2");
job.setPartitionerClass(MyPartitioner.class);

输出结果：

$ hadoop fs -cat /lxw/output/part-r-00000
aa      3
bb      1
dd      1
ee      1
ff      1
hh      1
ii      1
jj      1
kk      1

$ hadoop fs -cat /lxw/output/part-r-00001
oo      1
rr      2
tt      2
uu      2

分享到：

namenode启动时候都做了什么 | cygwin中安装hadoop+eclipse编译源码并调试

2012-04-23 15:32
浏览 2219
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

Hadoop利用Partitioner对输出文件分类

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

Hadoop利用Partitioner对输出文件分类

评论

发表评论

相关推荐

MapReduce和Hive支持递归子目录作为输入

Hadoop生态系统官网、下载地址、文档

大数据平台任务调度监控系统

Hive over HBase和Hive over HDFS性能比较分析

MapReduce直接连接Mysql获取数据

MapReduce读取HDFS,将结果写入MongoDB

Kerboers认证由于和Master时间不同步导致的错误

hadoop mapreduce程序jar包版本冲突解决方法

hadoop mapreduce程序jar包版本冲突解决方法

windows上编译eclipse-plugin for hadoop-0.20.2-cdh3u3

hadoop-error:DiskChecker$DiskErrorException: Invalid volume failure config value

hbase错误 ZooKeeperConnectionException

【收藏】hadoop hdfs命令

hive本地mr

base64加密解密的hive udf函数

使用kerberos的hadoop选择java版本需注意

【转】Jobtracker重启Job recovery过程分析

windows下用eclipse连接linux中的hadoop,并执行mr

hadoop修改kerberos默认的配置文件

mapreduce报错：java.io.IOException: Split metadata size exceeded 10000000.

最近访客更多访客>>