Hadoop之InputFormat

小网客

浏览: 1256911 次
性别:
来自: 北京

最近访客更多访客>>

aoyouzi

jis117

emaiqi

duguyixiaono1

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

MapReduce

版本：

2.2版

描述：

InputFormat是为了读取的时候设置的输入格式，比如我们如果打算在MR的时候读文件那么我们就需要知道文件的路径以及每次mapper多少，InputFormat正是基于这个需求提出来的，也就是定义读取规则。

用途：

1.怎么读

2.从那读

首先看下InputFormat抽象类的定义

public abstract 
    List<InputSplit> getSplits(JobContext context
                               ) throws IOException, InterruptedException;
public abstract 
    RecordReader<K,V> createRecordReader(InputSplit split,
                                         TaskAttemptContext context
                                        ) throws IOException, 
                                                 InterruptedException;

那么getSplits中定义的就是从那读，而怎么读是在createRecordReader中定义的，我们可以看下InputSplit的定义：

public abstract long getLength() throws IOException, InterruptedException;
public abstract String[] getLocations() throws IOException, InterruptedException;

其实这个定义如果是接口那么不是很确切，这个准确的来讲是保存数据的地址以及读所用的其他资源因此用新版开始以抽象类形式出现而不是接口，具体的实现还需要根据自己的需要进行相应的添加。

那么读的抽象定义如下：

public abstract void initialize(InputSplit split, TaskAttemptContext context)
		throws IOException, InterruptedException;

public abstract boolean nextKeyValue() throws IOException,
		InterruptedException;

public abstract KEYIN getCurrentKey() throws IOException,
		InterruptedException;

public abstract VALUEIN getCurrentValue() throws IOException,
		InterruptedException;

public abstract float getProgress() throws IOException,
		InterruptedException;

public abstract void close() throws IOException;

那么这个就可以直接获取到对应的当前Value等数据信息

其他场景：

如果打算以mysql某表的数据作为输入源那么只需要继承此类即可(已经有实现不过需要自己重新定义DBWritable)

0
顶

1
踩

分享到：

ExecutorService使用概述 | Hadoop之BloomFilter

2014-01-17 16:16
浏览 996
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hadoop之InputFormat

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hadoop之InputFormat

评论

发表评论

相关推荐

Hadoop的MR中获取JobTracker配置

Hadoop之YARN安装部署

Yarn下的YarnChild启动个数决定参数

HDFS超租约异常（org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException）

hive执行hql脚本

NNBench执行过程和参数说明

yarn下的hdfs和mr性能调优参数一览表

hive安装部署之单用户模式

Hadoop之SafeModeException问题解决

Hadoop之RandomTextWriter使用

Hadoop之RandomTextWriter说明

Hadoop之mrbench

Hadoop之TestDFSIO

Hadoop之BloomFilter

HDFS Federation综述

Hadoop获取文件的元数据信息

Hadoop以某目录下的所有目录作为input源方式

Hadoop中map reduce和client共享数据源的方式

DataNode: Exception in BPOfferService for Block pool BP解决方法

[YARN]Apache Hadoop 2.2.0YARN技术架构[翻译]

最近访客更多访客>>