Hadoop的OutputFormat和InputFormat

小网客

浏览: 1249217 次
性别:
来自: 北京

最近访客更多访客>>

aoyouzi

jis117

emaiqi

duguyixiaono1

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

MapReduce

hadoop

Hadoop用于数据的输入和输出，需要指定OutputFormat和InputFormat，这两个类的目的是为了指明读数据和写数据相关的包括格式等信息。

InputFormat：

 public abstract 
    List<InputSplit> getSplits(JobContext context
                               ) throws IOException, InterruptedException;
  public abstract 
    RecordReader<K,V> createRecordReader(InputSplit split,
                                         TaskAttemptContext context
                                        ) throws IOException, 
                                                 InterruptedException;

createRecordReader：指明具体的读操作

getSplits：获取要读的数据块

我们可以看到InputSplit的类：

public abstract long getLength() throws IOException, InterruptedException;

public abstract 
    String[] getLocations() throws IOException, InterruptedException;

具体的路径和长度

OutputFormat：

  public abstract RecordWriter<K, V> 
    getRecordWriter(TaskAttemptContext context
                    ) throws IOException, InterruptedException;
  public abstract void checkOutputSpecs(JobContext context
                                        ) throws IOException, 
                                                 InterruptedException;
  public abstract 
  OutputCommitter getOutputCommitter(TaskAttemptContext context
                                     ) throws IOException, InterruptedException;

getRecordWriter：具体记录的写的方式

checkOutputSpecs：检测数据输出空间

getOutputCommitter：写flush操作

0
顶

2
踩

分享到：

Hadoop中Writable和WritableComparable | 数据库切分之垂直切分

2013-04-10 14:34
浏览 1331
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hadoop的OutputFormat和InputFormat

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hadoop的OutputFormat和InputFormat

评论

发表评论

相关推荐

Hadoop的MR中获取JobTracker配置

Hadoop之YARN安装部署

Yarn下的YarnChild启动个数决定参数

HDFS超租约异常（org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException）

hive执行hql脚本

NNBench执行过程和参数说明

yarn下的hdfs和mr性能调优参数一览表

hive安装部署之单用户模式

Hadoop之SafeModeException问题解决

Hadoop之RandomTextWriter使用

Hadoop之RandomTextWriter说明

Hadoop之mrbench

Hadoop之TestDFSIO

Hadoop之InputFormat

Hadoop之BloomFilter

HDFS Federation综述

Hadoop获取文件的元数据信息

Hadoop以某目录下的所有目录作为input源方式

Hadoop中map reduce和client共享数据源的方式

DataNode: Exception in BPOfferService for Block pool BP解决方法

最近访客更多访客>>