浅谈MapReduce编程二

fushengfei

浏览: 212390 次
性别:
来自: 北京

最近访客更多访客>>

Sobfist

kidlovec

413899327

gaoshaoye

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

分布式计算

编程 Mapreduce Hadoop

五、输入格式InputFormat

1、实现了InputFormat接口的类负责输入文件的分片方式和读取。

2、常用的InputFormat子类

TextInputFormat :文件的每一行被记录，行的字节偏移量作为key,行的内容作为值

Key:LongWritable,value:Text

KeyValueTextInputFormat:文件中的每一行被记录，每行中用一个分离器进行分离，分离器前面的为Key，分离器后面的为value,分离器可以由key.value.separator.in.input指定。默认的分离器为（\t）Key:Text Value:Text

SequenceFileInputFormat<K,V> :可以作为Mapreduce任务中间传递。Key:用户自定义

Value：用户自定义

3、InputFormat接口原型

 public interface InputFormat<K,V>{

        InputSplit[] getSplits(JobConf job,int numSplits) throws IOException;

        RecordReader<K,V> getRecordReader(InputSplit split,

                      JobConf job,Reporter reporter)throws IOException;

        }

InputFormat的实现类负责如下任务

（1）确定作为输入数据的所有的输入文件，并把这些文件进行split操作。每个map任务处理一个split。

（2）提供一个对象，对给定split中的records进行迭代操作，将每个record解析成预定义的<key,value>类型。

FileInputFormat实现了InputFormat接口，在这个类中已经实现了getSplits方法，getRecordReader方法并没有实现。将该方法的实现延迟到FileInputFormat子类去完成。

RecordReader的接口原型

public interface  RecordReader<K,V>{
       Boolean next(K key,V value)throws IOException;
       K createKey();
       V createValue();
       Long getPos()throws IOException;
      public void close() throws IOException;
      Float getProgress()  throws IOException;
      }

Hadoop中实现的RecordReader接口的子类有：LineRecordReader、KeyValueLineRecordReader

分享到：

浅谈MapReduce编程三 | 浅谈MapReduce编程一

2010-12-03 12:28
浏览 1820
评论(0)
分类:企业架构
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论