读书笔记2：Hadoop组件-（3）读与写

sunasheng

浏览: 125047 次
性别:
来自: 北京

最近访客更多访客>>

czl026

爱吃甜甜甜的sweet

foxinmy

infoflow

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (97)

社区版块

存档分类

hadoop

4,读和写

MapReduce读取输入数据以及写入数据支持多种数据格式。输入数据通常驻留在较大的文件中（通常是几十或者几百 GB 甚至更大）， MapReduce 处理数据的原理是将其分割成为块，这些块可以在多个计算机上并行处理，在 hadoop 中这样的操作被称为“分片”。每个分片足够小以实现更细粒度的并行，但是也不能太小，否则启动和停止各个分片处理所需的时间开销比较大。

Hadoop读取文件使用 FSDataInputStream 而不是用 DataInputStream 是因为 FSDataInputStream 对 DataInputStream 进行了改进， FSDataInputStream 可以实现随机读取，这就更加符合 hadoop 处理数据的“分块”策略了。

Hadoop默认将每一行作为一条记录，而键值分别为改行的字节偏移和内容。也许不会所有的数据都如此记录，所以 hadoop 支持多种数据格式，也支持自定义数据格式。

<1>InputFormat

Hadoop分割和读取文件的方式被定义在 InputFormat 接口的一个实现中。 TextInputFormat 是 InputFormat 的一个默认的实现。

常用的InputFormat 的实现类：

TextInputFormat	在文本文件中的每一行为一个记录，键为一行的字节偏移，值为一行的内容 Key： LongWritable Value： Text
KeyValueText InputFormat	在文本文件中的每一行为一个记录，以每行的第一个分隔符为界，分隔符之前的是键，之后的是值，分离器在属性key,value.separator.in.input.line 中设定，默认为制表符 (\t) Key:Text Value:Text
SequenceFile InputFormat<K,V>	用于读取序列文件的InputFormat 。键和值由用户定义。序列文件为 Hadoop 专用的压缩二进制文件格式，他专用于一个 MapReduce 作业和其他 MapReduce 作业之间传递数据。 Key， Value ：用户自定义
NLine InputFormat	与TextInputFormat 相同，但每个分片一定有 N 行， N 在属性 mapred.line.input.format.linespermap 中设定，默认是 1 Key： LongWritable Value:Text

当Hadoop 分割和读取文件的格式是 KeyValueText InputFormat时，那么 Mapper 中的 map 方法就必须得有新的实现来符合这个新的键的类型。（因为当分割读取格式为 T ext InputFormat时， key 的类型是 LongWirtable ，而分割读取格式为 KeyValueText InputFormat时， key 的类型是 Text ，所以 map 方法的实现要改）

注意：对于MapReduce 的输入的数据不一定都来自于外部，可能这个 MapReduce 的输入数据是其他 MapReduce 的输出数据。并且你还可以按照自己的要求去定义自定义的 InputFormat 。

<2>OutputFormat

当MapReduce 输出数据到文件时，用到的是 OutputFormat 类，输出无需分片，输出文件放在一个公用目录中，通常被命名为 part-nnnnn( 这里的 nnnnn 是 reducer 的分区 ID)

RecordWirter将输出结果进行格式化，为 RecoreReader 对输入格式进行解析。

所有的OutputFormat 都是从 FileOutputFormat 继承来的

所有的InputFormat 都是从 FileInputFormat 继承来的

你可以通过调用JobConf 对象的 setOutputFormat 方法来定制 OutputFormat 。

以下是常用的OutputFormat 的实现类：

TextOutputFormat<K,V>	将每个记录写为一行文本，键和值已字符串形式写入，已制表符分割。这个分隔符可以在属性mapred.textoutputformat.sqparator 中修改
SequeneceFileOutputFormat<K,V>	以Hadoop 专有序列文件格式写入键值对，与 SequenceFileInputFormat 配合使用
NullOutputFormat<K,V>	无输出