org.apache.hadoop.mapreduce.InputFormat 是一个抽象类,
关于这个抽象类的功能描述如下:
1、首先为Job验证输入;
2、将输入的文件分成逻辑上的splits,每个split会被应用到一个单独的mapper上;
3、提供RecorderReader的实现,用来从逻辑split中一点一点的收集数据到mapper中。
这个抽象类中,有两个抽象方法需要实现:
1. public abstract List<InputSplit> getSplits(JobContext context) throws IOException, InterruptedException;
从方法名和它的返回类型就可以猜到,这个接口主要责任就是将一大堆的输入文件分成一系列的splits(每个split是用一个InputSplit对象来表示)。然后每个InputSplit被传递给不同的mapper进行处理。但是要注意,分片仅仅是逻辑上的分片,并不是真地将文件分成多块了。一个分片可以用(输入文件路径,开始位置,偏移量)元组来表示。
2. public abstract RecordReader<K,V> createRecordReader(InputSplit split, TaskAttemptContext context ) throws IOException, InterruptedException;
这个接口的责任是返回一个读取器,来读取这种InputFormat的分片文件,至于怎么读取,就是一种读取策略了,Hadoop框架自身实现了一些,我们当然也可以实现自己的策略满足自己的需求。
在Hadoop中最常用的就是文件作为 job 的输入,这个是由抽象类 FileInputFormat 和 其子类来实现的,它将输入的文件按照大小进行分片。文件系统的块大小被看作是分片的一个上界。下界可以通过设定mapred.min.split.size来指定。基于文件大小的这种逻辑分片方法有的时候是低效的,因为这个时候我们必须去关注边界上的记录是否完整并做出特殊处理,只有这样处理之后,确保没有中间截断的记录,这样才能够传递给mapper来进行进一步的处理。
其中的FileInputFormat继承自InputFormat,但是只是实现了getSplits方法,另一个获取读取器的方法没有实现,这样做是有道理的,因为很多不同格式的文件需要使用不同的读取器来提取数据,比如lzo压缩后的文件的读取器,要先解压后才能读取。
源代码中形成splits列表的逻辑大概是这样的:
首先会从 job 对象中所有的输入文件的列表提取出来
List<FileStatus>files = listStatus(job);
然后就要对每个文件进行逻辑分片了,
分片的逻辑大概是这样的:
首先计算这个文件的长度(按照字节),然后将这个文件的块信息拿出来。如果这个文件可以被分片并且长度不是0,那么就开始进行逻辑分片。每个分片的大小通过函数computeSplitSize来计算。然后如果文件的剩余长度是分块的1.1倍以上的话,就创建一个新分片:
splits.add(new FileSplit(path, length-bytesRemaining, splitSize, blkLocations[blkIndex].getHosts()));
进而,将剩余长度减去已经被分配掉的splitSize,这样循环直到不满足条件。等循环完成之后,如果还有剩余的部分,那么剩下就可以再做一个分片,加入到列表中。
但是,如果我们一开始输入的文件的大小是不可分割的话,那么我们就把整个文件作为一个分片,形成一个实例:
splits.add(new FileSplit(path, 0, length, blkLocations[0].getHosts()));
如果这个文件是可分割的,但是长度是0,也做一个默认的分片:
splits.add(new FileSplit(path, 0, length, new String[0]));
这样,文件的分片列表就产生了,然后读取器就可以从这些分片中按照相应的读取逻辑来读取数据,并交给mapper进行处理了。
分享到:
相关推荐
映射文件输入格式MapFiles 的 Hadoop InputFormat,它在将任何内容传递给映射器之前过滤不相关的 FileSplits。目的假设您的文件系统中有一些带有排序键的非常大的文件,并且键已排序。 在编写 MapReduce 作业时,您...
Apache Hive 的 InputFormat,在查询 SequenceFiles 时将返回 (Text) 键和 (Text) 值。 我需要在不拆分内容的情况下完整解析大量文本文件。 HDFS 在处理大型连续文件时提供最佳吞吐量,因此我使用 Apache Mahout 将...
1. **创建一个新的类**:首先,你需要创建一个继承自`org.apache.hadoop.mapreduce.InputFormat`的类。这个类将覆盖父类的方法来实现自定义的输入处理逻辑。 2. **实现`getSplits()`方法**:此方法用于将输入数据...
- `mapreduce.inputformat.class`:指定输入格式的实现类; - `mapreduce.map.class`:指定Mapper的实现类; - `mapreduce.combine.class`:指定Combiner的实现类(如果有的话); - `mapreduce.reduce.class`:...
例如,使用Hadoop的InputFormat和OutputFormat接口,开发者可以定义自定义的数据输入和输出格式。同时,Hadoop的Configuration类使得配置参数变得简单,而FileSystem API则允许开发者操作HDFS上的文件。 在实际开发...
在Hadoop的生态系统中,MapReduce是处理海量数据的一种编程模型,而InputFormat作为MapReduce编程模型的重要组成部分,是负责处理输入数据的关键接口。为了深入理解MapReduce工作原理,必须掌握InputFormat的设计和...
Hadoop 代码使用方式 ...hadoop jar hadoop-mapreduce-custom-inputformat-1.0-SNAPSHOT.jar org.apache.hadoop.mapreduce.sample.SmallFileWordCount -Dmapreduce.input.fileinputformat.split.maxsize=10
这个库提供了Hadoop InputFormat、OutputFormat、RecordReader和RecordWriter,使得Elasticsearch可以作为Hadoop作业的数据源和目标。 在Hadoop 2.4.0版本中,引入了一些关键改进,如YARN(Yet Another Resource ...
这个文档集合应该是关于Hadoop开发者的下载资源,可能包含了源代码、开发工具和其他相关资料。由于没有具体的描述,我将根据一般Hadoop开发者的常见需求来阐述相关知识点。 1. **Hadoop概述**:Hadoop是由Apache...
2. **Chap 2 - 数据输入与输出**:这章可能包含如何使用Hadoop的InputFormat和OutputFormat类来定义数据的读取和写入方式。读者可以学习如何自定义输入分片(Splits)和Mapper/Reducer任务。 3. **Chap 3 - ...
在使用Hadoop-LZO之前,需要将其添加到Hadoop的类路径中。这通常涉及到编译源代码,生成jar包,并将其复制到Hadoop的lib目录下。然后,在Hadoop的配置文件中,如core-site.xml或mapred-site.xml,设置相应的参数,如...
Hadoop-0.20.1+API是一个关于Hadoop早期版本(0.20.1)的API参考文档,以CHM(Compiled Help Manual)格式呈现,适用于那些需要深入理解Hadoop框架以及其编程接口的开发者和系统管理员。CHM文件是一种微软编译的帮助...
在Java接口中,主要通过`org.apache.hadoop.fs`包下的类与HDFS进行交互。 1. **文件系统接口**: Hadoop的`FileSystem`接口是所有文件操作的基础。你可以通过`FileSystem.get()`方法获取一个`FileSystem`实例,...
7. **扩展性与插件开发**:学习如何为Hadoop开发自定义InputFormat、OutputFormat、Partitioner、Combiner等组件。 8. **实战项目**:结合实际案例,运用所学知识解决大数据处理问题,如日志分析、推荐系统等。 ...
在压缩包文件"org"中,可能包含了Hadoop相关的源代码或库文件,这些通常是Hadoop项目的组成部分,如`org.apache.hadoop.*`包下的各种类,它们提供了Hadoop的核心功能和接口。通过深入研究这些源代码,开发者可以更好...
7. **org.apache.hadoop.metrics**: 提供了度量和监控Hadoop组件性能的API,如`MetricsContext`和`MetricsRecord`,可以收集并报告关于Hadoop守护进程的统计信息。 8. **org.apache.hadoop.record**: 设计用于处理...
4. **I/O库和接口**:Hadoop Common还提供了各种I/O接口和类,如InputFormat和OutputFormat接口,用于定义数据读取和写入的方式;RecordReader和RecordWriter,处理输入和输出记录的类;以及各种压缩和编码算法,如...
在Hadoop中文版API文档中,开发者可以找到关于Hadoop的主要模块和接口的详细描述,例如: 1. HDFS API:包括DFSClient、FileSystem、FSDataInputStream和FSDataOutputStream等类,用于文件系统的操作。 2. MapReduce...
- **Hadoop API**:学习如何使用Hadoop API开发MapReduce程序,理解和使用InputFormat、OutputFormat、Mapper、Reducer等关键类。 - **本地模式**:开发者可以在单机上运行Hadoop,进行快速测试和调试,无需真实...
API文档中的类和接口,如FileSystem、InputFormat、OutputFormat、Mapper、Reducer等,都是Hadoop编程的关键元素。 三、Hadoop Common API Hadoop Common是所有Hadoop模块的基础,包含网络、I/O、安全、配置等方面...