hadoop的inputformat包括他的子类reader是maptask读取数据的重要步骤
一、获得splits-mapper数
1. jobclinet的submitJobInternal,生成split,获取mapper数量
public
RunningJob submitJobInternal {
return ugi.doAs(new PrivilegedExceptionAction<RunningJob>() {
....
int maps = writeSplits(context, submitJobDir);//生成split,获取mapper数量
....
}}
jobclinet的writesplit方法
private int writeSplits(org.apache.hadoop.mapreduce.JobContext job, Path jobSubmitDir) throws IOException, InterruptedException, ClassNotFoundException { JobConf jConf = (JobConf)job.getConfiguration(); int maps; if (jConf.getUseNewMapper()) { maps = writeNewSplits(job, jobSubmitDir);//新api调用此方法 } else { maps = writeOldSplits(jConf, jobSubmitDir); } return maps; }2.writeNewSplits新api方法,反射inputformat类,调用getsplit方法,获取split数据,并排序,并返回mapper数量
private <T extends InputSplit> int writeNewSplits(JobContext job, Path jobSubmitDir) throws IOException, InterruptedException, ClassNotFoundException { Configuration conf = job.getConfiguration(); InputFormat<?, ?> input = ReflectionUtils.newInstance(job.getInputFormatClass(), conf);//反射到inputsplit List<InputSplit> splits = input.getSplits(job);//调用inputformat子类实现的getsplits方法 T[] array = (T[]) splits.toArray(new InputSplit[splits.size()]);//生成数组,这么简单的方法写的这么复杂,真够扯的,不懂这样为了什么 // sort the splits into order based on size, so that the biggest // go first Arrays.sort(array, new SplitComparator());//splits排序 JobSplitWriter.createSplitFiles(jobSubmitDir, conf, jobSubmitDir.getFileSystem(conf), array); return array.length;//mapper数量 }
3.贴上最常用的FileInputSplit的getSplits方法
public List<InputSplit> getSplits(JobContext job ) throws IOException { long minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job)); long maxSize = getMaxSplitSize(job); // generate splits List<InputSplit> splits = new ArrayList<InputSplit>(); List<FileStatus>files = listStatus(job); for (FileStatus file: files) { Path path = file.getPath(); FileSystem fs = path.getFileSystem(job.getConfiguration()); long length = file.getLen(); BlockLocation[] blkLocations = fs.getFileBlockLocations(file, 0, length); if ((length != 0) && isSplitable(job, path)) { long blockSize = file.getBlockSize(); long splitSize = computeSplitSize(blockSize, minSize, maxSize);//获得split文件的最大文件大小 long bytesRemaining = length; while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {//分解大文件 int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining); splits.add(new FileSplit(path, length-bytesRemaining, splitSize, blkLocations[blkIndex].getHosts())); bytesRemaining -= splitSize; } if (bytesRemaining != 0) { splits.add(new FileSplit(path, length-bytesRemaining, bytesRemaining, blkLocations[blkLocations.length-1].getHosts())); } } else if (length != 0) { splits.add(new FileSplit(path, 0, length, blkLocations[0].getHosts())); } else { //Create empty hosts array for zero length files splits.add(new FileSplit(path, 0, length, new String[0])); } } // Save the number of input files in the job-conf job.getConfiguration().setLong(NUM_INPUT_FILES, files.size()); LOG.debug("Total # of splits: " + splits.size()); return splits; }
二、读取keyvalue的过程
1.实例化inputformat,初始化reader
在MapTask类的runNewMapper方法中,生成inputformat和recordreader,并进行初始化,运行mapper
MapTask$NewTrackingRecordReader 由 RecordReader组成,是它的一个代理类
private <INKEY,INVALUE,OUTKEY,OUTVALUE> void runNewMapper { // 生成自定义inputformat org.apache.hadoop.mapreduce.InputFormat<INKEY,INVALUE> inputFormat = (org.apache.hadoop.mapreduce.InputFormat<INKEY,INVALUE>) ReflectionUtils.newInstance(taskContext.getInputFormatClass(), job); ..... //生成自定义recordreader org.apache.hadoop.mapreduce.RecordReader<INKEY,INVALUE> input = new NewTrackingRecordReader<INKEY,INVALUE> (split, inputFormat, reporter, job, taskContext); ..... //初始化recordreader input.initialize(split, mapperContext); ..... //运行mapper mapper.run(mapperContext); }
2.在运行mapper中,调用context让reader读取key和value,其中使用代理类MapTask$NewTrackingRecordReader,添加并推送读取记录
mapper代码:
public void run(Context context) throws IOException, InterruptedException { setup(context); while (context.nextKeyValue()) { map(context.getCurrentKey(), context.getCurrentValue(), context); } cleanup(context); }
MapContext代码:
@Override public boolean nextKeyValue() throws IOException, InterruptedException { return reader.nextKeyValue(); } @Override public KEYIN getCurrentKey() throws IOException, InterruptedException { return reader.getCurrentKey(); } @Override public VALUEIN getCurrentValue() throws IOException, InterruptedException { return reader.getCurrentValue(); }
MapTask$NewTrackingRecordReader的代码:
@Override public boolean nextKeyValue() throws IOException, InterruptedException { boolean result = false; try { long bytesInPrev = getInputBytes(fsStats); result = real.nextKeyValue();//recordreader实际读取数据 long bytesInCurr = getInputBytes(fsStats); if (result) { inputRecordCounter.increment(1);//添加读取记录 fileInputByteCounter.increment(bytesInCurr - bytesInPrev);//记录读取数据 } reporter.setProgress(getProgress());//将reporter的flag置为true,推送记录信息 } catch (IOException ioe) { if (inputSplit instanceof FileSplit) { FileSplit fileSplit = (FileSplit) inputSplit; LOG.error("IO error in map input file " + fileSplit.getPath().toString()); throw new IOException("IO error in map input file " + fileSplit.getPath().toString(), ioe); } throw ioe; } return result; }
3.执行完mapper方法,返回到maptask,关闭reader
mapper.run(mapperContext); input.close();//关闭inputformat output.close(mapperContext);
两个步骤不在同一个线程中完成,生成splits后进入monitor阶段
以上也调用了所有的inputformat虚类的所有方法
相关推荐
7. **扩展性与插件开发**:学习如何为Hadoop开发自定义InputFormat、OutputFormat、Partitioner、Combiner等组件。 8. **实战项目**:结合实际案例,运用所学知识解决大数据处理问题,如日志分析、推荐系统等。 ...
同时,源码包也方便了开发者进行扩展和优化,例如自定义InputFormat、OutputFormat、Partitioner、Reducer等,以适应特定的业务需求。 此外,由于这个源码包是基于Maven结构生成的,所以它应该包含了所有依赖项的...
Hadoop提供了一套API,允许开发者处理各种数据格式,如TextInputFormat、SequenceFileInputFormat等,以及自定义InputFormat以适应特定的数据源。 4. **fs**: 文件系统接口(FileSystem API)位于此目录中,它抽象...
6. **扩展与定制**:理解源码后,可以对Hadoop进行各种定制,例如开发自定义InputFormat、OutputFormat、Partitioner、Comparator等,以适应特定的数据处理需求。 7. **性能优化**:通过阅读源码,可以发现可能的...
5. **数据输入与输出**:学习如何使用Hadoop的InputFormat和OutputFormat接口自定义数据格式,以及如何使用`hadoop fs`命令操作HDFS。 6. **应用程序开发**:掌握如何编写MapReduce程序,理解Mapper和Reducer的工作...
3. **数据输入与输出**:探讨InputFormat和OutputFormat接口,理解如何自定义输入输出格式以适应不同类型的数据源。 4. **错误处理与容错机制**:讲解Hadoop的检查点、重试和故障恢复策略,以确保任务的可靠性。 5...
- 通过阅读源码,开发者可以自定义Hadoop的行为,例如编写自定义InputFormat、OutputFormat或Partitioner。 - 调试工具,如Hadoop的日志系统和JMX监控,可以帮助定位和解决问题。 6. 性能优化 - 通过对源码的...
然后逐步深入源码,结合实际案例分析,例如研究如何自定义InputFormat、OutputFormat、Mapper和Reducer等组件。此外,熟悉Java编程语言和面向对象设计是必不可少的,因为Hadoop主要用Java实现。 总之,Hadoop脚本的...
对于Java开发者来说,深入Hadoop源码意味着可以自定义Hadoop的行为,创建更适合特定业务场景的解决方案。例如,你可以通过修改或扩展现有的InputFormat、OutputFormat、Mapper和Reducer来优化数据处理流程。 此外,...
1. **定义输入格式**:通常使用`TextInputFormat`或自定义的`InputFormat`。 2. **编写Map函数**:处理输入数据,产生中间键值对。 3. **编写Reduce函数**:处理中间键值对,产生最终结果。 4. **定义输出格式**:...
内容涵盖HDFS的JAVA API操作,如文件读取、写入、删除、元数据查询和文件列表等,以及MapReduce编程模型的多个应用,包括求平均数、Join操作、TopK算法、二次排序,并涉及自定义InputFormat、OutputFormat和shuflle...
源码中可以看到各种接口设计,使得开发者可以方便地开发自定义的InputFormat、OutputFormat、Partitioner和Reducer等,以适应不同的数据处理需求。 9. **源码学习方法** 理解Hadoop源码需要具备Java基础、网络知识...
在Hadoop的生态系统中,MapReduce是处理海量数据的一种编程模型,而InputFormat作为MapReduce编程模型的重要组成部分,是负责处理输入数据的关键接口。为了深入理解MapReduce工作原理,必须掌握InputFormat的设计和...
- `listing-4-1`至`listing-4-11`涵盖了数据输入格式的定义(如自定义InputFormat)以及数据输出格式(OutputFormat)的实现,这对于定制化数据处理流程至关重要。 4. **Hadoop配置与集群管理**: - 文件名未明确...
3. **MapReduce编程**:讲解如何编写Map和Reduce函数,包括键值对的处理、分区、排序和归约过程,以及自定义InputFormat和OutputFormat。 4. **Hadoop生态组件**:如HBase(分布式数据库)、Hive(数据仓库工具)、...
此外,Hadoop的源码还涵盖了如**InputFormat**和**OutputFormat**等接口,它们定义了数据输入和输出的格式。学习者可以通过分析源码理解如何自定义这些接口以支持不同的数据源和目标。 在Hadoop生态中,还有诸如**...
5. **实战应用**:通过源码分析,开发者可以学习如何定制Hadoop,如调整配置参数以优化性能,开发自定义InputFormat、OutputFormat、Partitioner等,满足特定的数据处理需求。 6. **性能优化**:源码分析有助于识别...
2. 功能扩展:Hadoop提供了丰富的API,允许开发人员根据需求扩展其功能,如自定义InputFormat、OutputFormat、Partitioner等。源码中包含了大量的示例,可以帮助我们更好地理解和使用这些接口。 四、Hadoop在实际...
此外,`Hadoop`框架还提供了丰富的工具和类库,如JobTracker和TaskTracker(在Hadoop 2.x版本中被YARN取代),用于任务调度和资源管理,以及InputFormat和OutputFormat接口,用于自定义数据输入和输出格式。...