`
小网客
  • 浏览: 1244347 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Hadoop的OutputFormat和InputFormat

阅读更多

        Hadoop用于数据的输入和输出,需要指定OutputFormat和InputFormat,这两个类的目的是为了指明读数据和写数据相关的包括格式等信息。

InputFormat:

 

 public abstract 
    List<InputSplit> getSplits(JobContext context
                               ) throws IOException, InterruptedException;
  public abstract 
    RecordReader<K,V> createRecordReader(InputSplit split,
                                         TaskAttemptContext context
                                        ) throws IOException, 
                                                 InterruptedException;

createRecordReader:指明具体的读操作

 

getSplits:获取要读的数据块

我们可以看到InputSplit的类:

 

public abstract long getLength() throws IOException, InterruptedException;

public abstract 
    String[] getLocations() throws IOException, InterruptedException;

具体的路径和长度

 

OutputFormat:

 

  public abstract RecordWriter<K, V> 
    getRecordWriter(TaskAttemptContext context
                    ) throws IOException, InterruptedException;
  public abstract void checkOutputSpecs(JobContext context
                                        ) throws IOException, 
                                                 InterruptedException;
  public abstract 
  OutputCommitter getOutputCommitter(TaskAttemptContext context
                                     ) throws IOException, InterruptedException;

getRecordWriter:具体记录的写的方式

 

checkOutputSpecs:检测数据输出空间

getOutputCommitter:写flush操作

 

0
2
分享到:
评论

相关推荐

    实战hadoop中的源码

    7. **扩展性与插件开发**:学习如何为Hadoop开发自定义InputFormat、OutputFormat、Partitioner、Combiner等组件。 8. **实战项目**:结合实际案例,运用所学知识解决大数据处理问题,如日志分析、推荐系统等。 ...

    hadoop2lib.tar.gz

    例如,使用Hadoop的InputFormat和OutputFormat接口,开发者可以定义自定义的数据输入和输出格式。同时,Hadoop的Configuration类使得配置参数变得简单,而FileSystem API则允许开发者操作HDFS上的文件。 在实际开发...

    hadoop-lzo-master.zip

    Hadoop-LZO不仅提供了对LZO压缩格式的支持,还包含了用于Hadoop的InputFormat和OutputFormat,使得Hadoop可以直接处理LZO压缩的数据。 二、LZO压缩算法 LZO(Lempel-Ziv-Oberhumer)是一种实时数据压缩算法,它...

    自定义inputFormat&&outputFormat1

    自定义inputFormat&&outputFormat1

    hadoop-2.7.3源码和安装包.zip

    5. **数据输入与输出**:学习如何使用Hadoop的InputFormat和OutputFormat接口自定义数据格式,以及如何使用`hadoop fs`命令操作HDFS。 6. **应用程序开发**:掌握如何编写MapReduce程序,理解Mapper和Reducer的工作...

    mapreduce在hadoop实现词统计和列式统计

    此外,Hadoop支持自定义InputFormat和OutputFormat,以适应不同格式的数据源和结果输出需求。 总结,MapReduce通过分布式计算能力,使得在Hadoop平台上处理大规模数据变得更加高效和便捷。无论是简单的词统计还是...

    hadoop-common-2.7.1-bin-master.zip

    4. **I/O库和接口**:Hadoop Common还提供了各种I/O接口和类,如InputFormat和OutputFormat接口,用于定义数据读取和写入的方式;RecordReader和RecordWriter,处理输入和输出记录的类;以及各种压缩和编码算法,如...

    Hadoop Real-World Solutions Cookbook 源代码

    2. **Chap 2 - 数据输入与输出**:这章可能包含如何使用Hadoop的InputFormat和OutputFormat类来定义数据的读取和写入方式。读者可以学习如何自定义输入分片(Splits)和Mapper/Reducer任务。 3. **Chap 3 - ...

    hadoop 文档:Hadoop开发者下载

    4. **Hadoop API**:学习使用Hadoop API进行数据读写和处理,例如FileSystem API用于文件操作,InputFormat和OutputFormat定义输入输出格式,Mapper和Reducer实现数据处理逻辑。 5. **MapReduce编程**:理解...

    探索HadoopOutputFormat

    上个月InfoQ展示了怎样在第一个步骤中,使用InputFormat类来更好地对接收输入文件进行控制。而在本文中,我们将同大家一起探讨怎样自定义最后一个步骤——即怎样写入输出文件。OutputFormat将Map/Reduce作业的输出...

    Hadoop-0.20.1+API

    3. **MapReduce API**:掌握如何编写Mapper和Reducer类,理解InputFormat、OutputFormat以及Partitioner的工作原理,以及JobConf配置的使用。 4. **Hadoop配置**:了解如何通过XML配置文件设置Hadoop集群参数,例如...

    Hadoop开发者入门-带书签文字版

    6. **数据输入与输出**:学习如何使用Hadoop的InputFormat和OutputFormat,以及RecordReader和RecordWriter,实现对不同格式数据的读写。 7. **Hadoop安全**:理解Hadoop的安全特性,如Kerberos认证、访问控制列表...

    hadoop-3.1.3-src.tar.gz

    - **Hadoop API**:学习如何使用Hadoop API开发MapReduce程序,理解和使用InputFormat、OutputFormat、Mapper、Reducer等关键类。 - **本地模式**:开发者可以在单机上运行Hadoop,进行快速测试和调试,无需真实...

    Hadoop源代码分析

    用户可以通过自定义InputFormat和OutputFormat来处理特定格式的数据。 4. **Mapper与Reducer**:Mapper是用户编写的数据处理逻辑,通常用于过滤、转换数据。Reducer则负责聚合Mapper的输出,进行汇总或计算。在某些...

    Hadoop高级编程- 构建与实现大数据解决方案

    6. **数据输入和输出格式**:学习自定义InputFormat和OutputFormat,以处理非标准格式的数据,如CSV、JSON或其他定制格式。 7. **错误处理和容错机制**:理解Hadoop的检查点、故障检测和恢复策略,以及如何在代码中...

    Hadoop 0.20.2 API文档

    对于MapReduce,API文档详细描述了JobTracker和TaskTracker的交互,以及Job、InputFormat、OutputFormat、Mapper和Reducer等关键类的使用。`Job`类是整个MapReduce作业的管理对象,可以设置作业配置、提交作业并监控...

    flink-shaded-hadoop-2-uber-2.6.5-10.0.zip

    1. **数据读写**:Flink通过Hadoop的InputFormat和OutputFormat接口,可以读取和写入Hadoop支持的各种数据源,如HDFS、HBase等。这使得Flink可以方便地访问Hadoop生态系统中的存储系统,进行大规模的数据处理。 2. ...

    Hadoop源码分析 第一章 Hadoop脚本

    然后逐步深入源码,结合实际案例分析,例如研究如何自定义InputFormat、OutputFormat、Mapper和Reducer等组件。此外,熟悉Java编程语言和面向对象设计是必不可少的,因为Hadoop主要用Java实现。 总之,Hadoop脚本的...

    基于Java的Hadoop HDFS和MapReduce实践案例设计源码

    内容涵盖HDFS的JAVA API操作,如文件读取、写入、删除、元数据查询和文件列表等,以及MapReduce编程模型的多个应用,包括求平均数、Join操作、TopK算法、二次排序,并涉及自定义InputFormat、OutputFormat和shuflle...

    Hadoop实现大矩阵乘法

    1. Hadoop的MapReduce编程模型,包括InputFormat、Mapper、Partitioner、Reducer和OutputFormat等组件的作用。 2. Java的IO流和序列化,因为数据需要在网络间传输和持久化。 3. 分布式计算中的数据分区和排序,这...

Global site tag (gtag.js) - Google Analytics