`
城的灯
  • 浏览: 152217 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

hadoop自定义InputFormat

    博客分类:
  • 2011
 
阅读更多

本文转自:http://www.randyho.com/?p=41

 

接触hadoop一年多了,但是自己一直没有用hadoop写过什么程序。最近,由于项目需要,将一些文件转换成hadoop的MapFile。网上的例子基本是直接处理文本输入,自定义输入格式的见到两个,但是都是用的旧的API,用新API写的还没有,可能高手不屑于写这些。但是处理自定义输入是每个用hadoop的人都要学会才行的,因为不是每个人的输入都是文本文件。

数据输入是hadoop的第一步,不能读自己的数据,后面的处理就无从谈起。文本格式处理起来容易些,对于二进制格式的文件,虽然hadoop有一个SequenceFileInputFormat,可以先把自己的数据转成SequenceFile,再处理,但是这样要多一倍的处理时间、存储空间。无奈之下,参考了hadoop的源代码,自己写了个ConverterInputFormat,在这里贴出来,供大家参考。

代码是基于hadoop 0.20的,其中的FetcherOutput是用Java的DataOutputStream写入到本地磁盘的,可以换成自己想要的格式。
ConvertertRecordReader好像必须有个默认的构造器。

 

 

package com.randyho.hadoop.converter;
 
import java.io.DataInputStream;
import java.io.IOException;
 
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.JobContext;
import org.apache.hadoop.mapreduce.RecordReader;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
 
import com.randyho.FetcherOutput;
 
public class ConverterInputFormat extends FileInputFormat<Text, FetcherOutput> {
 
  // Do not split files.
  protected boolean isSplitable(JobContext context, Path file) {
    return false;
  }
 
  public RecordReader<Text, FetcherOutput> createRecordReader(
      InputSplit split, TaskAttemptContext context) throws IOException,
      InterruptedException {
    return new ConvertertRecordReader();
  }
 
  class ConvertertRecordReader extends RecordReader<Text, FetcherOutput> {
 
    private DataInputStream dis;
    private Text key = null;
    private FetcherOutput value;
    private boolean more = true;
    private Configuration conf;
 
    public ConvertertRecordReader(){
      key = new Text();
      value = new FetcherOutput();
      more = true;
    }
 
    public void close() throws IOException {
      if (dis != null) {
        dis.close();
      }
    }
 
    public Text getCurrentKey() throws IOException, InterruptedException {
      return key;
    }
 
    public FetcherOutput getCurrentValue() throws IOException,
        InterruptedException {
      return value;
    }
 
    public float getProgress() throws IOException, InterruptedException {
      return more ? 0f : 100f;
    }
 
    public void initialize(InputSplit gensplit, TaskAttemptContext context)
        throws IOException, InterruptedException {
      FileSplit split = (FileSplit) gensplit;
      conf = context.getConfiguration();  
      Path file = split.getPath();
      FileSystem fs = file.getFileSystem(conf);
 
      System.out.println("reading: " + file);
 
      // open the file
      dis = fs.open(split.getPath());
    }
 
    public boolean nextKeyValue() throws IOException, InterruptedException {
      if (dis.available() != 0) {
        value.readFields(dis);
        key.set(value.getUrl());        
        return true;
      } else {
        more = false;
        return false;
      }
    }
  }
}
 

 

 

 

分享到:
评论

相关推荐

    自定义inputFormat&&outputFormat1

    自定义inputFormat&&outputFormat1

    自定义MapReduce的InputFormat

    5. **配置和使用自定义InputFormat**:在你的MapReduce作业中,通过设置`job.setInputFormatClass()`方法指定你的自定义InputFormat类。同时,如果需要,你还可以在JobConf中添加额外的配置参数来指导InputFormat和...

    hive inputformat

    开发者也可以根据需求自定义InputFormat以适应特定的数据格式。 2. **TextFile InputFormat** 默认情况下,Hive将所有数据视为TextFile格式,这意味着每个行被视为一个记录,每一行由制表符或逗号等分隔符拆分成...

    SequenceFileKeyValueInputFormat:自定义 Hadoop InputFormat

    Apache Hive 的 InputFormat,在查询 SequenceFiles 时将返回 (Text) 键和 (Text) 值。 我需要在不拆分内容的情况下完整解析大量文本文件。 HDFS 在处理大型连续文件时提供最佳吞吐量,因此我使用 Apache Mahout 将...

    Hive多字节分隔符解决方案.docx

    本文将介绍Hive多字节分隔符问题的解决方案,包括替换分隔符、RegexSerDe正则加载和自定义InputFormat三种方法。 应用场景 在实际工作中,我们遇到的数据往往不是非常规范化的数据,例如,我们会遇到以下两种情况...

    实战hadoop中的源码

    7. **扩展性与插件开发**:学习如何为Hadoop开发自定义InputFormat、OutputFormat、Partitioner、Combiner等组件。 8. **实战项目**:结合实际案例,运用所学知识解决大数据处理问题,如日志分析、推荐系统等。 ...

    hadoop2lib.tar.gz

    例如,使用Hadoop的InputFormat和OutputFormat接口,开发者可以定义自定义的数据输入和输出格式。同时,Hadoop的Configuration类使得配置参数变得简单,而FileSystem API则允许开发者操作HDFS上的文件。 在实际开发...

    基于Java的Hadoop HDFS和MapReduce实践案例设计源码

    内容涵盖HDFS的JAVA API操作,如文件读取、写入、删除、元数据查询和文件列表等,以及MapReduce编程模型的多个应用,包括求平均数、Join操作、TopK算法、二次排序,并涉及自定义InputFormat、OutputFormat和shuflle...

    hadoop2.7.3源码包,hadoop2.7.3zip源码包

    同时,源码包也方便了开发者进行扩展和优化,例如自定义InputFormat、OutputFormat、Partitioner、Reducer等,以适应特定的业务需求。 此外,由于这个源码包是基于Maven结构生成的,所以它应该包含了所有依赖项的...

    Hadoop源码分析 第一章 Hadoop脚本

    然后逐步深入源码,结合实际案例分析,例如研究如何自定义InputFormat、OutputFormat、Mapper和Reducer等组件。此外,熟悉Java编程语言和面向对象设计是必不可少的,因为Hadoop主要用Java实现。 总之,Hadoop脚本的...

    Hadoop高级编程- 构建与实现大数据解决方案

    6. **数据输入和输出格式**:学习自定义InputFormat和OutputFormat,以处理非标准格式的数据,如CSV、JSON或其他定制格式。 7. **错误处理和容错机制**:理解Hadoop的检查点、故障检测和恢复策略,以及如何在代码中...

    Hadoop Real-World Solutions Cookbook 源代码

    2. **Chap 2 - 数据输入与输出**:这章可能包含如何使用Hadoop的InputFormat和OutputFormat类来定义数据的读取和写入方式。读者可以学习如何自定义输入分片(Splits)和Mapper/Reducer任务。 3. **Chap 3 - ...

    hadoop 1.2.1核心源码

    Hadoop提供了一套API,允许开发者处理各种数据格式,如TextInputFormat、SequenceFileInputFormat等,以及自定义InputFormat以适应特定的数据源。 4. **fs**: 文件系统接口(FileSystem API)位于此目录中,它抽象...

    hadoop 2.5.2 源码

    - 通过阅读源码,开发者可以自定义Hadoop的行为,例如编写自定义InputFormat、OutputFormat或Partitioner。 - 调试工具,如Hadoop的日志系统和JMX监控,可以帮助定位和解决问题。 6. 性能优化 - 通过对源码的...

    尚硅谷大数据技术之Hadoop

    2. 自定义InputFormat和OutputFormat:展示如何根据数据格式定制输入输出格式,以适应不同的数据源和需求。 3. 键值对处理:通过自定义Partitioner、Comparator和Reducer,实现更复杂的键值对排序和分区逻辑。 4. ...

    Hadoop源代码分析(一)

    7. **扩展性与插件机制**:Hadoop允许用户自定义InputFormat、OutputFormat、Partitioner和Reducer等,源码分析可以帮助我们理解这些接口的实现,以及如何为特定需求定制Hadoop组件。 8. **Hadoop与其他组件的集成*...

    Hadoop源代码分析

    用户可以通过自定义InputFormat和OutputFormat来处理特定格式的数据。 4. **Mapper与Reducer**:Mapper是用户编写的数据处理逻辑,通常用于过滤、转换数据。Reducer则负责聚合Mapper的输出,进行汇总或计算。在某些...

    hadoop打造一个搜索引擎

    1. **爬虫实现**:如何使用Hadoop处理网络爬虫抓取的数据,可能涉及Hadoop Streaming或者自定义InputFormat和Mapper。 2. **解析与预处理**:介绍如何利用Hadoop对抓取的网页进行解析和预处理,比如去除停用词、词干...

    hadoop-2.7.3源码和安装包.zip

    5. **数据输入与输出**:学习如何使用Hadoop的InputFormat和OutputFormat接口自定义数据格式,以及如何使用`hadoop fs`命令操作HDFS。 6. **应用程序开发**:掌握如何编写MapReduce程序,理解Mapper和Reducer的工作...

    hadoop中文文档

    用户可以通过自定义InputFormat和OutputFormat来处理特定类型的数据。 8. **故障恢复与容错机制**:Hadoop具有内置的故障检测和恢复机制,如心跳检测、数据块的冗余复制等,以确保系统的稳定运行。如果DataNode或...

Global site tag (gtag.js) - Google Analytics