`
bit1129
  • 浏览: 1069567 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

【Avro三】Hadoop MapReduce读写Avro文件

    博客分类:
  • Avro
 
阅读更多

Avro是Doug Cutting(此人绝对是神一般的存在)牵头开发的。 开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的(使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景),因此Hadoop MapReduce集成Avro也就是自然而然的事情。

这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计,然后将计算结果作为Avro格式的数据写到目标文件中,主要目的是体会下Hadoop MapReduce操作Avro的基本流程和Avro提供的API

 

1. Maven依赖

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>learn</groupId>
    <artifactId>learn.avro</artifactId>
    <version>1.0-SNAPSHOT</version>

    <dependencies>
        <!--avro core-->
        <dependency>
            <groupId>org.apache.avro</groupId>
            <artifactId>avro</artifactId>
            <version>1.7.7</version>
        </dependency>

        <!--avro rpc support-->
        <dependency>
            <groupId>org.apache.avro</groupId>
            <artifactId>avro-ipc</artifactId>
            <version>1.7.7</version>
        </dependency>

        <!--avro utilities for Hadoop MapReduce to process avro files -->
        <dependency>
            <groupId>org.apache.avro</groupId>
            <artifactId>avro-mapred</artifactId>
            <version>1.7.7</version>
        </dependency>

        <!--Avro and Hadoop Map Reduce-->
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-core</artifactId>
            <version>1.2.1</version>
        </dependency>


    </dependencies>
    <build>
        <plugins>
            <plugin>
                <groupId>org.apache.avro</groupId>
                <artifactId>avro-maven-plugin</artifactId>
                <version>1.7.7</version>
                <executions>
                    <execution>
                        <phase>generate-sources</phase>
                        <goals>
                            <goal>schema</goal>
                            <goal>protocol</goal>
                            <goal>idl-protocol</goal>
                        </goals>
                        <configuration>
                            <sourceDirectory>${project.basedir}/src/main/avro/</sourceDirectory>
                            <outputDirectory>${project.basedir}/src/main/java/</outputDirectory>
                        </configuration>
                    </execution>
                </executions>
            </plugin>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <configuration>
                    <source>1.7</source>
                    <target>1.7</target>
                </configuration>
            </plugin>
        </plugins>
    </build>
</project>

 

 

2. MapReduce代码:

package examples.avro.mapreduce;

import examples.avro.simple.User;
import org.apache.avro.Schema;
import org.apache.avro.mapred.AvroKey;
import org.apache.avro.mapred.AvroValue;
import org.apache.avro.mapreduce.AvroJob;
import org.apache.avro.mapreduce.AvroKeyInputFormat;
import org.apache.avro.mapreduce.AvroKeyValueOutputFormat;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

import java.io.IOException;

public class MapReduceColorCount extends Configured implements Tool {

    ///Mapper定义:
    ///输入Key类型是AvroKey<User>,输入Value类型是NullWritable
    ///输出Key类型是Text,输出Value类型是IntWritable
    public static class ColorCountMapper extends
            Mapper<AvroKey<User>, NullWritable, Text, IntWritable> {

        @Override
        public void map(AvroKey<User> key, NullWritable value, Context context)
                throws IOException, InterruptedException {

            CharSequence color = key.datum().getFavoriteColor();
            if (color == null) {
                color = "none";
            }
            context.write(new Text(color.toString()), new IntWritable(1));
        }
    }

    ///Reducer定义:
    ///输入Key类型是Text,输入Value类型是IntWritable(跟Key的输出Key/Value类型一致)
    ///输出Key类型是AvroKey<CharSequence>,输出Value类型是AvroValue<Integer>
    public static class ColorCountReducer extends
            Reducer<Text, IntWritable, AvroKey<CharSequence>, AvroValue<Integer>> {

        @Override
        public void reduce(Text key, Iterable<IntWritable> values,
                           Context context) throws IOException, InterruptedException {

            int sum = 0;
            for (IntWritable value : values) {
                sum += value.get();
            }
            context.write(new AvroKey<CharSequence>(key.toString()), new AvroValue<Integer>(sum));
        }
    }

    public int run(String[] args) throws Exception {
        if (args.length != 2) {
            System.err.println("Usage: MapReduceColorCount <input path> <output path>");
            return -1;
        }

        Job job = new Job(getConf());
        job.setJarByClass(MapReduceColorCount.class);
        job.setJobName("Color Count");

        ///指定输入路径,输入文件是Avro格式
        FileInputFormat.setInputPaths(job, new Path(args[0]));

        ///指定输出路径,输出文件格式是Key/Value组成的Avro文件,见AvroKeyValueOutputFormat
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        //AvroKeyInputFormat: A MapReduce InputFormat that can handle Avro container files.
        job.setInputFormatClass(AvroKeyInputFormat.class);
        job.setMapperClass(ColorCountMapper.class);
        AvroJob.setInputKeySchema(job, User.getClassSchema());
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        //AvroKeyValueOutputFormat: FileOutputFormat for writing Avro container files of key/value pairs
        job.setOutputFormatClass(AvroKeyValueOutputFormat.class);
        job.setReducerClass(ColorCountReducer.class);
        AvroJob.setOutputKeySchema(job, Schema.create(Schema.Type.STRING));
        AvroJob.setOutputValueSchema(job, Schema.create(Schema.Type.INT));

        return (job.waitForCompletion(true) ? 0 : 1);
    }

    public static void main(String[] args) throws Exception {
        int res = ToolRunner.run(new MapReduceColorCount(), args);
        System.exit(res);
    }
}

 

 

3. 主要类注释

3.1 AvroKey

/** The wrapper of keys for jobs configured with {@link AvroJob} . */

 

3.2 AvroValue

/** The wrapper of values for jobs configured with {@link AvroJob} . */

 

3.3 AvroJob

/** Setters to configure jobs for Avro data. */

 

3.4 AvroKeyInputFormat

/**
 * A MapReduce InputFormat that can handle Avro container files.
 *
 * <p>Keys are AvroKey wrapper objects that contain the Avro data.  Since Avro
 * container files store only records (not key/value pairs), the value from
 * this InputFormat is a NullWritable.</p>
 */

 

3.5 AvroKeyValueOutputFormat

/**
 * FileOutputFormat for writing Avro container files of key/value pairs.
 *
 * <p>Since Avro container files can only contain records (not key/value pairs), this
 * output format puts the key and value into an Avro generic record with two fields, named
 * 'key' and 'value'.</p>
 *
 * <p>The keys and values given to this output format may be Avro objects wrapped in
 * <code>AvroKey</code> or <code>AvroValue</code> objects.  The basic Writable types are
 * also supported (e.g., IntWritable, Text); they will be converted to their corresponding
 * Avro types.</p>
 *
 * @param <K> The type of key. If an Avro type, it must be wrapped in an <code>AvroKey</code>.
 * @param <V> The type of value. If an Avro type, it must be wrapped in an <code>AvroValue</code>.
 */

 

3.6

  /**
   * Sets the job input key schema.
   *
   * @param job The job to configure.
   * @param schema The input key schema.
   */
  public static void setInputKeySchema(Job job, Schema schema) {
    job.getConfiguration().set(CONF_INPUT_KEY_SCHEMA, schema.toString());
  }

  /**
   * Sets the job input value schema.
   *
   * @param job The job to configure.
   * @param schema The input value schema.
   */
  public static void setInputValueSchema(Job job, Schema schema) {
    job.getConfiguration().set(CONF_INPUT_VALUE_SCHEMA, schema.toString());
  }

 

3.7

/**
   * Sets the map output key schema.
   *
   * @param job The job to configure.
   * @param schema The map output key schema.
   */
  public static void setMapOutputKeySchema(Job job, Schema schema) {
    job.setMapOutputKeyClass(AvroKey.class);
    job.setGroupingComparatorClass(AvroKeyComparator.class);
    job.setSortComparatorClass(AvroKeyComparator.class);
    AvroSerialization.setKeyWriterSchema(job.getConfiguration(), schema);
    AvroSerialization.setKeyReaderSchema(job.getConfiguration(), schema);
    AvroSerialization.addToConfiguration(job.getConfiguration());
  }

  /**
   * Sets the map output value schema.
   *
   * @param job The job to configure.
   * @param schema The map output value schema.
   */
  public static void setMapOutputValueSchema(Job job, Schema schema) {
    job.setMapOutputValueClass(AvroValue.class);
    AvroSerialization.setValueWriterSchema(job.getConfiguration(), schema);
    AvroSerialization.setValueReaderSchema(job.getConfiguration(), schema);
    AvroSerialization.addToConfiguration(job.getConfiguration());
  }

 

 

 

分享到:
评论

相关推荐

    Hadoop MapReduce v2 Cookbook, 2nd Edition-Packt Publishing(2015) 高清完整版PDF下载

    #### 三、MapReduce 工作原理详解 **MapReduce** 是一种编程模型,用于处理大规模数据集的分布式计算。其核心思想是将数据处理任务分解成两个阶段:Map阶段和Reduce阶段。 - **Map 阶段**:输入数据被分割成多个...

    avro+mapreduce安装报告

    avro是hadoop中一个序列化项目,avro和mapreduce结合如何使用,可以实现数据结构化并且序列化和反序列化

    avro-mapred-1.7.8-SNAPSHOT-hadoop2

    在MapReduce任务中读取Avro文件,会使用到avro-mapred.jar。 然而目前的avro-mapred.jar是基于较老的版本的,使用时会报错: org.apache.hadoop.mapred.YarnChild: Error running child : java.lang....

    avro序列化

    在实际应用中,我们可能会遇到各种各样的场景,例如使用Avro文件作为Hadoop MapReduce的输入和输出,或者在分布式系统中作为消息传递的中间格式。通过理解Avro的基本原理和使用方法,我们可以更有效地利用这一强大的...

    avro-tool工具jar包

    5. **与Hadoop的集成**:Avro是Hadoop生态系统的一部分,它可以与Hadoop MapReduce、HDFS和其他组件无缝配合,提供高效的输入/输出格式。 6. **数据压缩**:Avro支持内置的压缩选项,如deflate和snappy,可以在保存...

    Hadoop技术内幕深入解析MapReduce架构设计与实现原理

    此外,文档还可能讨论Hadoop生态系统中的其他组件,如HDFS(Hadoop分布式文件系统)、YARN(另一种资源协调器)、HBase(NoSQL数据库)、ZooKeeper(协调服务)、Avro(数据序列化系统)等,因为MapReduce往往与其他...

    window下eclipse中运行mapreduce程序所需要的Hadoop全部jar包

    在Windows环境下,使用Eclipse开发MapReduce程序时,必须确保所有必要的Hadoop库都被正确引入。这是因为MapReduce是Hadoop生态系统中的核心组件,用于处理分布式计算任务。以下是一些关于如何在Eclipse中配置和使用...

    Avro数据序列化系统(1)

    6. **I/O Integration**: Avro与Hadoop的Input/Output格式紧密集成,可以方便地与其他Hadoop组件(如MapReduce、Hive、Pig)一起使用。 7. **Zstandard Compression**: Avro支持Zstandard(zstd)压缩算法,提供更...

    apache avro 简介

    例如,在MapReduce任务中,Avro可以作为输入和输出格式,简化数据的读写操作。 ### 使用Avro工具 Avro提供了多种命令行工具,如`avro-tools.jar`,可以用于转换数据格式、验证schema、编译Java代码等。例如,`avro-...

    avro_tutorial

    - **大数据处理**:Avro与Hadoop生态系统紧密集成,是Hadoop MapReduce、Apache Spark等框架的理想数据格式。 - **消息传递**:Avro可以作为消息队列如Kafka的数据格式,确保不同语言的服务间数据交换的便利性。 - *...

    Hadoop序列化机制

    标题中的“Hadoop序列化机制”是指Hadoop生态系统中用于数据传输和存储的数据表示方式,它是Hadoop MapReduce和Hadoop Distributed File System (HDFS)等组件之间交换数据的关键技术。序列化是将对象转化为可存储或...

    hadoop0.23.9离线api

    org.apache.hadoop.io.serializer.avro org.apache.hadoop.jmx org.apache.hadoop.lib.lang org.apache.hadoop.lib.server org.apache.hadoop.lib.service org.apache.hadoop.lib.service.hadoop org.apache....

    (hadoop HDFS 和 Mapreduce 架构浅析

    Hadoop作为一个开源的分布式存储与计算框架,在处理大数据方面表现出色,其核心组件HDFS和MapReduce对于理解和运用Hadoop至关重要。 首先,Hadoop的HDFS(Hadoop Distributed File System)是一种高度容错性的系统...

    hadoop-3.1.0-windows依赖文件.7z

    这个"hadop-3.1.0-windows"压缩包是专为在Windows环境下运行Hadoop设计的,包含了所有必要的依赖文件,使得开发者可以在Windows操作系统上搭建和运行Hadoop集群。 在Windows上部署Hadoop并不像在Linux那样常见,...

    Hadoop的jar包

    这些jar包是Hadoop生态系统的关键组成部分,它们提供了核心Hadoop的功能,包括分布式文件系统(HDFS)和MapReduce计算模型。 1. **Hadoop核心**:Hadoop的核心jar包包含HDFS和YARN(Yet Another Resource ...

    avrotest,完整的项目包

    6. **集成Hadoop**:Avro与Hadoop生态系统无缝集成,可以作为Hadoop MapReduce的输入和输出格式,便于数据处理。在"avrotest"项目中,你可能会看到如何配置和使用Avro数据与Hadoop的接口。 7. **序列化与反序列化**...

    eclipse开发hadoop2.5.2所用到都jar

    这些JAR文件包含了Hadoop的核心组件以及依赖的第三方库,确保开发者能够访问Hadoop的API并进行分布式计算。 标题 "eclipse开发hadoop2.5.2所用到的jar" 指的是在Eclipse中进行Hadoop 2.5.2开发时所需的特定版本的...

    Apache Hadoop---Avro.docx

    Avro 为了适应 Hadoop 生态系统,定义了一种容器文件格式。这种格式的文件包含单一模式,并以二进制编码存储数据。文件被组织成可压缩的数据块,块与块之间用同步标记符分隔,便于 MapReduce 进行任务划分。文件结构...

    传智黑马赵星老师hadoop七天课程资料笔记-第三天(全)

    【标题】"传智黑马赵星老师hadoop七天课程资料笔记-第三天(全)" 涵盖了Hadoop技术体系中的关键知识点,主要针对Hadoop MapReduce的执行流程、本地模式、日志格式、序列化以及HTTP相关概念进行了深入讲解。...

Global site tag (gtag.js) - Google Analytics