`
bobboy007
  • 浏览: 31583 次
  • 性别: Icon_minigender_1
  • 来自: 淄博
社区版块
存档分类
最新评论

Hadoop2.5.2 map reduce 多目录自定义文件名输出

 
阅读更多

  mos可以和content一起用

package jyw.test;


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.mapreduce.lib.output.MultipleOutputs;

import org.apache.hadoop.util.GenericOptionsParser;

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.fs.FileSystem;

 
public class WordCountMultiDir {
    
    public static class MapClass 
                 extends Mapper<LongWritable, Text, NullWritable, Text> {
        private MultipleOutputs mos;
       
     
        @Override
        protected void setup(Context context) 
                throws IOException, InterruptedException {
            super.setup(context);
            mos = new MultipleOutputs(context);
            
        }

        @Override
        protected void map(LongWritable key, 
                           Text value, 
                           Context context) 
                throws IOException, InterruptedException {

        	 StringTokenizer itr = new StringTokenizer(value.toString()); 
             while (itr.hasMoreTokens()) { 
            //   word.set(); 
             //  context.write(word, one); 
            	 Text wvalue =  new Text(itr.nextToken());
            	 //方式1
            	 mos.write(NullWritable.get(), wvalue, 
                           generateFileName(wvalue));
 
            	 
             } 
        	
        }
       
        private String generateFileName(Text value) {
            char c = value.toString().toLowerCase().charAt(0);   
            String dirname ;
            if (c >= 'a' && c <= 'g') {   
                dirname="ag";   
            } else{
            	dirname="hz";
            }  
        	 
            return "hdfs://192.168.0.42:9000/user/jiayongwei/mul/"+ dirname + "/log";
        }

        @Override
        protected void cleanup(Context context) 
                throws IOException, InterruptedException {
            super.cleanup(context);
            mos.close();
        }
    }
    public static void deleteFile(String file) throws IOException {
        Configuration conf = new Configuration();
       // conf.addResource(new Path("/home/jiayongwei/hadoop/hadoop-0.20.0/conf/core-site.xml"));
 
        FileSystem fileSystem = FileSystem.get(conf);
 
        Path path = new Path(file);
        if (!fileSystem.exists(path)) {
            System.out.println("File " + file + " does not exists");
            return;
        }
 
        fileSystem.delete(new Path(file), true);
 
        fileSystem.close();
    }
    public static void main(String[] args) 
            throws IOException, ClassNotFoundException, 
            InterruptedException {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "MulOutput");
        String[] remainingArgs = 
                new GenericOptionsParser(conf, args)
                        .getRemainingArgs();

        if (remainingArgs.length != 1) {
            System.err.println("argument Error!");
            System.exit(1);
        }
        Path in = new Path("hdfs://192.168.0.42:9000/user/jiayongwei/input/");
        Path out = new Path(remainingArgs[0]);
        deleteFile("/user/jiayongwei/mul/");
        deleteFile(remainingArgs[0]);
        
        FileInputFormat.setInputPaths(job, in);
        FileOutputFormat.setOutputPath(job, out);

        job.setJarByClass(WordCountMultiDir.class);
        job.setMapperClass(MapClass.class);
        job.setInputFormatClass(TextInputFormat.class);
        
        
        job.setOutputKeyClass(NullWritable.class);
        job.setOutputValueClass(Text.class);
        job.setNumReduceTasks(0);
 
    System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

 

分享到:
评论

相关推荐

    eclipse开发hadoop2.5.2所用到都jar

    标题 "eclipse开发hadoop2.5.2所用到的jar" 指的是在Eclipse中进行Hadoop 2.5.2开发时所需的特定版本的JAR文件集合。这些JAR文件通常包括以下几个部分: 1. Hadoop Common:这是Hadoop的基础模块,包含了一般用途的...

    hadoop 2.5.2 源码

    Map阶段将任务分解为子任务,Reduce阶段将结果合并。 - YARN(Yet Another Resource Negotiator):资源管理系统,负责调度和管理集群中的计算资源,取代了早期版本的JobTracker。 2. Hadoop 2.5.2的新特性 - ...

    hadoop-2.5.2.tar.gz

    通常,我们需要将“hadoop-2.5.2.tar.gz”解压到指定目录,然后进行环境变量配置,包括设置HADOOP_HOME、PATH等。接下来,我们需要配置Hadoop的配置文件,如core-site.xml、hdfs-site.xml和yarn-site.xml,定义HDFS...

    hadoop2.5.2window下eclipse环境搭建

    ### hadoop2.5.2在Windows下的Eclipse环境搭建详解 #### 一、Hadoop简介 Hadoop是由Apache基金会所开发的一个开源分布式计算框架,主要用于处理和存储大规模数据集。它通过分布式文件系统(HDFS)和MapReduce编程...

    hadoop 2.5.2 64位native包

    hadoop 2.5.2 64位native包

    hadoop2.5.2 +eclipse +win32位环境安装全套资源及说明

    hadoop2.5.2 + eclipse + win32位环境安装及开发环境搭建全套资源及说明 Hi:发帖目的是因为Hadoop开发环境搭建太麻烦了,涉及很多版本和工具组件的问题,自己也走了不少弯路,把资源集中一下,让大家少走弯路,也...

    hadoop2.5.2插件

    eclipse环境下集成hadoop2.5.2时候需要的jar包 ant已经编译好了的可以直接用

    hadoop map-reduce turorial

    **用法**:用户通过指定输入文件路径和输出目录来启动Map-Reduce作业,系统会自动完成后续的数据处理流程。 **逐步详解**:从输入文件的读取到最终输出结果的生成,Map-Reduce框架通过Map和Reduce两个阶段实现了...

    hadoop-2.5.2

    Reduce阶段则负责收集Map阶段的结果,进行聚合和总结,生成最终的输出结果。 在Hadoop 2.5.2中,引入了一些关键特性,如YARN(Yet Another Resource Negotiator)资源调度器,它是Hadoop的第二代资源管理框架。YARN...

    Hadoop 2.5.2安装和部署

    访问Apache官方网站下载Hadoop 2.5.2的源码或二进制包,并将其解压到一个适当的目录,如`/usr/local/hadoop`。 5. **创建用户名** 通常,我们会创建一个专门的用户来运行Hadoop进程,如`hadoop`用户。使用`...

    windows64位平台的hadoop2.5.2插件包(hadoop.dll,winutils.exe)

    网上百度的最高只有hadoop2.4的,于是自己想着也编译一版来,于是就基于hadoop2.5.2的源码在windows8 64位系统安装时自己编译的 包含 hadoop.dll hadoop.pdb hadoop.lib hadoop.exp winutils.exe winutils.pdb ...

    hadoop-2.5.2.zip

    这个名为“hadoop-2.5.2.zip”的压缩包文件提供了预配置的Hadoop 2.5.2环境,特别适用于在Linux操作系统上快速搭建Hadoop集群或进行大数据分析。 Hadoop 2.5.2是Hadoop发展中的一个重要版本,它包含了许多关键的...

    Hadoop2.5.2集群安装

    Hadoop2.5.2集群安装知识点梳理: 1. Hadoop集群安装概述: Hadoop集群安装涉及多个步骤,包括准备环境、安装配置Hadoop以及测试集群的运行状态。本文档重点介绍的是基于MRV1架构的Hadoop集群安装,MRV1指的是...

    Hadoop Map-Reduce教程

    ### Hadoop Map-Reduce 教程 #### 一、Hadoop Map-Reduce 概述 Hadoop Map-Reduce 是一种编程模型,用于处理大规模数据集(通常为TB级或以上)。这种模型支持分布式计算,可以在成百上千台计算机上运行。Map-...

    CentOS上搭建Hadoop2.5.2_CentOS搭建hadoop_云计算_源码

    - 下载Hadoop 2.5.2源码或二进制包,解压至指定目录,如 `/usr/local/hadoop`。 - 修改Hadoop配置文件,包括`core-site.xml`、`hdfs-site.xml`、`yarn-site.xml`、`mapred-site.xml`。 5. **HDFS配置**: - 在`...

    Hadoop2.5.2+Sqoop-1.4.6

    【Hadoop2.5.2+Sqoop-1.4.6】的组合主要用于在大数据环境中实现MySQL数据库数据的导入到Hadoop的分布式文件系统(HDFS)中。Hadoop是一个开源的分布式计算框架,而Sqoop是一款专门用于在关系型数据库与Hadoop之间...

    Hadoop 2.5.2 windows

    Hadoop在win 7 x64的已编译文件,只包含windows下独有的文件。与官网hadoop.apache.org下的程序包合并使用,放于hadoop\bin文件夹下。 包含文件:hadoop.dll, hadoop.exp, hadoop.lib, hadoop.pdb, winutils.exe, ...

    Hadoop2.5.2搭建真分布式

    Hadoop2.5.2搭建真分布式,利用三台虚拟机搭建的简单真分布式例子

Global site tag (gtag.js) - Google Analytics