mos可以和content一起用
package jyw.test; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.input.TextInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; import org.apache.hadoop.mapreduce.lib.output.MultipleOutputs; import org.apache.hadoop.util.GenericOptionsParser; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.fs.FileSystem; public class WordCountMultiDir { public static class MapClass extends Mapper<LongWritable, Text, NullWritable, Text> { private MultipleOutputs mos; @Override protected void setup(Context context) throws IOException, InterruptedException { super.setup(context); mos = new MultipleOutputs(context); } @Override protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { StringTokenizer itr = new StringTokenizer(value.toString()); while (itr.hasMoreTokens()) { // word.set(); // context.write(word, one); Text wvalue = new Text(itr.nextToken()); //方式1 mos.write(NullWritable.get(), wvalue, generateFileName(wvalue)); } } private String generateFileName(Text value) { char c = value.toString().toLowerCase().charAt(0); String dirname ; if (c >= 'a' && c <= 'g') { dirname="ag"; } else{ dirname="hz"; } return "hdfs://192.168.0.42:9000/user/jiayongwei/mul/"+ dirname + "/log"; } @Override protected void cleanup(Context context) throws IOException, InterruptedException { super.cleanup(context); mos.close(); } } public static void deleteFile(String file) throws IOException { Configuration conf = new Configuration(); // conf.addResource(new Path("/home/jiayongwei/hadoop/hadoop-0.20.0/conf/core-site.xml")); FileSystem fileSystem = FileSystem.get(conf); Path path = new Path(file); if (!fileSystem.exists(path)) { System.out.println("File " + file + " does not exists"); return; } fileSystem.delete(new Path(file), true); fileSystem.close(); } public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException { Configuration conf = new Configuration(); Job job = Job.getInstance(conf, "MulOutput"); String[] remainingArgs = new GenericOptionsParser(conf, args) .getRemainingArgs(); if (remainingArgs.length != 1) { System.err.println("argument Error!"); System.exit(1); } Path in = new Path("hdfs://192.168.0.42:9000/user/jiayongwei/input/"); Path out = new Path(remainingArgs[0]); deleteFile("/user/jiayongwei/mul/"); deleteFile(remainingArgs[0]); FileInputFormat.setInputPaths(job, in); FileOutputFormat.setOutputPath(job, out); job.setJarByClass(WordCountMultiDir.class); job.setMapperClass(MapClass.class); job.setInputFormatClass(TextInputFormat.class); job.setOutputKeyClass(NullWritable.class); job.setOutputValueClass(Text.class); job.setNumReduceTasks(0); System.exit(job.waitForCompletion(true) ? 0 : 1); } }
相关推荐
标题 "eclipse开发hadoop2.5.2所用到的jar" 指的是在Eclipse中进行Hadoop 2.5.2开发时所需的特定版本的JAR文件集合。这些JAR文件通常包括以下几个部分: 1. Hadoop Common:这是Hadoop的基础模块,包含了一般用途的...
Map阶段将任务分解为子任务,Reduce阶段将结果合并。 - YARN(Yet Another Resource Negotiator):资源管理系统,负责调度和管理集群中的计算资源,取代了早期版本的JobTracker。 2. Hadoop 2.5.2的新特性 - ...
通常,我们需要将“hadoop-2.5.2.tar.gz”解压到指定目录,然后进行环境变量配置,包括设置HADOOP_HOME、PATH等。接下来,我们需要配置Hadoop的配置文件,如core-site.xml、hdfs-site.xml和yarn-site.xml,定义HDFS...
### hadoop2.5.2在Windows下的Eclipse环境搭建详解 #### 一、Hadoop简介 Hadoop是由Apache基金会所开发的一个开源分布式计算框架,主要用于处理和存储大规模数据集。它通过分布式文件系统(HDFS)和MapReduce编程...
hadoop 2.5.2 64位native包
hadoop2.5.2 + eclipse + win32位环境安装及开发环境搭建全套资源及说明 Hi:发帖目的是因为Hadoop开发环境搭建太麻烦了,涉及很多版本和工具组件的问题,自己也走了不少弯路,把资源集中一下,让大家少走弯路,也...
eclipse环境下集成hadoop2.5.2时候需要的jar包 ant已经编译好了的可以直接用
**用法**:用户通过指定输入文件路径和输出目录来启动Map-Reduce作业,系统会自动完成后续的数据处理流程。 **逐步详解**:从输入文件的读取到最终输出结果的生成,Map-Reduce框架通过Map和Reduce两个阶段实现了...
Reduce阶段则负责收集Map阶段的结果,进行聚合和总结,生成最终的输出结果。 在Hadoop 2.5.2中,引入了一些关键特性,如YARN(Yet Another Resource Negotiator)资源调度器,它是Hadoop的第二代资源管理框架。YARN...
访问Apache官方网站下载Hadoop 2.5.2的源码或二进制包,并将其解压到一个适当的目录,如`/usr/local/hadoop`。 5. **创建用户名** 通常,我们会创建一个专门的用户来运行Hadoop进程,如`hadoop`用户。使用`...
网上百度的最高只有hadoop2.4的,于是自己想着也编译一版来,于是就基于hadoop2.5.2的源码在windows8 64位系统安装时自己编译的 包含 hadoop.dll hadoop.pdb hadoop.lib hadoop.exp winutils.exe winutils.pdb ...
这个名为“hadoop-2.5.2.zip”的压缩包文件提供了预配置的Hadoop 2.5.2环境,特别适用于在Linux操作系统上快速搭建Hadoop集群或进行大数据分析。 Hadoop 2.5.2是Hadoop发展中的一个重要版本,它包含了许多关键的...
Hadoop2.5.2集群安装知识点梳理: 1. Hadoop集群安装概述: Hadoop集群安装涉及多个步骤,包括准备环境、安装配置Hadoop以及测试集群的运行状态。本文档重点介绍的是基于MRV1架构的Hadoop集群安装,MRV1指的是...
### Hadoop Map-Reduce 教程 #### 一、Hadoop Map-Reduce 概述 Hadoop Map-Reduce 是一种编程模型,用于处理大规模数据集(通常为TB级或以上)。这种模型支持分布式计算,可以在成百上千台计算机上运行。Map-...
- 下载Hadoop 2.5.2源码或二进制包,解压至指定目录,如 `/usr/local/hadoop`。 - 修改Hadoop配置文件,包括`core-site.xml`、`hdfs-site.xml`、`yarn-site.xml`、`mapred-site.xml`。 5. **HDFS配置**: - 在`...
【Hadoop2.5.2+Sqoop-1.4.6】的组合主要用于在大数据环境中实现MySQL数据库数据的导入到Hadoop的分布式文件系统(HDFS)中。Hadoop是一个开源的分布式计算框架,而Sqoop是一款专门用于在关系型数据库与Hadoop之间...
Hadoop在win 7 x64的已编译文件,只包含windows下独有的文件。与官网hadoop.apache.org下的程序包合并使用,放于hadoop\bin文件夹下。 包含文件:hadoop.dll, hadoop.exp, hadoop.lib, hadoop.pdb, winutils.exe, ...
Hadoop2.5.2搭建真分布式,利用三台虚拟机搭建的简单真分布式例子