1 数据排序
1.1 数据排序
对输入文件中数据进行排序。输入文件中的每行内容均为一个数字,即一个数据。要求在输出中每行有两个间隔的数字,其中,第一个代表原始数据在原始数据集中的位次,第二个代表原始数据。
1.2 应用场景
"数据排序"是许多实际任务执行时要完成的第一项工作,比如学生成绩评比、数据建立索引等。这个实例和数据去重类似,都是先对原始数据进行初步处理,为进一步的数据操作打好基础。
1.3 设计思路
这个实例仅仅要求对输入数据进行排序,熟悉MapReduce过程的读者会很快想到在MapReduce过程中就有排序,是否可以利用这个默认的排序,而不需要自己再实现具体的排序呢?答案是肯定的。
但是在使用之前首先需要了解它的默认排序规则。它是按照key值进行排序的,如果key为封装int的IntWritable类型,那么MapReduce按照数字大小对key排序,如果key为封装为String的Text类型,那么MapReduce按照字典顺序对字符串排序。
了解了这个细节,我们就知道应该使用封装int的IntWritable型数据结构了。也就是在map中将读入的数据转化成IntWritable型,然后作为key值输出(value任意)。reduce拿到<key,value-list>之后,将输入的key作为value输出,并根据value-list中元素的个数决定输出的次数。输出的key(即代码中的linenum)是一个全局变量,它统计当前key的位次。需要注意的是这个程序中没有配置Combiner,也就是在MapReduce过程中不使用Combiner。这主要是因为使用map和reduce就已经能够完成任务了。
1.4 程序代码
程序代码如下所示:
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; import org.apache.hadoop.util.GenericOptionsParser; public class Sort { //map将输入中的value化成IntWritable类型,作为输出的key public static class Map extends Mapper<Object,Text,IntWritable,IntWritable>{ private static IntWritable data=new IntWritable(); //实现map函数 public void map(Object key,Text value,Context context) throws IOException,InterruptedException{ String line=value.toString(); data.set(Integer.parseInt(line)); context.write(data, new IntWritable(1)); } } //reduce将输入中的key复制到输出数据的key上, //然后根据输入的value-list中元素的个数决定key的输出次数 //用全局linenum来代表key的位次 public static class Reduce extends Reducer<IntWritable,IntWritable,IntWritable,IntWritable>{ private static IntWritable linenum = new IntWritable(1); //实现reduce函数 public void reduce(IntWritable key,Iterable<IntWritable> values,Context context) throws IOException,InterruptedException{ for(IntWritable val:values){ context.write(linenum, key); linenum = new IntWritable(linenum.get()+1); } } } public static void main(String[] args) throws Exception{ Configuration conf = new Configuration(); conf.set("mapred.job.tracker", "192.168.1.2:9001"); String[] ioArgs=new String[]{"sort_in","sort_out"}; String[] otherArgs = new GenericOptionsParser(conf, ioArgs).getRemainingArgs(); if (otherArgs.length != 2) { System.err.println("Usage: Data Sort <in> <out>"); System.exit(2); } Job job = new Job(conf, "Data Sort"); job.setJarByClass(Sort.class); //设置Map和Reduce处理类 job.setMapperClass(Map.class); job.setReducerClass(Reduce.class); //设置输出类型 job.setOutputKeyClass(IntWritable.class); job.setOutputValueClass(IntWritable.class); //设置输入和输出目录 FileInputFormat.addInputPath(job, new Path(otherArgs[0])); FileOutputFormat.setOutputPath(job, new Path(otherArgs[1])); System.exit(job.waitForCompletion(true) ? 0 : 1); } } |
相关推荐
总的来说,这个"mapreduce案例代码及案例涉及文件"提供了全面的学习材料,涵盖了MapReduce的基本操作和高级特性。对于初学者来说,这是一个很好的实践平台,能够帮助他们深入理解分布式计算的核心概念,并通过实际...
数据清洗是大数据处理中的关键步骤,主要是去除不完整、错误、重复或无关的数据。在MapReduce中,数据清洗通常在Map阶段进行,通过自定义的mapper函数实现。例如,可以检查并处理缺失的家族关系信息,或者去除无效...
在上述案例中,MapReduce展示了其在大数据处理中的强大能力,能够高效地处理大量复杂的数据,简化编程模型,同时保证了可扩展性和容错性。通过对这些案例的深入理解和实践,可以更好地掌握MapReduce在实际问题中的...
因此,为了提高数据质量,确保后续数据分析的有效性,利用MapReduce这样的大数据处理框架进行招聘数据清洗变得尤为重要。 #### 二、目标 1. **去除重复数据**:确保数据集中不存在重复的简历和职位数据,以避免...
总结来说,MapReduce是大数据处理的重要工具,通过理解和实践MapReduce案例,我们可以更好地掌握大数据处理的核心原理和方法。在"大数据mapreduce案例"中,深入学习MapReduce的工作流程、编程模型以及相关优化策略,...
在这个实例中,我们看到的是一个基于MapReduce的数据去重操作,这个操作在大数据处理中非常常见,尤其是当处理的数据源包含重复记录时。下面将详细解释每个部分的作用。 1. **Mapper类**: 在`DedupMapper`类中,...
在Hadoop框架中,MapReduce被广泛应用于大数据处理,能够高效地在分布式集群上运行。 在标题“mapreduce案例文本文件.zip”中,我们可以推测这是一个包含MapReduce实际操作案例的压缩包。通常,这样的案例会包含一...
总结来说,这个“mapreduce框架学习之天气统计”案例是一个很好的实践平台,通过它,你可以深入了解MapReduce如何处理大量天气数据,以及如何使用Hadoop的API编写分布式计算程序。实践中遇到的问题和解决方法将...
此外,可以使用自定义逻辑来优化性能,例如通过设置合适的split大小、调整并发度或使用Secondary Sort来改善数据处理的效率。 总的来说,MapReduce为处理大量CSV数据提供了一个强大且灵活的工具,能够轻松应对各种...
这是最经典的MapReduce案例,通常被称为WordCount。在Map阶段,程序会读取输入文本,将每个单词分割出来,并以(word,1)的形式生成键值对。Reduce阶段则将相同单词的键值对进行合并,计算每个单词的总数,最终...
在本实例中,我们将深入探讨如何使用MapReduce进行数据排序。 ### Map阶段 Map阶段是MapReduce工作流程的起点,其主要任务是对输入数据进行切片(split),并将每个切片分发到各个工作节点(worker node)上。每个...
在大数据处理领域,MapReduce是一种广泛使用的分布式计算框架,由Google提出并被Hadoop采纳为标准组件。本案例主要探讨如何使用MapReduce来求取数据集的行平均值,这在数据分析、数据挖掘以及日志分析等场景中非常...
下面是一个简单的 MapReduce 应用案例,用于招聘数据的清洗: 假设我们有一个包含求职者简历信息的文本文件,其中每行是一个求职者的简历,包括姓名、学历、工作经验等信息。我们希望通过 MapReduce 对这些简历数据...
这个简单的程序揭示了MapReduce的核心概念,包括数据的分布式处理、并行计算以及结果的合并,对于理解Hadoop和大数据处理有着重要的学习价值。通过打包成JAR并直接在HDFS上运行,我们可以在实际集群环境中体验...
总结起来,这个项目涵盖了 Hadoop 分布式系统的基础知识,包括 MapReduce 模型、数据存储(HDFS)、资源管理(YARN)以及数据处理和分析。通过实际操作,我们可以深入了解大数据处理的流程,并学习如何利用 Hadoop ...
MapReduce是一种分布式计算模型,由Google开发,用于处理和生成大规模数据集。在这个特定的案例中,我们将讨论如何使用MapReduce来...同时,通过迭代器优化,可以提高数据处理的效率,使得复杂的数据分析任务变得可行。
MapReduce通过这种分而治之的方式,实现了大规模数据处理的高效性和可扩展性。 Hadoop集群的架构设计允许它在硬件故障时自动恢复任务,增强了系统的容错能力。Hadoop分布式文件系统(HDFS)是Hadoop的核心存储组件...
基于MapReduce的气候数据分析 是一个旨在通过大数据处理技术深入理解和分析气候数据的研究课题。该课题利用MapReduce编程模型,针对包括温度、湿度、风速等在内的多种气象参数进行处理,以应对传统方法在处理大规模...
在IT行业中,Hadoop MapReduce是一种...这个案例涵盖了数据处理的关键步骤,包括数据分片、并行处理、中间结果的聚合以及最终的数据去重,对于理解Hadoop MapReduce的工作原理及其在大数据处理中的应用具有很高的价值。
对相同分区的数据,按照key进行排序(默认按照字典排序)、分组。相同key的value放在一个集合中。 (可选)分组后对数据进行归约。 注意:MapReduce中,Mapper可以单独存在,但是Reducer不能存在。