多表关联处理获取结果,大致意思把数据切割成左右表
package org.apache.hadoop.examples; import java.io.IOException; import java.util.Iterator; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; import org.apache.hadoop.util.GenericOptionsParser; public class STjoin { public static int time = 0; public static class Map extends Mapper<Object, Text, Text, Text> { public void map(Object key, Text value, Context context) throws IOException, InterruptedException { String childname = new String(); String parentname = new String(); String type = new String(); String line = value.toString(); int i = 0; while (line.charAt(i) != ' ') { i++; } String[] values = { line.substring(0, i), line.substring(i + 1) }; if (values[0].compareTo("child") != 0) { childname = values[0]; parentname = values[1]; type = "1"; context.write(new Text(values[1]), new Text(type + "+" + childname + "+" + parentname)); type = "2"; context.write(new Text(values[0]), new Text(type + "+" + childname + "+" + parentname)); } } } public static class IntSumReducer extends Reducer<Text, Text, Text, Text> { public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { if (time == 0) { context.write(new Text("grandchild"), new Text("grandparent")); time++; } int grandchildnum = 0; String grandchild[] = new String[10]; int grandparentnum = 0; String grandparent[] = new String[10]; Iterator ite = values.iterator(); while (ite.hasNext()) { String record = ite.next().toString(); int len = record.length(); int i = 2; if (len == 0) continue; char type = record.charAt(0); String childname = new String(); String parentname = new String(); System.out.println("------------------" + record); while (record.charAt(i) != '+') { childname = childname + record.charAt(i); i++; // System.out.println("childname" + childname); } i = i + 1; while (i < len) { parentname = parentname + record.charAt(i); i++; // System.out.println("parentname" + parentname); } if (type == '1') { grandchild[grandchildnum] = childname; grandchildnum++; } else { grandparent[grandparentnum] = parentname; grandparentnum++; } } if (grandparentnum != 0 && grandchildnum != 0) { for (int i = 0; i < grandchildnum; i++) { for (int j = 0; j < grandparentnum; j++) { context.write(new Text(grandchild[i]), new Text( grandparent[j])); } } } } } public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); String[] otherArgs = new GenericOptionsParser(conf, args) .getRemainingArgs(); if (otherArgs.length != 2) { System.err.println("Usage: wordcount <in> <out>"); System.exit(2); } Job job = new Job(conf, "stsort"); job.setJarByClass(STjoin.class); job.setMapperClass(Map.class); job.setReducerClass(IntSumReducer.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(Text.class); FileInputFormat.addInputPath(job, new Path(otherArgs[0])); FileOutputFormat.setOutputPath(job, new Path(otherArgs[1])); System.exit(job.waitForCompletion(true) ? 0 : 1); } }
相关推荐
第4-7章深入地讲解了mapreduce计算模型、mapreduce应用的开发方法、mapreduce的工作机制,同时还列出了多个mapreduce的应用案例,涉及单词计数、数据去重、排序、单表关联和多表关联等内容;第8-11章全面地阐述了...
此外,《Hadoop实战中文版》还包含了很多Hadoop核心类的解读。在Hadoop的API中,包含了大量的核心类和接口,例如用于文件操作的FileSystem类、处理数据的InputFormat和OutputFormat类、以及管理集群资源的YARN(Yet ...
第4-7章深入地讲解了mapreduce计算模型、mapreduce应用的开发方法、mapreduce的工作机制,同时还列出了多个mapreduce的应用案例,涉及单词计数、数据去重、排序、单表关联和多表关联等内容;第8-11章全面地阐述了...
《Hadoop MapReduce实战手册》是一本专注于大数据处理技术的专著,主要针对Apache Hadoop中的MapReduce框架进行了深入的探讨。MapReduce是Hadoop生态系统中的核心组件之一,用于处理和生成大规模数据集。该书旨在...
《Hadoop实战》是Chuck Lam撰写的一本技术书籍,专注于Hadoop生态系统在实际项目中的应用。这本书通过一系列的代码示例,帮助读者深入理解并掌握Hadoop的核心技术和使用技巧。结合提供的源代码,读者可以动手实践,...
第4-7章深入地讲解了MapReduce计算模型、MapReduce应用的开发方法、MapReduce的工作机制,同时还列出了多个MapReduce的应用案例,涉及单词计数、数据去重、排序、单表关联和多表关联等内容;第8-11章全面地阐述了...
根据提供的文件信息,“Hadoop实战中文版 扫描版”,我们可以从中提炼出一系列与Hadoop相关的知识点。尽管部分内容为空白,但通过标题、描述和标签,我们仍然可以围绕Hadoop进行深入探讨,涵盖其基本概念、核心组件...
本部分主要介绍Hadoop在实战应用开发中的相关知识点。 首先,Hadoop系统的基础组件HDFS是一种分布式文件系统,支持高吞吐量的数据访问,特别适合大规模数据集的存储。HDFS具有高容错性的特点,能够检测并快速恢复...
### Hadoop实战电子版知识点概览 #### 一、Hadoop概述 - **定义与背景**:Hadoop是一个开源框架,用于分布式存储和处理大型数据集。它最初由Apache软件基金会开发,旨在解决大规模数据处理的问题。 - **核心组件**...
Hadoop实战一书详细介绍了Hadoop的基础知识及其生态系统,尤其着重于MapReduce编程模型。MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算,其核心思想在于通过Map(映射)和Reduce(归约)两个操作...
### Hadoop实战(lam著,韩冀中译)中文版 #### 一、Hadoop概述 **Hadoop**是一款能够对大量数据进行分布式处理的软件框架。它由Apache基金会开发,旨在提供高可靠性、高效能及可扩展性的数据处理能力。Hadoop的核心...
《Hadoop Spark大数据巨量分析与机器学习整合开发实战》一书由林大贵编著,主要讲解了如何将大数据分析技术和机器学习技术结合起来进行实战开发。本书的重点是Hadoop和Spark这两个在大数据处理领域占据重要地位的...
《Hadoop大数据分析与挖掘实战》是一本专为IT专业人士准备的深度学习资源,它深入探讨了大数据领域中的核心技术和应用。这本书的核心内容围绕Hadoop框架展开,详细讲解了如何利用Hadoop进行大规模数据处理、分析和...
《Hadoop大数据分析与挖掘实战》是一本深入探讨Hadoop在大数据分析和挖掘领域的实践指南。这本书详尽地阐述了如何利用Hadoop生态系统处理大规模数据,以及如何从中提取有价值的信息。Hadoop作为分布式计算框架,是...
综上,基于Hadoop的商品推荐系统课程设计涵盖了大数据处理、推荐系统理论、Hadoop实战等多个重要知识点。通过这个项目,学习者不仅能掌握Hadoop的基本操作,还能了解到推荐系统的设计与优化,从而具备解决实际问题的...