`
wbj0110
  • 浏览: 1603271 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论

Hadoop实例:单轮MapReduce的矩阵乘法

阅读更多

 

最近开始在看@王斌_ICTIR老师的《大数据:互联网大规模数据挖掘与分布式处理》,下面是对第二章提到的的单轮计算矩阵乘法进行的学习实现过程。

 

 

    矩阵的乘法只有在第一个矩阵的列数(column)和第二个矩阵的行数(row)相同时才有定义。一般单指矩阵乘积时,指的便是一般矩阵乘积。若Ai×r矩阵,Br×j矩阵,则他们的乘积AB(有时记做A · B)会是一个i×j矩阵。其乘积矩阵的元素如下面式子得出:

 

 

 

Hadoop实例:单轮MapReduce的矩阵乘法

 

   

 

    书中提到的对矩阵乘法的MapReduce实现方法是:

 

    Map函数:对于矩阵M的每个元素M[i,j],产生一系列的键值对(i,k)->(M,j, M[i,j]),其中k=1,2…,直到矩阵N的列数。同样,对于矩阵N的每个元素N[j,k],产生一系列的键值对(ik)->(N,j,N[j,k]),其中i=1,2…,直到矩阵M的行数。

 

    Reduce函数:根据MR的原理,相同键i,k的数据会发送个同一个 reduce。如果M2*2矩阵,N2×3矩阵,reduce函数需要处理的数据为:

 

1,1->[(M,1, M[1,1])(M,2, M[1,2])(N,1, N[1,1])(N,2, N[2,1])]

 

1,2->[(M,1, M[1,1])(M,2, M[1,2])(N,1, N[1,2])(N,2, N[2,2])]

 

1,3->[(M,1, M[1,1])(M,2, M[1,2])(N,1, N[1,3])(N,2, N[2,3])],

 

2,1->[(M,1, M[2,1])(M,2, M[2,2])(N,1, N[1,1])(N,2, N[2,1])]

 

2,2->[(M,1, M[2,1])(M,2, M[2,2])(N,1, N[1,2])(N,2, N[2,2])]

 

2,3->[(M,1, M[2,1])(M,2, M[2,2])(N,1, N[1,3])(N,2, N[2,3])]

 

 

 

    这样只要将所有(M,j, M[i,j])(N,j, N[j,k])分别按照j值排序并放在不同的两个列表里面。将这个列表的第j个元素M[i,j]N[j,k]相乘,然后将这些积相加,最后积的和与键(i,k)组对作为reduce函数的输出。对于上面的例子reduce的输出就是:

 

1,1->M[1,1]* N[1,1]+ M[1,2]* N[2,1]

 

1,2->M[1,1]* N[1,2]+ M[1,2]* N[2,2]

 

1,3->M[1,1]* N[1,3]+ M[1,2]* N[2,3]

 

2,1->M[2,1]* N[2,1]+ M[2,2]* N[2,1]

 

2,2->M[2,1]* N[1,2]+ M[2,2]* N[2,2]

 

2,3->M[2,1]* N[1,3]+ M[2,2]* N[2,3]

 

 

 

    下面是MapReduce的实现步骤:

 

    (1).构造矩阵M300*150;矩阵N150*500。两矩阵的值放在一个M.data文件中,每行的格式为:文件标识#行坐标#列坐标#坐标值。

 

 

 

Hadoop实例:单轮MapReduce的矩阵乘法

 

   

 

    (2).基于上面的方法编写Map函数和Reduce函数。代码详见:

 

        https://github.com/intergret/snippet/blob/master/MartrixMultiplication.java

 

Hadoop实例:单轮MapReduce的矩阵乘法

 

 

 

 

 

    

 

    (3).将运行的结果文件copy到本地,并使用check.py对结果中元素[10,95]的正确性进行验证。

 

Hadoop实例:单轮MapReduce的矩阵乘法

 

1. [代码]MapReduce    

 

001 import java.io.IOException;
002 import org.apache.hadoop.conf.Configuration;
003 import org.apache.hadoop.fs.Path;
004 import org.apache.hadoop.io.Text;
005 import org.apache.hadoop.mapreduce.Job;
006 import org.apache.hadoop.mapreduce.Mapper;
007 import org.apache.hadoop.mapreduce.Reducer;
008 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
009 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
010 import org.apache.hadoop.util.GenericOptionsParser;
011  
012  
013 public class MartrixMultiplication{
014  
015   public static class MartrixMapper extends Mapper<Object, Text, Text, Text>{
016      
017     private Text map_key = new Text();
018     private Text map_value = new Text();
019      
020     int rNumber = 300;
021     int cNumber = 500;
022     String fileTarget;
023     String i, j, k, ij, jk;
024      
025        
026     public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
027        
028         String eachterm[] = value.toString().split("#");
029          
030         fileTarget = eachterm[0];
031          
032         if(fileTarget.equals("M")){
033             i = eachterm[1];
034             j = eachterm[2];
035             ij = eachterm[3];
036              
037             for(int c = 1; c<=cNumber; c++){
038                 map_key.set(i + "#" + String.valueOf(c));
039                 map_value.set("M" + "#" + j + "#" + ij);
040                 context.write(map_key, map_value);
041             }
042              
043         }else if(fileTarget.equals("N")){
044             j = eachterm[1];
045             k = eachterm[2];
046             jk = eachterm[3];
047              
048             for(int r = 1; r<=rNumber; r++){
049                 map_key.set(String.valueOf(r) + "#" +k);
050             map_value.set("N" + "#" + j + "#" + jk);
051             context.write(map_key, map_value);
052           }
053              
054         }
055     }
056   }
057    
058    
059   public static class MartrixReducer extends Reducer<Text,Text,Text,Text> {
060      
061     private Text reduce_value = new Text();
062      
063     int jNumber = 150;
064      
065       int M_ij[] = new int[jNumber+1];
066     int N_jk[] = new int[jNumber+1];
067      
068     int j, ij, jk;
069      
070     String fileTarget;
071     int jsum = 0;
072      
073     public void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
074        
075       jsum = 0;
076        
077       for (Text val : values) {
078           String eachterm[] = val.toString().split("#");
079            
080           fileTarget = eachterm[0];
081           j = Integer.parseInt(eachterm[1]);
082            
083           if(fileTarget.equals("M")){
084               ij = Integer.parseInt(eachterm[2]);
085               M_ij[j] = ij;
086           }else if(fileTarget.equals("N")){
087               jk = Integer.parseInt(eachterm[2]);
088               N_jk[j] = jk;
089         }
090            
091       }
092        
093        
094       for(int d = 1; d<=jNumber; d++){
095           jsum +=  M_ij[d] * N_jk[d];
096       }
097        
098       reduce_value.set(String.valueOf(jsum));
099         context.write(key, reduce_value);
100        
101     }
102   }
103    
104  
105   public static void main(String[] args) throws Exception {
106        
107         Configuration conf = new Configuration();
108         String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
109         if (otherArgs.length != 2) {
110           System.err.println("Usage: MartrixMultiplication <in> <out>");
111           System.exit(2);
112         }
113          
114         Job job = new Job(conf, "martrixmultiplication");
115         job.setJarByClass(MartrixMultiplication.class);
116         job.setMapperClass(MartrixMapper.class);
117         job.setReducerClass(MartrixReducer.class);
118          
119         job.setOutputKeyClass(Text.class);
120         job.setOutputValueClass(Text.class);
121          
122         FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
123         FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
124          
125         System.exit(job.waitForCompletion(true) ? 0 : 1);
126                      
127   }
128    
129 }
分享到:
评论

相关推荐

    hadoop/mapreduce-矩阵乘法 mapreduce的实现(代码)

    最近在研究hadoop与mapReduce,网上教程只有个wordcount程序示范,太简单,故写了个相对复杂点的涉及到多个文件之间同时运算的矩阵乘法的代码用于实验与测试,上传供大家学习与参考。 调用方法: 执行:hadoop jar ...

    Hadoop实现大矩阵乘法

    总的来说,这个Hadoop实现大矩阵乘法的案例是理解分布式计算和Hadoop MapReduce的绝佳实例。通过分析和运行提供的代码,学习者不仅可以掌握大矩阵乘法的分布式实现,还能深入理解Hadoop的工作原理和编程技巧,对于...

    Hadoop原理与技术MapReduce实验

    2.矩阵相乘实验(matrix) (1)写matrix代码并把代码生成jar包 (2)运行命令 (1):把linus下的文件放到hdfs上 (2):运行MapReduce (3):查看运行结果 3.网页排名实验(pagerank) (1):写pagerank代码并把代码...

    hadoop-mapreduce-client-core-2.5.1-API文档-中文版.zip

    Maven坐标:org.apache.hadoop:hadoop-mapreduce-client-core:2.5.1; 标签:core、apache、mapreduce、client、hadoop、jar包、java、API文档、中文版; 使用方法:解压翻译后的API文档,用浏览器打开“index.html...

    Hadoop技术内幕 深入理解MapReduce架构设计与实现原理 高清完整中文版PDF下载

    ### Hadoop技术内幕:深入解析MapReduce架构设计与实现原理 #### 一、Hadoop及其重要性 Hadoop是一个开放源代码的分布式计算框架,它能够处理大量的数据集,并通过集群提供高性能的数据处理能力。随着大数据时代的...

    Hadoop计算框架:MapReduce

    文档较详尽的讲述了MR的简介,MR初学分析示例(有代码)、MR特性,MR的执行过程(有代码),MR单元测试介绍(有代码)、HA的架构和配置、同时也向大众推荐了两本书。其中部分有较为详尽的链接以供参考。

    Hadoop集群配置及MapReduce开发手册

    ### Hadoop集群配置及MapReduce开发手册知识点梳理 #### 一、Hadoop集群配置 **1.1 环境说明** - **操作系统**: CentOS 5 - **JDK版本**: Sun Java 6 - **SSH**: 已安装 - **Eclipse版本**: 3.4.2 (Linux版) - **...

    hadoop-mapreduce-client-jobclient-2.6.5-API文档-中文版.zip

    Maven坐标:org.apache.hadoop:hadoop-mapreduce-client-jobclient:2.6.5; 标签:apache、mapreduce、jobclient、client、hadoop、jar包、java、中文文档; 使用方法:解压翻译后的API文档,用浏览器打开“index....

    基于 Hadoop 平台,使用 MapReduce 编程,统计NBA球员五项数据.zip

    在这个项目“基于 Hadoop 平台,使用 MapReduce 编程,统计NBA球员五项数据”中,我们将深入探讨如何利用 Hadoop 的核心组件 MapReduce 对 NBA 球员的数据进行分析。 MapReduce 是一种编程模型,用于大规模数据集...

    hadoop-mapreduce-client-common-2.6.5-API文档-中英对照版.zip

    Maven坐标:org.apache.hadoop:hadoop-mapreduce-client-common:2.6.5; 标签:apache、mapreduce、common、client、hadoop、jar包、java、API文档、中英对照版; 使用方法:解压翻译后的API文档,用浏览器打开...

    基于Hadoop MapReduce的矩阵乘法

    1、资源内容:基于Hadoop MapReduce的矩阵乘法 2、代码特点:内含运行结果,不会运行可私信,参数化编程、参数可方便更改、代码编程思路清晰、注释明细,都经过测试运行成功,功能ok的情况下才上传的。 3、适用对象...

    hadoop-mapreduce-client-jobclient-2.6.5-API文档-中英对照版.zip

    Maven坐标:org.apache.hadoop:hadoop-mapreduce-client-jobclient:2.6.5; 标签:apache、mapreduce、jobclient、client、hadoop、jar包、java、API文档、中英对照版; 使用方法:解压翻译后的API文档,用浏览器...

    hadoop-mapreduce-client-app-2.6.5-API文档-中文版.zip

    Maven坐标:org.apache.hadoop:hadoop-mapreduce-client-app:2.6.5; 标签:apache、mapreduce、client、hadoop、jar包、java、中文文档; 使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件,即可...

    hadoop集群配置及mapreduce开发手册

    ### Hadoop集群配置及MapReduce开发手册知识点梳理 #### 一、Hadoop集群配置说明 ##### 1.1 环境说明 本手册适用于基于CentOS 5系统的Hadoop集群配置,具体环境配置如下: - **操作系统**:CentOS 5 - **JDK版本...

    hadoop-mapreduce-client-app-2.6.5-API文档-中英对照版.zip

    Maven坐标:org.apache.hadoop:hadoop-mapreduce-client-app:2.6.5; 标签:apache、mapreduce、client、hadoop、jar包、java、API文档、中英对照版; 使用方法:解压翻译后的API文档,用浏览器打开“index.html”...

    hadoop-mapreduce:hadoop MapReduce

    hadoop-mapreduce Hadoop MapReduce示例。 使用HDFS中存储的access.log文件,实现MapReduce以查找每个IP访问该网站的次数。先决条件: 已安装Hadoop。 将access.log文件复制到hdfs中。 假设它在hdfs:/// logs下用法...

    hadoop-mapreduce-client-core-2.7.3-API文档-中英对照版.zip

    Maven坐标:org.apache.hadoop:hadoop-mapreduce-client-core:2.7.3; 标签:apache、hadoop、mapreduce、client、core、中英对照文档、jar包、java; 使用方法:解压翻译后的API文档,用浏览器打开“index.html”...

    Hadoop技术内幕:深入解析MapReduce架构设计i与实现原理

    Hadoop技术内幕:深入解析MapReduce架构设计i与实现原理Hadoop技术内幕:深入解析MapReduce架构设计i与实现原理Hadoop技术内幕:深入解析MapReduce架构设计i与实现原理Hadoop技术内幕:深入解析MapReduce架构设计i与...

    hadoop-mapreduce-client-app-2.7.3-API文档-中英对照版.zip

    Maven坐标:org.apache.hadoop:hadoop-mapreduce-client-app:2.7.3; 标签:apache、hadoop、mapreduce、client、app、中英对照文档、jar包、java; 使用方法:解压翻译后的API文档,用浏览器打开“index.html”文件...

    Hadoop源代码分析(包org.apache.hadoop.mapreduce)

    包org.apache.hadoop.mapreduce的Hadoop源代码分析

Global site tag (gtag.js) - Google Analytics