`
poson
  • 浏览: 361399 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

超大矩阵乘法的并行计算?hadoop map-reduce矩阵乘法

阅读更多
hadoop ,行与行的乘法。
http://carbon.cudenver.edu/csprojects/CSC5809S01/Simd/parmult.html
一直很奇怪矩阵的乘法怎么在hadoop上面实现。看了上面的演示,才发现其实事情很简单。
矩阵M*N=A,受到习惯思维的影响,矩阵的一个元素Aij是M的一行与N的一列相乘。但是实际上可以转换为M的一列中的每一个数和N中每一行相乘,然后累加起来,就是最后的矩阵A。

PageRank算法可以整理为矩阵的乘法,最后也就化解为map-reduce的计算方法。


svd分解的并行算法:
《Parallel Algorithms for the Singular Value Decomposition 》
《A parallel algorithm for computing the singular value decomposition of a matrix》

分享到:
评论
9 楼 poson 2011-07-29  
就是一个hadoop的算法;
好像mahout里面有hadoop 矩阵运算的例子?没有看过
8 楼 poson 2011-07-29  
那个网页就是把矩阵运算行*列,转换为行与行求内积的一个算法;

好像最多就只做过100万*100万的稀疏矩阵的乘法;

20084896 写道
那个网址好像不能访问了
博主用hadoop做过实验吗? 支持多大规模的矩阵呢?

7 楼 Oh_Shit 2011-07-21  
楼主大哥,能否给个代码给我。 。
  我在做矩阵算法,无从下手啊/
6 楼 poson 2010-05-07  
我们做的矩阵估计是几十万乘几十万的矩阵,如果是稀疏矩阵应该可以更大一些。
5 楼 20084896 2010-05-06  
那个网址好像不能访问了
博主用hadoop做过实验吗? 支持多大规模的矩阵呢?
4 楼 poson 2010-04-20  
这个是否可以:http://www.kreny.com/pagerank_cn.htm
3 楼 ytulgr 2010-04-17  
那篇文章出处能否告知?谢谢!
2 楼 poson 2010-04-17  
我没有把PageRank算法整理为矩阵。我们的问题有点类似pagerank,基本上是使用近似的算法。
网上有篇文章介绍的特别的详细。
1 楼 ytulgr 2010-04-17  
我正在做超大矩阵乘法的并行计算,看到楼主的文章。楼主能否讲解一下关于PageRank算法整理为矩阵的乘法,最后也就化解为map-reduce的计算方法的过程。谢谢!

相关推荐

    hadoop map-reduce turorial

    Hadoop Map-Reduce框架是设计用于处理大规模数据集(多太字节级)的软件框架,它允许在大量廉价硬件集群上(可达数千节点)进行并行处理,确保了数据处理的可靠性与容错性。此教程全面介绍了Hadoop Map-Reduce框架的...

    Hadoop Map-Reduce教程

    ### Hadoop Map-Reduce 教程 #### 一、Hadoop Map-Reduce 概述 Hadoop Map-Reduce 是一种编程模型,用于处理大规模数据集(通常为TB级或以上)。这种模型支持分布式计算,可以在成百上千台计算机上运行。Map-...

    Map-Reduce原理体系架构和工作机制,eclipse与Hadoop集群连接

    通过将任务分解为Map和Reduce两个阶段,Map-Reduce能够有效地利用大量计算机资源进行并行处理。此外,通过Eclipse与Hadoop集群的有效连接,开发者可以在本地环境中轻松地编写、测试和调试Map-Reduce程序,进而提高...

    Hadoop实现大矩阵乘法

    在Hadoop上实现大矩阵乘法,可以充分利用其并行计算的优势,提高计算效率。 大矩阵乘法的基本概念是两个矩阵A(m×n)和B(n×p)相乘得到一个新的矩阵C(m×p),其中C的每个元素ci,j是通过将A的第i行与B的第j列对应元素...

    hadoop-eclipse-plugin-3.1.1.tar.gz

    使用Hadoop-Eclipse-Plugin时,建议遵循良好的编程习惯,如合理划分Mapper和Reducer的功能,优化数据处理流程,以及充分利用Hadoop的并行计算能力。同时,及时更新插件至最新版本,以获取最新的功能和修复。 通过...

    hadoop-common-2.6.0-bin-master.zip

    MapReduce则是一种编程模型,用于大规模数据集的并行计算,它将复杂计算任务分解为“映射”(map)和“化简”(reduce)两部分,便于分布式执行。 **Hadoop在Windows上的安装与配置** 在Windows上使用Hadoop通常...

    eclipse运行mr插件hadoop-eclipse-plugin-2.6.0.jar

    4. **配置Hadoop连接**: 在创建新的Hadoop Map/Reduce项目时,需要配置Hadoop集群的连接信息。这包括Hadoop的主节点地址、端口等。这些信息通常可以在Hadoop集群的配置文件如`core-site.xml`和`hdfs-site.xml`中找到...

    Hadoop-eclipse-plugin-2.7.6下载与说明

    3. **创建MapReduce项目**:在Eclipse中,你可以通过"File" -> "New" -> "Project" -> "Map/Reduce Project"创建一个新的Hadoop项目。选择合适的Hadoop版本(这里是2.7.6),然后为项目命名。 4. **编写MapReduce...

    hadoop-core-0.20.2 源码 hadoop-2.5.1-src.tar.gz 源码 hadoop 源码

    它将大型任务分解为许多小的Map任务和Reduce任务,这些任务在集群中的节点上并行执行。 3. **网络通信**:Hadoop使用`org.apache.hadoop.net`包中的类来处理网络通信,如`SocketServer`和`NetUtils`,它们负责节点...

    hadoop-3.3.0.tar.gz

    MapReduce则是一种编程模型,用于处理和生成大规模数据集,它将工作分解为“映射”(map)和“化简”(reduce)两个阶段,使得并行处理成为可能。 在Hadoop 3.3.0中,有一些值得注意的更新和改进: 1. **YARN增强*...

    hadoop-eclipse-plugin-2.7.1.jar

    4. 完成安装后,重启Eclipse,即可在"File" -> "New"菜单中看到“Hadoop Map/Reduce Project”选项。 同时,`no.txt`文件可能是用于记录某些说明或注意事项的文本文件,但具体内容需要打开文件查看。在Hadoop开发中...

    远程调用执行Hadoop Map/Reduce

    本篇文章将深入探讨“远程调用执行Hadoop Map/Reduce”的概念、原理及其实现过程,同时结合标签“源码”和“工具”,我们将涉及到如何通过编程接口与Hadoop集群进行交互。 Hadoop MapReduce是一种编程模型,用于大...

    hadoop-2.8.3-eclipse-plugin插件包

    MapReduce分为Map阶段和Reduce阶段,Map将大任务拆分成小任务并行处理,Reduce则对Map的结果进行聚合。同时,理解Hadoop的配置文件和YARN资源调度器也是必要的。 总之,Hadoop-2.8.3-Eclipse-Plugin是Hadoop开发的...

    hadoop-eclipse2.5.2、hadoop-eclipse2.6.0、hadoop-eclipse2.6.5

    2. **MapReduce**:Hadoop的并行计算模型,分为Map阶段和Reduce阶段。Map阶段将任务分解,Reduce阶段则进行结果聚合。这种模式非常适合大规模数据的批处理。 **Hadoop-Eclipse插件功能:** 1. **项目配置**:在...

    map-reduce.rar

    标题中的"map-reduce.rar"表明这是一个与MapReduce相关的压缩文件,MapReduce是Google提出的一种分布式计算模型,被广泛应用于大数据处理领域。Hadoop是Apache软件基金会开发的一个开源框架,它实现了MapReduce模型...

    hadoop-2.6.0-cdh5.7.0.tar.gz

    它将大型任务拆分成可并行处理的小任务(map阶段),然后将结果合并(reduce阶段)。 3. **YARN (Yet Another Resource Negotiator)**:在Hadoop 2.x中,YARN成为资源管理器,负责调度集群资源,分离了数据处理和...

    hadoop-3.1.3-src.tar.gz

    它将任务分解为Map阶段和Reduce阶段,便于分布式处理。 2. **Hadoop 3.1.3的改进与新特性** - **YARN(Yet Another Resource Negotiator)**:作为资源管理系统,它负责调度和管理集群中的计算资源,提高了资源...

    基于Hadoop-Map Reduce的算法.zip

    MapReduce是Google提出的一种分布式计算模型,它将复杂的并行计算任务分解为两个主要阶段:Map(映射)和Reduce(规约)。Map阶段负责将原始输入数据分割成多个键值对,并分别处理;Reduce阶段则负责对Map阶段产生的...

Global site tag (gtag.js) - Google Analytics