`
jimmee
  • 浏览: 541096 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

mapreduce的一些算法设计,优化等(2)

阅读更多

1. 反序(order inversion)模式

        通过反序模式,我们可以控制中间结果进入reducer的顺序,从而在reducer中先计算出一些结果(根据先进入reducer的中间结果计算出),而这些结果对于高效处理后续的数据很有意义。要使用反序模式,需要先将算法中的操作序问题转化为一般排序问题。

       以共现矩阵为例,要计算相对频率问题。

 

(1)stripe算法的调整

    改进为计算相对频度很简单:只需要在原先的reduce操作完毕后,再加上一步类似于归一化的操作,即,对于每个(w, H=[(w1,c1),(w2,c2)…(wn,cn)]),先遍历一遍H,计算计数加和S=c1+c2+…+cn,然后再次遍历H,将H更新为[(w1,c1/S),(w2,c2/S)…(wn,cn/S)]即可。

 

(2)pair算法调整

      pair算法中,reducer接受的数据类型是((wi,wj),count). 这里key使用的是自定义类型的数据。我们可以在reducer中构建类似于stripe算法中的关联数组H,类似于(w, H=[(w1,c1),(w2,c2)…(wn,cn)]). 对于(wi,ci)∈H,ci即为共现(w,wi)的计数(频度)。当所有与w有关的共现都已统计完毕,即可计算相对频度。

 

还需要解决的两个问题:

1)需要要所有具有相同wi的((wi,wj),1)输出到同一个reduce节点,这个只需要实现自定义的partitioner,这个partitioner仅仅根据key中的左值(即wi)计算hash.

2)其次,(wi, wj)先根据wi排序,再根据wj排序

 

(3) 存在的共同问题,value值可能很大,造成oom

 

    解决办法(即使用反序模式):在最初的pair算法中,mapper输出的数据类型是((wi,wj),1). 在此基础上对mapper做一点小改动:每次生成一个((wi,wj),1),我们额外生成一个((wi,*),1),用以表示包含wi的共现计数加1. 这两种中间对经过combiner的合并后将会分别变成形如((wi,wj),[cij1,cij2,…,cijn])与((wi,*),[ci1,ci2,…,cin])的中间结果。如果reducer能够先处理后者,再处理前者,那么就可以先计算出所有包含wi的共现计数和S,计算出S后即可直接处理所有形如((wi,wj),[cij1,cij2,…,cijn])的中间结果,无需记录庞大的关联数组了。要做到这一点,我们只要保证送入reducer中的数据((wi,*),1)类的key-value对排在((wi,wj),1)之前即可,这可以通过修改排序规则达成。

 

2. 二次排序,value移动到key的模式(value-to-key conversion design pattern)

       二次排序即相同的key对应的value,希望在处理时是有序的,直观的处理方式是,获取到key的所有value,再做排序。但是这里存在一个潜在的危险,即value值可能很多,内存放不下,从而oom错误。可以使用value-to-key conversion design pattern的模式处理这个问题,原理很简单,就是将要排序的value值,移动到原始的key中,一起组成一个复合的key值pair(key,value),从而利用hadoop框架的排序能力。 在写map任务时,一些调整点:

      (1)pair的第一个key相同,发到相同的reduce节点

      (2)实现pair的排序规则,先key排序,再按value排序

      (3)需要实现GroupingComparator,根据相同的pair中的key进行分组

分享到:
评论

相关推荐

    基于MapReduce实现决策树算法

    6. 决策树算法在MapReduce中的实现细节:在基于MapReduce实现决策树算法中,需要对决策树算法的实现细节进行详细的设计和实现,例如对树的节点进行实现、对决策树的分裂和叶节点的计算等。 7. MapReduce框架在决策...

    基于MapReduce的商品推荐算法.zip

    在Hadoop生态系统中,我们可以通过Apache Mahout或者Spark MLlib等库实现基于MapReduce的推荐算法。Mahout提供了丰富的推荐算法实现,包括基于用户和物品的协同过滤,而Spark的并行计算能力则使得实时推荐成为可能。...

    基于MapReduce分布式连接算法优化技术研究.pdf

    综上所述,文件内容展示了MapReduce分布式连接算法的相关理论和技术优势,以及并行计算技术、QR树索引、集群技术的重要性,它们在分布式系统中的应用和优化对于解决大规模数据集的并行计算问题提供了实际的参考和...

    MapReduce实现矩阵相乘算法

    - **优化策略**:可以通过调整MapReduce的配置参数,如减少shuffle的数据传输量,提高并行度,优化磁盘I/O等,来提升计算效率。 最后,`AlgorithmProject`可能是该项目的源代码或者文档,里面可能包含了具体的实现...

    基于mapreduce的并行算法的设计 课件

    基于MapReduce的并行算法设计是大数据处理领域的一个核心课题。MapReduce是一种由Google提出的大规模数据处理模型,它将计算任务分解为两个阶段:Map和Reduce。Map阶段将输入数据映射成一系列中间键值对;Reduce阶段...

    MapReduce 设计模式

    书中可能还会包含其他更高级的主题,如自定义输入/输出格式、MapReduce工作流以及如何优化MapReduce作业性能等。总的来说,《MapReduce设计模式》是一本实用的参考书,对于希望深入理解和利用MapReduce框架的IT专业...

    基于哈希技术与MapReduce的大数据集K-近邻算法实现代码

    哈希技术是一种数据结构和算法设计方法,它通过哈希函数将任意大小的数据映射到固定长度的哈希值。在大数据场景下,哈希技术常用于快速查找、去重和分布式存储。哈希碰撞(两个不同的输入得到相同的哈希值)是哈希表...

    用MapReduce实现KMeans算法

    总之,用MapReduce实现KMeans算法是一项挑战,但通过合理的设计和优化,可以在大规模数据集上有效地执行聚类任务。实际应用中,应根据数据规模、硬件资源以及特定需求,灵活调整算法参数和实现策略,以达到最佳性能...

    MapReduce下的Dijkstra并行算法研究.pdf

    为了解决这个问题,可以引入Combiner来减少数据通信量,或者采用更复杂的并行算法设计,比如基于内存的分布式数据结构(如分布式堆或布隆过滤器)来加速查找和更新过程。 此外,为了优化性能,可以考虑以下几个方面...

    云计算之mapreduce算法

    学习MapReduce不仅需要理解其基本概念,还要掌握如何设计和优化Map和Reduce函数,以及如何处理数据分片和分区策略。通过深入学习和实践,可以更好地利用云计算平台提供的MapReduce服务,有效处理和分析大规模数据。

    大数据挖掘中的MapReduce并行聚类优化算法研究.pdf

    在大数据环境下,为了进一步提高聚类效率,研究者将该优化算法在Hadoop的MapReduce框架下进行了并行化设计。Hadoop是一个由Apache基金会开发的开源分布式存储和计算平台,它允许开发者通过MapReduce模型并行处理大量...

    Hadoop课程设计-基于Java和mapreduce实现的贝叶斯文本分类器设计

    在本Hadoop课程设计中,我们将探讨如何使用Java编程语言和MapReduce框架来实现一个贝叶斯文本分类器。这个项目旨在让学生理解大数据处理的基本原理,以及如何利用Hadoop生态系统来解决实际问题,特别是文本分类任务...

    基于MapReduce框架一种文本挖掘算法的设计与实现

    这主要得益于MapReduce框架的并行处理能力和算法设计的优化策略。通过对比不同规模数据集的处理时间,可以看出算法的效率随数据量的增加而保持稳定,验证了其在实际应用中的可行性与优势。 #### 结论与展望 综上所...

    天津工业大学《算法设计与分析》期末复习题(含答案).pdf

    - 大数据处理中的算法优化,如MapReduce框架中的算法设计。 由于给定的文件内容重复且无实际算法内容,以上知识点是根据“算法设计与分析”这一课程的常规内容整理而来。期末复习时,学生应当重点回顾这些知识点,...

    面向MapReduce的大数据分类模型及算法.pdf

    在本文档中,作者柯建波主要探讨了面向MapReduce的大数据分类模型及算法,旨在解决传统大数据分类模型及算法处理数据时间长的问题。 首先,MapReduce是互联网领域中的一种分布式计算模型,它被广泛应用于大规模数据...

    MapReduce算法

    ### MapReduce算法详解 #### 一、概述 MapReduce是一种编程模型,用于处理大规模数据集(通常是TB到PB级别的数据)的并行计算任务。它最初由谷歌工程师Jeff Dean和Sanjay Ghemawat设计实现,并在《MapReduce: ...

    基于Apriori算法的频繁项集Hadoop mapreduce

    然而,需要注意的是,由于MapReduce的通信开销,对于某些特定数据结构和算法,可能有更优化的分布式解决方案,如Spark的FP-Growth等。 总结起来,"基于Apriori算法的频繁项集Hadoop mapreduce"是一个利用大数据处理...

    基于hadoop的apriori算法设计于实现

    本文介绍了一种基于Hadoop平台优化的Apriori算法设计方案。通过利用Hadoop的分布式计算能力和HBase的高效存储特性,有效解决了传统Apriori算法存在的问题。实验结果证明了该方案的有效性和优越性,对于大规模GIS数据...

Global site tag (gtag.js) - Google Analytics