五一假期,还好没有出去,到处都是堵啊。闲在看看分类、聚类算法、关联算法,现总结一下常见的聚类算法并进行MR分析。
1.K-means基本原理:首先随机的选择K个对象,每个对象代表一个簇的初始均值和中心;对剩余的每个对象,根据其与各个簇的均值的距离,将其指派到最相似的簇。然后计算每个簇的新均值,过程不断重复直到准则函数收敛
效率分析:时间复杂度O(nki)、空间复杂度O(k)
MapReduce并行化分析:k-means从逻辑上分为三部分:聚类中心初始化、迭代更新聚类中心、聚类标注。三部分都可以MR并行化
2.CLARANS
基本原理:与k-means相似,也是以聚类中心划分聚类的,一旦k个聚类中心确定了,聚类马上就能完成。不同的是k-means算法以类簇的样本均值代表聚类中心,而CLARANS采用每个簇中选择一个世纪的对象代表该簇。其余的对每个对象聚类到其最相似的代表性对象所在的簇中。
效率分析:时间复杂度O(n^2)、空间复杂度O(ks)
MR并行化分析:CLARANS从逻辑上分为三部分:聚类中心和邻域样本初始化、迭代更新聚类中心、聚类标注;均可并行化处理
3.DBSCAN
基本原理:DBSCAN算法一种基于密度的聚类算法,与划分和层次聚类算法不同,它将 簇定义为密度相连的点的最大集合,能够将足够高的密度区域划分为簇,并可以在有噪声的空间数据中发现任意形状的聚类
效率分析:时间复杂度O(n^2)空间复杂度O(n)
MR并行化分析:DBSCAN从逻辑上分为三部分:样本抽样、对抽样样本进行聚类、聚类标注;均可并行化计算。
4.BIRTH
基本原理:BIRTH算法利用层次方法的平衡迭代规约和聚类,是一个综合的层次聚类方法,它用聚类特征和聚类特诊树概括聚类特征,该算法可以通过聚类特征可以方便的进行中心、半径、直径以及类内、类间进行距离的计算
效率分析:时间和空间的复杂度均为O(N)
MR并行化分析:不适合对分隔的数据进行处理,而且是增量计算的
5.Chameleon
基本原理:Chameleon(变色龙算法)是在一个层次聚类中采用动态模型进行聚类的 方法。在它的聚类过程中,如果两个簇间的互联性和近似度与簇内部对象间的互联性和近似高度相关,则合并这两个簇。基于动态模型的合并过程中有利于自然的聚类发现,而且只要定义了相似度函数就可以应用于所有类型的数据。
效率分析:时间复杂度O(n^2)、空间复杂度O(n)
MR并行化分析:不适合对分隔数据处理
6.STING
基本原理:STING是一种基于网格的多分辨率聚类技术,它将空间区域划分为矩形单元,针对不同级别的分辨率,通常存在多个级别的矩形单元,这些单元形成了一个层次结构;高层的每个单元划分为多个第一层的单元
效率分析:时间复杂度O(n)、空间复杂度O(l)
MR并行化分析:算法的数据分隔不是简单的块分隔,不适合MR并行化处理
注:n为样本的个数,k为类簇的个数,i为算法的迭代次数,s为每次抽样的个数,d为样本的属性个数
分享到:
相关推荐
。ABC-Km1.。eans聚类算法的MapReduce并行化研究.pdf
该算法通过并行化的方式改进了传统的串行AP聚类算法,提高了算法对大规模数据集的处理效率。在实验中,作者使用了不同规模的图数据进行了聚类测试,实验结果证明了分布式AP聚类算法的时间效率和加速比都很优秀。这...
通过这两种算法的并行化研究,论文不仅提升了聚类分析的效率,也为其他复杂算法的MapReduce并行化提供了借鉴。此外,论文可能还讨论了算法的性能评估、资源利用率、扩展性和容错性等方面,以确保在大规模数据集上的...
### Hadoop 实现聚类算法 ...总之,通过将Hadoop的MapReduce框架应用于聚类算法,我们不仅能够处理更大的数据集,还能够更高效地完成数据分析任务。这为解决实际问题提供了强大的工具和技术支持。
针对这一问题,提出了一种基于MapReduce模型的并行化k-medoids聚类算法,首先采用基于密度的聚类思想对k-medoids算法初始点的选取策略进行优化,并利用Hadoop平台下的MapReduce编程框架实现了算法的并行化处理。...
针对K-means聚类算法受初始类中心影响,聚类结果容易陷入局部最优导致聚类准确率较低的问题,提出了一种基于自适应布谷鸟搜索的K-means聚类改进算法,并利用MapReduce编程模型实现了改进算法的并行化。通过搭建的Hadoop...
并行化核K-means聚类算法是另一项改进工作,它利用了CPU和GPU的辅助能力,进一步减少了聚类算法的耗时。尽管如此,该方法仍然需要进一步优化才能满足大数据环境的要求。随着云计算和分布式计算平台的发展,MapReduce...
在大数据场景下,KMeans算法的并行化处理变得尤为重要。 二、Hadoop分布式文件系统(HDFS) Hadoop是Apache软件基金会开发的一个开源分布式计算框架,其核心组件包括HDFS和MapReduce。HDFS提供了一个高度容错的...
MapReduce将复杂任务分解为“映射”和“规约”两个阶段,实现了数据处理的并行化。而Spark平台则引入了弹性分布式数据集(RDD),其内存计算模型提高了数据处理速度,并采用了主从架构运行。 接着,论文详细阐述了...
其中,聚类算法作为数据挖掘的重要技术之一,在处理海量数据时面临了诸多挑战。传统的聚类算法在处理大数据集时效率低下,且当数据量巨大时,单个节点的数据处理能力显得不足,同时还会遇到数据隐私泄露等安全问题。...
基于MapReduce框架的聚类算法,可以有效地解决大数据环境下的计算问题。MapReduce的核心思想在于将一个大的计算任务分解为若干个小任务,这些小任务可以在不同的节点上同时进行。随后,系统会对所有小任务的中间结果...
在Hadoop平台上,采用HDFS存储数据、MapReduce编程模式来实现对海量数据的并行化处理。 3. Canopy+KMeans算法:Canopy算法是一种基于密度的聚类算法,能够较大程度地提高KMeans算法的正确率。本文介绍了基于Canopy+...
在聚类算法中,MapReduce可以并行处理数据集的不同部分,以提高算法处理速度和可扩展性。 知识点三:近邻传播聚类算法(Affinity Propagation, AP) 近邻传播聚类算法是一种基于图论的聚类算法,其原理是通过信息...