K-均值聚类(K-means clustering)是Mac Queen提出的一种非监督实时聚类算法,在最小化误差函数的基础上将数据划分为预定的类数K。该算法原理简单并便于处理大量数据,在基因表达数据分析中得到广泛应用,如Tavazoie等应用K-means聚类酵母细胞周期表达数据。在K-means算法运行前必须先指定聚类数目K和迭代次数或收敛条件,并指定K个初始聚类中心,根据一定的相似性度量准则,将每一条基因分配到最近或“相似”的聚类中心,形成类,然后以每一类的平均矢量作为这一类的聚类中心,重新分配,反复迭代直到类收敛或达到最大的迭代次数。
K-means聚类算法对初始聚类中心依赖性比较大,随机选取初始聚类中心的缺点是如果使得初始聚类中心得到的分类严重偏离全局最优分类,这样算法可能会陷入局部最优值。而且当聚类数比较大的时候,这种缺点更为明显,往往要经过多次聚类才有可能达到较满意的结果。Yeung等提出了采用均连接层次聚类结果初始化K-means聚类中心。此方法有效地排除了随机初始化过程中引入的随机性因素,使得算法成为确定性的,可以得到稳定的聚类结果;而且,这种初始化方式也能够利用数据中的类结构信息,使得聚类质量相对于随机初始化时的平均质量有显著的提高。
K-means聚类算法的一般步骤:
初始化。输入基因表达矩阵作为对象集X,输入指定聚类类数N,并在X中随机选取N个对象作为初始聚类中心。设定迭代中止条件,比如最大循环次数或者聚类中心收敛误差容限。
进行迭代。根据相似度准则将数据对象分配到最接近的聚类中心,从而形成一类。初始化隶属度矩阵。
更新聚类中心。然后以每一类的平均向量作为新的聚类中心,重新分配数据对象。
反复执行第二步和第三步直至满足中止条件。
该算法理论严密,实现简单,已成为很多其它改进算法的基础,但它对初始码书的选择非常敏感。
以上部分为转载内容,———————————————————————————————————————————————————————————
k-means聚类的一个重要缺陷就是,初始中心点的选择,当初始中心点选择不当时,会使得算法容易陷入局部最优,所以很多的初始化的方法,下面这篇论文中,对常用的初始化的方法进行了比较,在实际使用中可以注意参考,能获得比较好的聚类效果。
论文名字是:
A systematic evaluation of different methods for
initializing the K-means clustering algorithm
附件中,是我下载的论文。
分享到:
相关推荐
标题与描述中的“模式识别K-均值聚类法matlab实现程序”指向了一种在数据科学和机器学习领域广泛使用的算法——K-均值聚类(K-Means Clustering)。K-均值聚类是一种无监督学习方法,主要用于数据的分类与模式识别,其...
基于K-means聚类算法的图像分割 算法的基本原理: 基于K-means聚类算法的图像分割以图像中的像素为数据点,按照指定的簇数进行聚类,然后将每个像素点以其对应的聚类中心替代,重构该图像。 算法步骤: ①随机选取...
为了克服这些问题,研究人员提出了“变换K-均值聚类”(Transformed K-means Clustering)这一创新性的框架,它结合了变换学习(Transform Learning)和K-均值聚类,以提高聚类效果。 变换学习是一种新兴的表示学习...
k-均值聚类算法(K-Means Clustering)是一种广泛应用的数据分析方法,尤其在图像处理领域,常用于图像的灰度图像分割。该算法通过将数据集中的样本点分配到最近的聚类中心所属的类别,以此来达到划分的目的。在图像...
K-均值聚类算法是一种广泛应用的数据挖掘技术,主要用于无监督学习中的数据分类。它通过迭代过程将数据集划分为K个不同的簇,使得每个数据点都属于最近的均值(或中心)所在的簇。在Delphi XE5中实现K-均值聚类算法...
K-均值聚类是一种广泛应用的数据挖掘方法,属于无监督学习的范畴,主要用于发现数据集中的自然群体结构或模式。这个方法试图将数据点分配到K个不同的簇中,使得每个数据点都尽可能接近其所在簇的中心,也就是所谓的...
参考了其他学者的研究,如基于K-最近邻规则的分割算法、改进的K-平均聚类算法和K-Means初始聚类中心优化算法等,进一步深化了对K-均值聚类法在医学图像分割领域的理解。 总的来说,K-均值聚类法在脑图像自动阈值化...
k-means聚类是一种广泛应用的数据挖掘技术,主要目的是将数据集划分为K个互不重叠的类别,每个类别内部的数据点尽可能相似,而类别之间的差异性则尽可能大。这个过程是通过迭代来实现的,直到满足某种停止条件,如...
本项目采用K-均值聚类算法来实现这一功能,这是一种经典的无监督机器学习方法,常用于数据分类和分割。接下来,我们将详细讨论K-均值聚类及其在路标检测中的应用。 K-均值聚类是一种迭代算法,其目标是将数据集分为...
《K-均值聚类:理解与应用》 K-均值聚类是一种广泛应用的数据挖掘技术,用于将数据集中的对象分成不同的组或类别,这些组被称为簇。它基于距离度量,通过迭代过程来最小化簇内的变异性,最大化簇间的差异性。在本...
Fast K-means ...K-均值聚类也称为快速聚类法, Fast K-means clustering version 1.6 (1.46 MB) by Sebastien PARIS Fast mex K-means clustering algorithm with possibility of K-mean++ initialization.
本文探讨了将主成分分析(Principal Component Analysis, PCA)与K-均值聚类(K-means Clustering)结合的方法及其背后的数学原理。PCA是一种广泛使用的统计技术,用于无监督降维;而K-均值聚类则是一种常用的无监督...
K-均值聚类(K-Means Clustering)是一种广泛应用的数据分析方法,主要用于无监督学习中的数据分组。它通过迭代过程,将数据集中的样本点分配到最近的聚类中心所属的簇中,以最小化簇内点的平方误差总和。这一方法因...
k-means聚类是一种广泛应用的数据挖掘技术,常用于无监督学习场景,旨在将数据集划分为K个不同的簇,使得每个簇内的数据点尽可能相似,而不同簇之间的数据点尽可能不同。这种算法基于距离度量,如欧几里得距离,以...
在提供的压缩包文件“利用Excel-VBA语法实现二维数组的K均值聚类并生成图片.xlsm”中,包含了完整的VBA代码和实例数据。用户只需运行宏,就可以看到聚类过程的迭代以及最终的可视化结果。 总结来说,通过Excel的VBA...
《基于K-means聚类算法的图像分割在MATLAB中的实现》 图像分割是计算机视觉领域中的基础任务,它旨在将图像划分为多个区域或对象,每个区域具有相似的特征。K-means聚类算法是一种广泛应用的数据分析方法,它通过...
K-means聚类算法是一种广泛应用的无监督学习方法,主要用于数据的分组或分类,尤其在数据挖掘和机器学习领域。它的目标是将数据集划分为k个互不重叠的簇,使得同一簇内的数据点间的相似度尽可能高,而不同簇之间的...
k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其目的是将数据集划分为K个簇,每个簇通过其质心(cluster center)来表示。算法首先随机选择K个对象作为初始聚类中心,然后计算...