（转）K-均值聚类(K-means clustering) -

cyzhang999

浏览: 27099 次
性别:
来自: 北京

最近访客更多访客>>

fwch1982718627

TommyXXXXX

我是谁IV

itace

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

（转）K-均值聚类(K-means clustering)

博客分类：

MachineLearning

算法数据结构

K-均值聚类(K-means clustering)是Mac Queen提出的一种非监督实时聚类算法，在最小化误差函数的基础上将数据划分为预定的类数K。该算法原理简单并便于处理大量数据，在基因表达数据分析中得到广泛应用，如Tavazoie等应用K-means聚类酵母细胞周期表达数据。在K-means算法运行前必须先指定聚类数目K和迭代次数或收敛条件，并指定K个初始聚类中心，根据一定的相似性度量准则，将每一条基因分配到最近或“相似”的聚类中心，形成类，然后以每一类的平均矢量作为这一类的聚类中心，重新分配，反复迭代直到类收敛或达到最大的迭代次数。

K-means聚类算法对初始聚类中心依赖性比较大，随机选取初始聚类中心的缺点是如果使得初始聚类中心得到的分类严重偏离全局最优分类，这样算法可能会陷入局部最优值。而且当聚类数比较大的时候，这种缺点更为明显，往往要经过多次聚类才有可能达到较满意的结果。Yeung等提出了采用均连接层次聚类结果初始化K-means聚类中心。此方法有效地排除了随机初始化过程中引入的随机性因素，使得算法成为确定性的，可以得到稳定的聚类结果；而且，这种初始化方式也能够利用数据中的类结构信息，使得聚类质量相对于随机初始化时的平均质量有显著的提高。

K-means聚类算法的一般步骤：

初始化。输入基因表达矩阵作为对象集X，输入指定聚类类数N，并在X中随机选取N个对象作为初始聚类中心。设定迭代中止条件，比如最大循环次数或者聚类中心收敛误差容限。
进行迭代。根据相似度准则将数据对象分配到最接近的聚类中心，从而形成一类。初始化隶属度矩阵。
更新聚类中心。然后以每一类的平均向量作为新的聚类中心，重新分配数据对象。
反复执行第二步和第三步直至满足中止条件。
该算法理论严密，实现简单，已成为很多其它改进算法的基础，但它对初始码书的选择非常敏感。

以上部分为转载内容，———————————————————————————————————————————————————————————

k-means聚类的一个重要缺陷就是，初始中心点的选择，当初始中心点选择不当时，会使得算法容易陷入局部最优，所以很多的初始化的方法，下面这篇论文中，对常用的初始化的方法进行了比较，在实际使用中可以注意参考，能获得比较好的聚类效果。

论文名字是：
A systematic evaluation of different methods for
initializing the K-means clustering algorithm

附件中，是我下载的论文。