`
chakey
  • 浏览: 363840 次
  • 性别: Icon_minigender_1
  • 来自: 水星
社区版块
存档分类
最新评论

K-means聚类方法

阅读更多


K-means聚类方法


就是把空间内点,分成K类。同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。

用均值来代表类中心,并用于衡量与新点的距离。


初始值:

根据先验知识找到K个均值,做迭代初始值。


迭代公式:

1:从n个数据对象中选择k个对象作为初始聚类中心

2:将剩下的n-k个数据对象,按照他们和初始的k个值之间的距离大小,分配给与其最近的聚类。

3:计算形成的k个新聚类的聚类中心(该聚类中所有对象的均值)

4:重复2

5:类中心不再摆动,或者摆动幅度很小,趋于稳定,则终止。


测准函数一般使用均方差。


bin/mahout kmeans \

    -i <input vectors directory> \

    -c <input clusters directory> \

    -o <output working directory> \

    -k <optional number of initial clusters to sample from input vectors> \

    -dm <DistanceMeasure> \

    -x <maximum number of iterations> \

    -cd <optional convergence delta. Default is 0.5> \

    -ow <overwrite output directory if present>

    -cl <run input vector clustering after computing Canopies>

    -xm <execution method: sequential or mapreduce>


注意: 当-k被指定的时候,-c目录下的所有聚类都将被重写,将从输入的数据向量中随机抽取-k个点作为初始聚类的中心。

 

分享到:
评论
5 楼 大海lb 2012-04-28  
求教,-c目录如何指定,自己随便定的目录,会报错:No clusters found. Check your -c path.,搞了好几天都不知道怎么弄?
4 楼 此情此景 2011-03-07  
多谢指教,看了结果,只是每类的个数及中心、半径啥的,没有各类中包含的样本都是哪些,呵呵就是每个记录属于哪个类的情况,呵呵
3 楼 chakey 2011-03-06  
另外请参考:
./mahout seqdump –seqFile

./mahout clusterdump –seqFileDir
用法
他们都可以把SequeceFile转换成text格式。
2 楼 chakey 2011-03-06  
此情此景 写道
你好!kmeans结果是SequeceFile类型的文件,打不开,怎么看呢?

You may find Tika (http://lucene.apache.org/tika) helpful in converting binary documents to text.
1 楼 此情此景 2011-03-04  
你好!kmeans结果是SequeceFile类型的文件,打不开,怎么看呢?

相关推荐

    基于k-means聚类方法和DTW算法结合起来分析时间序列类型的用户用电数据源码+项目说明.zip

    传统K-means聚类方法使用欧氏距离进行分类的依据,无法处理长短不一的时间序列数据。基于DTW距离的时间序列聚类算法,与传统的k-means算法相比,能够处理非线性对齐的时间序列,因此适用于更广泛的应用领域。 实验 ...

    详解Java实现的k-means聚类算法

    Java实现的k-means聚类算法详解 k-means聚类算法是一种常用的无监督学习算法,用于对数据进行聚类分析。该算法的主要思想是将相似的数据点聚类到一起,形成不同的簇。Java语言是实现k-means聚类算法的不二之选。 ...

    基于K-means聚类算法的图像分割及其MATLAB实现

    基于K-means聚类算法的图像分割 算法的基本原理:  基于K-means聚类算法的图像分割以图像中的像素为数据点,按照指定的簇数进行聚类,然后将每个像素点以其对应的聚类中心替代,重构该图像。 算法步骤: ①随机选取...

    K-means聚类方法的java实现

    以下将详细阐述K-means聚类方法的原理、Java实现的关键步骤以及可能遇到的问题。 **K-means算法原理** 1. **初始化**: K-means算法首先需要选择K个初始质心(centroid),通常是随机选取数据集中的K个点作为起始...

    基于改进的K-means聚类的多区域物流中心选址算法

    针对当前多区域物流中心选址需建立配送中心个数不定、位置、覆盖范围不明的问题,本文提出了一种改进的k-means聚类算法,以城市经济引力模型为基础,将城市运输距离与居民消费能力的指标相结合,重新定义对象之间...

    k-means聚类方法c++实例

    以简单的代码快速实现k-means聚类方法,以20个2维样本数据为例

    基于主成分分析与K-means聚类的汽车行驶工况构建.docx

    本文提出了一种基于主成分分析和K-means聚类的汽车行驶工况构建方法。通过对汽车实际道路行驶数据的采集和处理,提取运动学片段特征,并使用主成分分析和K-means聚类方法构建汽车行驶工况曲线。该方法可以capturing...

    基于K-means聚类算法的图像分割(MATLAB实现).rar_ASV聚类_K-Means图像分割_k means_rest

    K-means聚类算法是一种广泛应用的数据分析方法,它通过寻找数据集中的“中心点”(或称为质心)来对数据进行分组。在图像处理中,K-means可以用来进行图像分割,将像素划分为不同的类别,以揭示图像的潜在结构。 ...

    国信证券_20161205_金融工程专题研究:基于k-means聚类的多因子特征检验.pdf

    k-means聚类是一种常见的无监督学习方法,广泛应用于数据挖掘、模式识别等领域。在金融领域,该方法可以用于识别股票市场中不同的群体特征,从而为投资者提供更加精细化的投资决策支持。 #### k-Means聚类基础 - *...

    k-means聚类分析

    k-means聚类是一种广泛应用的数据挖掘技术,常用于无监督学习场景,旨在将数据集划分为K个不同的簇,使得每个簇内的数据点尽可能相似,而不同簇之间的数据点尽可能不同。这种算法基于距离度量,如欧几里得距离,以...

    k-means聚类 动画演示

    k-means聚类是一种广泛应用的数据挖掘技术,主要目的是将数据集划分为K个互不重叠的类别,每个类别内部的数据点尽可能相似,而类别之间的差异性则尽可能大。这个过程是通过迭代来实现的,直到满足某种停止条件,如...

    基于改进K-means聚类计及分布式光伏和电动汽车的园区负荷聚合体的最优构建.pdf

    该方法通过将K-means聚类算法与万有引力模型相结合,实现了对用户负荷的聚类和优化配置。同时,文中还提出了一个多目标优化模型,旨在实现负荷聚合体的波动最小和用户效益的最大化。 首先,文中介绍了基于改进K-...

    k-means聚类学习算法matlab源码

    K-means聚类算法,作为一种简单而有效的无监督机器学习方法,被广泛应用于数据挖掘和图像处理领域,尤其是在计算机视觉中,它能够对图像进行自动分类,识别特征,帮助理解复杂的数据结构。MATLAB作为强大的科学计算...

    基于特征选择的K-means聚类异常检测方法

    但是,传统的K-means聚类算法在选取初始中心和度量相似性上有一定缺陷。针对传统的K-means算法中存在的问题,本文对原有的方法进行了改进。第一,在初始化聚类中心时选取了一种优化的方法作为初始聚类中心,替代原有的...

    深大计软_最优化方法_实验1:K-Means聚类之Python实现手写数字图像MNIST分类

    在本实验中,我们将深入探讨如何使用Python编程语言和K-Means聚类算法来对MNIST数据集中的手写数字图像进行分类。MNIST数据集是机器学习领域的一个经典基准,它包含了大量的0到9的手写数字图像,用于训练和测试图像...

    基于 K-means 聚类算法的图像区域分割.zip

    基于 K-means 聚类算法的图像区域分割,首先从数据样本种选取K个点作为初始聚类中心,其次计算各个样本到聚类的距离,把样本归到离它最近的那个聚类中心所在的累,计算新形成的每个聚类的数据对象的平均值来得到新的...

    K-MEANS聚类算法的实现

    K-MEANS聚类算法的实现 K-MEANS聚类算法是一种常用的无监督机器学习算法,主要用于对数据进行聚类分析。该算法的主要思想是将相似的数据对象划分到同一个簇中,使得簇内的数据对象尽量相似,而簇间的数据对象尽量...

    基于 K-means 聚类算法的图像区域分割

    K-means聚类是一种常见的无监督学习方法,用于将数据集划分为K个互不重叠的类别,每个类别由其内部数据点的均值代表。在这个特定的应用中,它被用来对图像进行区域分割,即将图像分割成不同的部分,每个部分具有相似...

Global site tag (gtag.js) - Google Analytics