K-means聚类方法

chakey

浏览: 367001 次
性别:
来自: 水星

最近访客更多访客>>

279135628

Garbage_bird

tc_123

liuxiao723846

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

mahout

Mapreduce C C++C#

K-means聚类方法

就是把空间内点，分成K类。同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。

用均值来代表类中心，并用于衡量与新点的距离。

初始值：

根据先验知识找到K个均值，做迭代初始值。

迭代公式：

1：从n个数据对象中选择k个对象作为初始聚类中心

2：将剩下的n-k个数据对象，按照他们和初始的k个值之间的距离大小，分配给与其最近的聚类。

3：计算形成的k个新聚类的聚类中心（该聚类中所有对象的均值）

4：重复2

5：类中心不再摆动，或者摆动幅度很小，趋于稳定，则终止。

测准函数一般使用均方差。

bin/mahout kmeans \

-i <input vectors directory> \

-c <input clusters directory> \

-o <output working directory> \

-k <optional number of initial clusters to sample from input vectors> \

-dm <DistanceMeasure> \

-x <maximum number of iterations> \

-cd <optional convergence delta. Default is 0.5> \

-ow <overwrite output directory if present>

-cl <run input vector clustering after computing Canopies>

-xm <execution method: sequential or mapreduce>

注意：当-k被指定的时候，-c目录下的所有聚类都将被重写，将从输入的数据向量中随机抽取-k个点作为初始聚类的中心。

分享到：

hadoop作业map过程调优使用到的参数笔记 | Hive使用一段时间后Hadoop集群占用空间暴增 ...

2011-02-25 15:23
浏览 3182
评论(5)
分类:编程语言
查看更多

5 楼大海lb 2012-04-28

求教，-c目录如何指定，自己随便定的目录，会报错：No clusters found. Check your -c path.，搞了好几天都不知道怎么弄？

4 楼此情此景 2011-03-07

多谢指教，看了结果，只是每类的个数及中心、半径啥的，没有各类中包含的样本都是哪些，呵呵就是每个记录属于哪个类的情况，呵呵

3 楼 chakey 2011-03-06

另外请参考：
./mahout seqdump –seqFile
和
./mahout clusterdump –seqFileDir
用法
他们都可以把SequeceFile转换成text格式。

2 楼 chakey 2011-03-06

此情此景写道

你好！kmeans结果是SequeceFile类型的文件，打不开，怎么看呢？

You may find Tika (http://lucene.apache.org/tika) helpful in converting binary documents to text.

1 楼此情此景 2011-03-04

你好！kmeans结果是SequeceFile类型的文件，打不开，怎么看呢？

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论