Mahout系列之------Canopy算法 -

thd52java

浏览: 72906 次
性别:
来自: 北京

最近访客更多访客>>

u012363178

wt_7628

liukp981

Char_CN

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Mahout系列之------Canopy算法

博客分类：

MAHOUT

mahout

Canopy 算法，流程简单，容易实现，一下是算法

（1）设样本集合为S，确定两个阈值t1和t2，且t1>t2。

（2）任取一个样本点p属于S，作为一个Canopy，记为C，从S中移除p。

（3）计算S中所有点到p的距离dist

（4）若dist<t1，则将相应点归到C,作为弱关联。

（5）若dist<t2，则将相应点移出S，作为强关联。

（6）重复（2）~（5），直至S为空。

上面的过程可以看出，dist<t2的点属于有且仅有一个簇，t2<dist<t1 的点可能属于多个簇。可见Canopy是一种软聚类。

Canopy有消除孤立点的作用,而K-means在这方面却无能为力。建立canopies之后，可以删除那些包含数据点数目较少的canopy，往往这些canopy是包含孤立点的。根据canopy内点的数目,来决定聚类中心数目k,这样效果比较好。

Canopy 聚类结果如下图：

Mahout canopy 聚类流程如下：

（1）将文本向量化。

在文档向量化之前，需要将出于一个目录中的文档序列化，所谓序列化就是将文档内容写成SequenceFile 格式,key:文档标题，value:文档内容。

该过程将文本分词，计算ngram ,特征抽取，生成字典，计算特征权重生成文档词矩阵。

值得说明的是该过程可以由其他的方法替代，不仅限于用Mahout ,只要能生成向量即可。

（2）用Canopy 聚类。

参数：

距离度量：cos距离（常用于文本距离度量）

T1：0.5左右

T2：0.25 左右

输入：向量化生成的sequencefile

当T1过大时，会使许多点属于多个Canopy，可能会造成各个簇的中心点间距离较近，各簇
间区别不明显；
当T2过大时，增加强标记数据点的数量，会减少簇个个数；T2过小，会增加簇的个数，同时
增加计算时间

（3）结果。

     ../clusteredPoints           最终结果，类标志向量
    .. /clusters-0                    簇中心

ClusteredPoints 数据如下：

   Key: 4: Value: 1.0: [1.000, -0.213, -0.956, -0.003, 0.056, 0.091, 0.017, -0.024, 1.000]
   Key: 3: Value: 1.0: [0:1.000, 1:3.147, 2:2.129, 3:-0.006, 4:-0.056, 5:-0.063, 6:-0.002, 7:0.109]
   Key: 0: Value: 1.0: [1.000, -2.165, -2.718, -0.008, 0.043, -0.103, -0.156, -0.024, 1.000]
   Key: 0: Value: 1.0: [1.000, -4.337, -2.686, -0.012, 0.122, 0.082, -0.021, -0.042, 1.000]

clusters-0 数据如下：

Key: C-0: Value: C-0: {8:0.9903846153846154,7:0.03641560060121199,6:-0.011104891601517057,5:-0.018746460252920098,4:0.0018451485029808527,3:0.02659166333809029,2:-2.0914853859015725,1:-2.2735344078494943,0:1.0}
Key: C-1: Value: C-1: {8:0.005681818181818182,7:-0.005705937927015517,6:0.018373023001902314,5:-0.02408518413578759,4:-0.0649238556654074,3:-0.003042417008279087,2:2.5123232537912283,1:2.0664589339683306,0:1.0}
Key: C-2: Value: C-2: {8:0.006493506493506494,7:-0.01019964334516059,6:0.023497740573602648,5:-0.03181163901232867,4:-0.05941297790332273,3:-0.017834190866604666,2:2.382976575761404,1:2.1735244959638065,0:1.0}
Key: C-3: Value: C-3: {8:0.007575757575757576,7:-0.011551099054202508,6:0.023459485214657627,5:-0.02978024551438345,4:-0.05926968634175531,3:-0.016503525708008473,2:2.2626847929337592,1:2.1570361543820167,0:1.0}
Key: C-4: Value: C-4: {8:0.9230769230769231,7:0.04076923076923077,6:-0.011730769230769232,5:-0.019307692307692307,4:0.024653846153846155,3:0.01373076923076923

分享到：

weka 算法大全 | mahout系列之-----相似度

2013-11-09 14:49
浏览 1336
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Mahout系列之------Canopy算法

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Mahout系列之------Canopy算法

评论

发表评论

相关推荐

Mahout系列----MinHash聚类

Mahout系列----谱聚类

Mahout系列之----kmeans 聚类

mahout系列之-----相似度

Mahout 系列之----距离度量

Mahout系列之----共轭梯度预处理

最近访客更多访客>>