介绍:
Mahout 提供了可视化样本聚类的事例,根据以下聚类算法:
* Canopy Clustering
* Dirichlet
* Kmeans
* FuzzyKMeans
* MeanShift
预先准备
为了可视化聚类,你需要执行mahout-examples模块org.apache.mahout.clustering.display包下的java程序。如果使用eclipse,将mahout-examples转换成eclipse的项目,参见Working with Maven in Eclipse.(这里假定你已经熟悉使用maven管理项目)
可视化聚类
位于org.apache.mahout.clustering.display包下的class可以不带任何参数直接运行,生成样本数据,运行如下涉及的聚类:
1.DisplayClustering
生成1000样本均匀分布在3个分类。这是一个相同的数据集合被使用在下面的聚类程序。在屏幕上显示大量的点,迭代出参数模型以后用来生成大量的点。你也可以编辑generateSamples() 方法来改变在这个程序中使用的样本数据
2.DisplayDirichlet
使用Dirichlet程序聚类
3.DisplayCanopy
使用Canopy聚类
4.DisplayKMeans
使用k-Means聚类
5.DisplayFuzzyKMeans
使用 Fuzzy k-Means聚类
6.DisplayMeanShift
使用MeanShift聚类
如果你已经使用eclipse导入项目,选择任意一个刚刚提到的class,点击右键,选择"Run As - Java Application"
注意:
.这里的某些程序显示的样本点和当时反复迭代聚类。最终的迭代位于加粗的红色线框内,之前的数次迭代有不同的颜色(橘色,黄色,绿色,蓝色,品红)为了标识出更早的迭代使用轻灰色。这可以相像的描述出,多次迭代过程中怎样的一次次迭代
.改变参数值(k, ALPHA_0, numIterations) 和显示的SIGNIFICANCE,你将得到不同的结果
原文地址:https://cwiki.apache.org/confluence/display/MAHOUT/Visualizing+Sample+Clusters
分享到:
相关推荐
K均值聚类(K-Means聚类)-聚类算法-聚类可视化-MATLAB代码 本代码详细图文介绍,请点击博客主页查找对应文章查看。可保证运行,运行失败或报错免费解决。 k均值聚类算法的基本概念和原理 k均值聚类算法(k-...
DBSCAN聚类(密度聚类算法)-基于密度的聚类算法-聚类可视化-MATLAB代码 本代码详细图文介绍,请点击博客主页查找对应文章查看。可保证运行,运行失败或报错免费解决。 DBSCAN (Density-Based Spatial Clustering of ...
k-means聚类算法k-means聚类算法k-means聚类算法k-means聚类算法
本项目以MATLAB为开发语言,探讨了如何运用K-means算法对多维矩阵进行聚类并进行可视化展示。 K-means算法的基本步骤如下: 1. **初始化**:首先,选择K个初始质心(centroid),通常是随机选取数据集中的K个点。 ...
在提供的文件列表中,"Copy_of_Cluster_Flow.m"很可能是一个MATLAB脚本,用于实现整个聚类和可视化的过程。而"abnormal_heating_fragments11111.xlsx"则可能是包含故障类型数据的工作簿,其中可能包含了关于设备异常...
案例数据集《多元统计分析-聚类分析-K-均值聚类应用场景-电信用户》
聚类分析--孤立点分析
案例数据集《多元统计分析-聚类分析-K-均值聚类(K-中值、K-众数)-陶器化学成分》
总结来说,"轨迹聚类-trajectory-clustering"是一项旨在从地理位置轨迹数据中提取模式的技术,通过改进的DB-Scan等聚类算法实现。这一技术结合Linux环境下的编程实践,如Makefile,以及可能的数据集MoveBank,为理解...
02-MYAP:基于划分的聚类AP(Affinity Propagation Clustering Algorithm )算法的底层实现--近邻传播聚类算法 03-Adaptive-DBSCAN:自适应的基于密度的空间聚类(Adaptive Density-Based Spatial Clustering of ...
在本项目中,我们主要探讨如何使用K-means聚类算法对多维矩阵进行分析,并通过Matlab实现聚类及可视化展示。K-means是一种广泛应用的无监督学习方法,用于将数据集划分为多个互斥的类别或簇,使得每个簇内的数据点尽...
K-means聚类算法是一种迭代算法,它通过不断调整聚类中心来最小化聚类内部的总误差平方和。分层聚类则是一种逐步的过程,它通过合并或分裂的方式来逐步构建出一个聚类树。 在SPSS中进行聚类分析,通常遵循以下步骤...
K-means三维可视化聚类算法是一种在数据挖掘和机器学习领域广泛应用的无监督学习方法,主要用于将大量数据点划分为K个不同的簇或类别。它通过迭代过程来寻找最佳的簇中心,使得每个数据点与所属簇中心的距离最小。在...
machine learning_clusters_k-prototypes_聚类算法源码_python实现
Matlab实现:从K-means聚类到复杂Fcm和DBSCAN画图代码大全(肘部法评估及多评价因子优化),聚类算法 画图 Matlab代码 1-普通kmeans聚类 2-kmeans聚类(肘部法估计聚类数量) 3-kmeans聚类(多种评价因子计算) 4-...
人工智能_聚类_划分聚类_k-means_"轮廓系数"实现_确定最佳聚类数.py
5. **评估与分析**:通过可视化工具展示聚类结果,比如使用二维图(如TSNE图)展示不同类别的词向量分布,并且可能使用互信息、余弦相似度等指标评估聚类效果。 6. **应用示例**:可能包含一些实际场景的应用,比如...
聚类算法是机器学习领域中一种重要的无监督学习方法,它旨在将数据集中的样本根据特征相似性划分成若干个簇(cluster),在没有标签信息的情况下探索数据的内在结构。聚类分析广泛应用于市场细分、社交网络分析、...
这些坐标点可以帮助我们理解数据的分布情况,可视化结果,或者进一步进行分析。 在编程实现KMeans时,可以使用Python的scikit-learn库,它提供了简洁易用的接口。以下是一个简单的示例代码: ```python from ...