1.下载Mahout
http://www.apache.org/dist//mahout/0.4/
2.解压
tar zxvf mahout-distribution-0.4.tar.gz
3.算法列表
./bin/mahout -h
显示出当前mahout支持的所有算法
聚类Clustering
Clustering of synthetic control data
Pre-Prep
1)下载输入数据,点
这里
由60行60列组成
_time | _time+x | _time+2x | .. | _time+60x |
28.7812 | 34.4632 | 31.3381 | .. | 31.2834 |
24.8923 | 25.741 | 27.5532 | .. | 32.8217 |
..
..
35.5351 | 41.7067 | 39.1705 | 48.3964 | .. | 38.6103 |
24.2104 | 41.7679 | 45.2228 | 43.7762 | .. | 48.8175 |
..
..
2)启动hadoop
$HADOOP_HOME/bin/start-all.sh
3)将数据上传到hadoop
$HADOOP_HOME/bin/hadoop fs -mkdir testdata
$HADOOP_HOME/bin/hadoop fs -put <PATH TO synthetic_control.data> testdata
创建测试目录testdata,并把数据导入到这个tastdata目录中(这里的目录的名字只能是testdata)
Perform Clustering
a.For canopy :
$MAHOUT_HOME/bin/mahout org.apache.mahout.clustering.syntheticcontrol.canopy.Job
b.For kmeans :
$MAHOUT_HOME/bin/mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
c.For fuzzykmeans :
$MAHOUT_HOME/bin/mahout org.apache.mahout.clustering.syntheticcontrol.fuzzykmeans.Job
d.For dirichlet :
$MAHOUT_HOME/bin/mahout org.apache.mahout.clustering.syntheticcontrol.dirichlet.Job
e.For meanshift :
$MAHOUT_HOME/bin/mahout org.apache.mahout.clustering.syntheticcontrol.meanshift.Job
也可以直接在hadoop环境下运行
hadoop jar mahout-examples-0.4-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
Read / Analyze Output
1)查看所有输出文件
hadoop fs -lsr output
2)下载到本地
hadoop fs -get output $MAHOUT_HOME/examples
转入output目录下,
$cd MAHOUT_HOME/examples/output
$ls
如果看到以下结果,那么算法运行成功,你的安装也就成功了:
clusteredPoints clusters-1 clusters-2 clusters-4 clusters-6 clusters-8 data
clusters-0 clusters-10 clusters-3 clusters-5 clusters-7 clusters-9
3)单个的集群结果在output/clusters-i
4)所有集群汇总结果在output/clusteredPoints
结果是sequence格式的。如果直接在hdfs上查看,使用
./bin/mahout vectordump --seqFile output/data/part-m-00000
分享到:
相关推荐
标题中的“Australian Sign Language synthetic_control gait 等数据”涉及了三个主要概念:澳大利亚手语(Australian Sign Language,简称Auslan)、synthetic control(合成控制)以及gait-data(步态数据)。...
Our clustering algorithm is tested on some well-known data sets from UCI and on some synthetic data. The experiment results show that our method outperforms the global K-means algorithm.And then, a ...
ts_cluster 使用 R 的时间序列聚类 这个 repo 只是一个示例 repo,用于学习如何对时间序列数据进行聚类。... 我们使用的数据是来自 UCI 的 Synthetic Control Chart Time Series,更多详细信息您可以访问
花授粉算法matlab代码分区聚类 使用流行的元启发式算法在聚类过程中找到最佳聚类中心 基于和谐搜索的聚类算法 - This set of files perform Harmony search based clustering algorithm. - The proposed novel ...
Mahout的kmeans聚类测试数据
在处理“synthetic_control.data”时,我们首先要将其导入到Hadoop集群,这可以通过Hadoop的命令行工具实现。然后,使用Mahout0.9提供的工具对数据进行预处理,如创建向量文件、构建索引等,这是执行机器学习任务的...
1. "synthetic_control.data" 可能是一个数据文件,包含了用于聚类分析的合成数据。这种数据通常是人为生成的,用于测试算法的性能或者演示算法的工作原理。 2. "计算机仿真2010项目设计_何金龙_071974.docx" 可能是...
本次数据挖掘实验采用的数据源是来自加州大学计算机与信息学院的synthetic_control_chart.data数据集。该数据集主要用于合成控制图时间序列聚类分析,包含600组数据,每组数据由60个分量构成,即数据维度为60。这600...
合成孔径雷达(Synthetic Aperture Radar,简称SAR)是一种主动式的遥感技术,不受光照条件限制,能在全天候、全天时下获取地表信息。SAR图像的分析与处理是遥感领域的重要研究方向,其中图像分割是关键步骤之一,它...
极化合成孔径雷达(Polarimetric Synthetic Aperture Radar, 简称PolSAR)图像是一种利用电磁波极化特性获取地表信息的技术,广泛应用于地质勘探、环境监测、城市规划等领域。本主题主要关注的是如何通过Freeman分解...
Experimental results carried on synthetic data set and data set based on actual background illustrate the performance of the new validity function and the corresponding fuzzy clustering algorithm. ...
6. **Synthetic Data Clustering**:可能用于测试和验证算法性能的人工数据聚类代码。 四、算法优势 相比传统的SSC,基于稀疏表示的快速子空间聚类有以下优点: 1. **效率更高**:由于采用稀疏编码,避免了计算...
文献中提到的Frost滤波后的模糊C均值聚类法(Fuzzy C-Means Clustering,FCM)改善了这一情况。DI分析则涉及阈值法、聚类法和机器学习方法。阈值法简单但易受图像统计分布影响,聚类法则无需建立模型,如主成分分析...
实验结果显示,该算法在Synthetic Control和ECG数据集上表现优秀,尤其是在聚类准确率上显著优于使用KPDIST的方法。这表明结合DTW和符号化聚类的策略能更好地处理不等长时间序列,提供更精确的聚类结果。 总结来说...
标题中提到的“两层聚类的类别不平衡数据挖掘算法”涉及了机器学习和数据挖掘领域中的一个具体问题——类别不平衡问题。在现实世界的数据集中,经常存在一些类别(即样本所属的标签)的数量远多于其他类别的情况,...
这里我们使用了一个名为 `synthetic_control.data` 的数据集,你可以通过网络下载或者本地拖放至 `/usr/local` 目录。之后,使用 Hadoop 命令创建数据存储路径,并将数据上传到 HDFS(Hadoop 分布式文件系统): ``...
极化 Synthetic Aperture Radar (SAR) 是一种遥感技术,它使用雷达信号与地表交互,通过分析返回的信号来获取地表信息。在 SAR 数据处理中,极化熵和极化散射角是两个关键概念,它们有助于理解地表特征并进行分类。 ...
结合Nystrm采样技术和图谱理论,提出了一种改进的SAR图像高效快速谱聚类新算法。该算法引入矩阵扰动分析理论,构造适用于SAR图像的自动确定类数准则;在分析比例参数对谱聚类算法影响的基础上,依据SAR图像的整体...
4. 实际项目:书中的项目部分,比如“Project 1 - k-means clustering on synthetic dataset”,展示了如何将理论应用到实践中,包括创建合成数据集,使用不同方法对数据集进行聚类,并通过TensorFlow实现。...