`
奔跑的羚羊
  • 浏览: 576322 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

聚类Clustering -Clustering of synthetic control data

阅读更多
1.下载Mahout
http://www.apache.org/dist//mahout/0.4/

2.解压
tar zxvf mahout-distribution-0.4.tar.gz

3.算法列表
./bin/mahout -h
显示出当前mahout支持的所有算法



聚类Clustering
Clustering of synthetic control data
Pre-Prep
1)下载输入数据,点这里
由60行60列组成
_time _time+x _time+2x .. _time+60x
28.7812 34.4632 31.3381 .. 31.2834
24.8923 25.741 27.5532 .. 32.8217

..
..
35.5351 41.7067 39.1705 48.3964 .. 38.6103
24.2104 41.7679 45.2228 43.7762 .. 48.8175

..
..
2)启动hadoop
$HADOOP_HOME/bin/start-all.sh

3)将数据上传到hadoop
$HADOOP_HOME/bin/hadoop fs -mkdir testdata
$HADOOP_HOME/bin/hadoop fs -put <PATH TO synthetic_control.data> testdata
创建测试目录testdata,并把数据导入到这个tastdata目录中(这里的目录的名字只能是testdata)

Perform Clustering
a.For canopy :
$MAHOUT_HOME/bin/mahout org.apache.mahout.clustering.syntheticcontrol.canopy.Job

b.For kmeans :
$MAHOUT_HOME/bin/mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job 

c.For fuzzykmeans :
$MAHOUT_HOME/bin/mahout org.apache.mahout.clustering.syntheticcontrol.fuzzykmeans.Job 

d.For dirichlet :
$MAHOUT_HOME/bin/mahout org.apache.mahout.clustering.syntheticcontrol.dirichlet.Job 

e.For meanshift :
$MAHOUT_HOME/bin/mahout org.apache.mahout.clustering.syntheticcontrol.meanshift.Job 


也可以直接在hadoop环境下运行
hadoop jar mahout-examples-0.4-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job


Read / Analyze Output
1)查看所有输出文件
hadoop fs -lsr output 

2)下载到本地
hadoop fs -get output $MAHOUT_HOME/examples

转入output目录下,
$cd MAHOUT_HOME/examples/output
$ls   

如果看到以下结果,那么算法运行成功,你的安装也就成功了:
clusteredPoints  clusters-1   clusters-2  clusters-4  clusters-6  clusters-8  data
clusters-0       clusters-10  clusters-3  clusters-5  clusters-7  clusters-9
3)单个的集群结果在output/clusters-i
4)所有集群汇总结果在output/clusteredPoints

结果是sequence格式的。如果直接在hdfs上查看,使用
 ./bin/mahout vectordump --seqFile output/data/part-m-00000 
分享到:
评论
5 楼 巫Jane峡 2012-05-18  
rjhym 写道
./bin/mahout vectordump --seqFile output/data/part-m-00000   执行报空指针错误。


可以使用SequenceFileDumper替代VectorDumper,结果无异常
4 楼 rjhym 2012-02-23  
./bin/mahout vectordump --seqFile output/data/part-m-00000   执行报空指针错误。
3 楼 此情此景 2011-03-06  
知道啦!谢谢~呵呵
2 楼 奔跑的羚羊 2011-03-04  
./bin/mahout vectordump --seqFile
后面跟上clusters-i中的part-r-00000的路径
1 楼 此情此景 2011-03-04  
每个clusters-i中的part-r-00000怎么看?呵呵

相关推荐

    Australian Sign Language synthetic_control gait 等数据

    标题中的“Australian Sign Language synthetic_control gait 等数据”涉及了三个主要概念:澳大利亚手语(Australian Sign Language,简称Auslan)、synthetic control(合成控制)以及gait-data(步态数据)。...

    K-均值聚类算法研究

    Our clustering algorithm is tested on some well-known data sets from UCI and on some synthetic data. The experiment results show that our method outperforms the global K-means algorithm.And then, a ...

    ts_cluster:使用 R 的时间序列聚类 - DTW - DBSCAN - hclust

    ts_cluster 使用 R 的时间序列聚类 这个 repo 只是一个示例 repo,用于学习如何对时间序列数据进行聚类。... 我们使用的数据是来自 UCI 的 Synthetic Control Chart Time Series,更多详细信息您可以访问

    花授粉算法matlab代码-Partitional-Clustering:使用流行的元启发式算法在聚类过程中找到最佳聚类中心

    花授粉算法matlab代码分区聚类 使用流行的元启发式算法在聚类过程中找到最佳聚类中心 基于和谐搜索的聚类算法 - This set of files perform Harmony search based clustering algorithm. - The proposed novel ...

    synthetic_control.data

    Mahout的kmeans聚类测试数据

    synthetic_control.zip

    在处理“synthetic_control.data”时,我们首先要将其导入到Hadoop集群,这可以通过Hadoop的命令行工具实现。然后,使用Mahout0.9提供的工具对数据进行预处理,如创建向量文件、构建索引等,这是执行机器学习任务的...

    MATLAB 聚类仿真程序

    1. "synthetic_control.data" 可能是一个数据文件,包含了用于聚类分析的合成数据。这种数据通常是人为生成的,用于测试算法的性能或者演示算法的工作原理。 2. "计算机仿真2010项目设计_何金龙_071974.docx" 可能是...

    数据挖掘kmeams算法实现聚类分析

    本次数据挖掘实验采用的数据源是来自加州大学计算机与信息学院的synthetic_control_chart.data数据集。该数据集主要用于合成控制图时间序列聚类分析,包含600组数据,每组数据由60个分量构成,即数据维度为60。这600...

    基于灰度特征的谱聚类SAR图像分割

    合成孔径雷达(Synthetic Aperture Radar,简称SAR)是一种主动式的遥感技术,不受光照条件限制,能在全天候、全天时下获取地表信息。SAR图像的分析与处理是遥感领域的重要研究方向,其中图像分割是关键步骤之一,它...

    行业分类-设备装置-基于Freeman分解和谱聚类的极化SAR图像分类方法.zip

    极化合成孔径雷达(Polarimetric Synthetic Aperture Radar, 简称PolSAR)图像是一种利用电磁波极化特性获取地表信息的技术,广泛应用于地质勘探、环境监测、城市规划等领域。本主题主要关注的是如何通过Freeman分解...

    FCM算法中参数的优选方法及实例应用-FCM算法用于灰度图像分割的初始化方法的研究.pdf

    Experimental results carried on synthetic data set and data set based on actual background illustrate the performance of the new validity function and the corresponding fuzzy clustering algorithm. ...

    Fast Subspace Clustering via RepresentationSparses Matlab code

    6. **Synthetic Data Clustering**:可能用于测试和验证算法性能的人工数据聚类代码。 四、算法优势 相比传统的SSC,基于稀疏表示的快速子空间聚类有以下优点: 1. **效率更高**:由于采用稀疏编码,避免了计算...

    基于变分法与Markov随机场模糊局部信息聚类法的SAR影像变化检测.docx

    文献中提到的Frost滤波后的模糊C均值聚类法(Fuzzy C-Means Clustering,FCM)改善了这一情况。DI分析则涉及阈值法、聚类法和机器学习方法。阈值法简单但易受图像统计分布影响,聚类法则无需建立模型,如主成分分析...

    一种基于DTW的符号化时间序列聚类算法

    实验结果显示,该算法在Synthetic Control和ECG数据集上表现优秀,尤其是在聚类准确率上显著优于使用KPDIST的方法。这表明结合DTW和符号化聚类的策略能更好地处理不等长时间序列,提供更精确的聚类结果。 总结来说...

    两层聚类的类别不平衡数据挖掘算法.pdf

    标题中提到的“两层聚类的类别不平衡数据挖掘算法”涉及了机器学习和数据挖掘领域中的一个具体问题——类别不平衡问题。在现实世界的数据集中,经常存在一些类别(即样本所属的标签)的数量远多于其他类别的情况,...

    mahout0.9测试详细傻瓜说明

    这里我们使用了一个名为 `synthetic_control.data` 的数据集,你可以通过网络下载或者本地拖放至 `/usr/local` 目录。之后,使用 Hadoop 命令创建数据存储路径,并将数据上传到 HDFS(Hadoop 分布式文件系统): ``...

    SAR.rar_SAR_sar 分解_sar 聚类_极化散射熵_熵 聚类

    极化 Synthetic Aperture Radar (SAR) 是一种遥感技术,它使用雷达信号与地表交互,通过分析返回的信号来获取地表信息。在 SAR 数据处理中,极化熵和极化散射角是两个关键概念,它们有助于理解地表特征并进行分类。 ...

    改进的合成孔径雷达图像谱聚类算法

    结合Nystrm采样技术和图谱理论,提出了一种改进的SAR图像高效快速谱聚类新算法。该算法引入矩阵扰动分析理论,构造适用于SAR图像的自动确定类数准则;在分析比例参数对谱聚类算法影响的基础上,依据SAR图像的整体...

    Building Machine Learning Projects with TensorFlow_2016.11

    4. 实际项目:书中的项目部分,比如“Project 1 - k-means clustering on synthetic dataset”,展示了如何将理论应用到实践中,包括创建合成数据集,使用不同方法对数据集进行聚类,并通过TensorFlow实现。...

Global site tag (gtag.js) - Google Analytics