wget http://mirrors.ustc.edu.cn/apache/mahout/0.8/mahout-distribution-0.8.tar.gz
tar -xzvf mahout-distribution-0.8.tar.gz
cd mahout-distribution-0.8
sudo vi /etc/profile
增加:
export PATH=$PATH:/home/ysc/mahout-distribution-0.8/bin
source /etc/profile
数据:hadoop fs -put clustering_material.txt testdata/clustering_material.txt
聚类1:mahoutorg.apache.mahout.clustering.syntheticcontrol.kmeans.Job
分析1:mahout clusterdump --input output/clusters-10-final --pointsDir output/clusteredPoints --output output/clusteranalyze_kmeans.txt
查看:
hadoopfs -lsr output
more output/clusteranalyze_kmeans.txt
VL-19代表这是一个cluster,n=161代表该cluster有161个点,c=[...]代表该cluster的中心向量点,r=[...]代表cluster的半径
聚类2:mahout org.apache.mahout.clustering.syntheticcontrol.canopy.Job
分析2:mahout clusterdump --input output/clusters-0-final --pointsDir output/clusteredPoints --output output/clusteranalyze_canopy.txt
聚类3:mahout org.apache.mahout.clustering.syntheticcontrol.fuzzykmeans.Job
分析3:mahout clusterdump --input output/clusters-6-final --pointsDir output/clusteredPoints --output output/clusteranalyze_fuzzykmeans.txt
聚类4:mahout org.apache.mahout.clustering.syntheticcontrol.dirichlet.Job
分析4:mahout clusterdump --input output/clusters-5-final --pointsDir output/clusteredPoints --output output/clusteranalyze_dirichlet.txt
聚类5:mahout org.apache.mahout.clustering.syntheticcontrol.meanshift.Job
分析5:mahout clusterdump --input output/clusters-3-final --pointsDir output/clusteredPoints --output output/clusteranalyze_meanshift.txt
相关推荐
Apache Mahout是一个基于Hadoop的数据挖掘库,专注于提供机器学习算法,是大数据处理中实现预测分析和模式识别的重要工具。本篇文章将深入探讨Mahout在大数据环境下的应用及其核心功能。 Mahout这个名字来源于“象...
Mahout的设计目的是为了在大规模数据集上进行机器学习任务,其核心算法都是基于Apache Hadoop实现的,因此能够很好地利用分布式计算的优势。 #### 二、环境准备 在进行Mahout 0.9的安装与配置之前,我们需要确保...
Apache Mahout 是一个基于 Hadoop 的机器学习库,它提供了多种机器学习算法,包括聚类、分类和推荐系统。在本教程中,我们将专注于 Mahout 0.9 版本中的 KMeans 算法测试,这是一个无监督的学习方法,用于将数据集中...
阿尤什·桑贾尔堆栈交换数据的数据分析来自Stack Exchange的数据的数据分析该项目已使用Dataproc(由Google提供的云服务)执行,该服务提供了用于Google Cloud Platform(GCP)中的批处理,查询,流传输和机器学习的...
:地理和空间数据 :来⾃数Google扫描的百万书籍⽂本 :财务数据,包括股票、期货等 收集许多⽂本和图⽚数据集 :HitCompanies随机取样的1万个英国公司全⾯的数据,采⽤⼈⼯智能/机器学习进⾏⾃动更新。 :包含2008...