`
wbj0110
  • 浏览: 1638412 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论

Mahout – 机器学习

阅读更多

wget http://mirrors.ustc.edu.cn/apache/mahout/0.8/mahout-distribution-0.8.tar.gz

tar -xzvf mahout-distribution-0.8.tar.gz

cd mahout-distribution-0.8

sudo vi /etc/profile

增加:

    export PATH=$PATH:/home/ysc/mahout-distribution-0.8/bin

source /etc/profile

数据:hadoop fs -put clustering_material.txt testdata/clustering_material.txt

聚类1mahoutorg.apache.mahout.clustering.syntheticcontrol.kmeans.Job

分析1mahout clusterdump --input output/clusters-10-final --pointsDir output/clusteredPoints --output output/clusteranalyze_kmeans.txt

查看:

    hadoopfs -lsr output

    more  output/clusteranalyze_kmeans.txt

    VL-19代表这是一个clustern=161代表该cluster161个点,c=[...]代表该cluster的中心向量点,r=[...]代表cluster的半径

聚类2mahout org.apache.mahout.clustering.syntheticcontrol.canopy.Job

分析2mahout clusterdump --input output/clusters-0-final --pointsDir output/clusteredPoints --output output/clusteranalyze_canopy.txt

聚类3mahout org.apache.mahout.clustering.syntheticcontrol.fuzzykmeans.Job

分析3mahout clusterdump --input output/clusters-6-final --pointsDir output/clusteredPoints --output output/clusteranalyze_fuzzykmeans.txt

聚类4mahout org.apache.mahout.clustering.syntheticcontrol.dirichlet.Job

分析4mahout clusterdump --input output/clusters-5-final --pointsDir output/clusteredPoints --output output/clusteranalyze_dirichlet.txt

聚类5mahout org.apache.mahout.clustering.syntheticcontrol.meanshift.Job

分析5mahout clusterdump --input output/clusters-3-final --pointsDir output/clusteredPoints --output output/clusteranalyze_meanshift.txt

分享到:
评论

相关推荐

    大数据系列9:Mahout – 机器学习

    Apache Mahout是一个基于Hadoop的数据挖掘库,专注于提供机器学习算法,是大数据处理中实现预测分析和模式识别的重要工具。本篇文章将深入探讨Mahout在大数据环境下的应用及其核心功能。 Mahout这个名字来源于“象...

    mahout0.9配置傻瓜说明

    Mahout的设计目的是为了在大规模数据集上进行机器学习任务,其核心算法都是基于Apache Hadoop实现的,因此能够很好地利用分布式计算的优势。 #### 二、环境准备 在进行Mahout 0.9的安装与配置之前,我们需要确保...

    mahout0.9测试详细傻瓜说明

    Apache Mahout 是一个基于 Hadoop 的机器学习库,它提供了多种机器学习算法,包括聚类、分类和推荐系统。在本教程中,我们将专注于 Mahout 0.9 版本中的 KMeans 算法测试,这是一个无监督的学习方法,用于将数据集中...

    Data-Analysis-on-Stack-Exchange-Data:使用HDFS,MapReduce,Pig和Hive对在Stack Overflow门户中输入的查询和问题进行数据分析

    阿尤什·桑贾尔堆栈交换数据的数据分析来自Stack Exchange的数据的数据分析该项目已使用Dataproc(由Google提供的云服务)执行,该服务提供了用于Google Cloud Platform(GCP)中的批处理,查询,流传输和机器学习的...

    (干货)大数据:70多个网站让你免费获取大数据存储库.pdf

    :地理和空间数据 :来⾃数Google扫描的百万书籍⽂本 :财务数据,包括股票、期货等 收集许多⽂本和图⽚数据集 :HitCompanies随机取样的1万个英国公司全⾯的数据,采⽤⼈⼯智能/机器学习进⾏⾃动更新。 :包含2008...

Global site tag (gtag.js) - Google Analytics