`
wbj0110
  • 浏览: 1598237 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论

Mahout – 机器学习

阅读更多

wget http://mirrors.ustc.edu.cn/apache/mahout/0.8/mahout-distribution-0.8.tar.gz

tar -xzvf mahout-distribution-0.8.tar.gz

cd mahout-distribution-0.8

sudo vi /etc/profile

增加:

    export PATH=$PATH:/home/ysc/mahout-distribution-0.8/bin

source /etc/profile

数据:hadoop fs -put clustering_material.txt testdata/clustering_material.txt

聚类1mahoutorg.apache.mahout.clustering.syntheticcontrol.kmeans.Job

分析1mahout clusterdump --input output/clusters-10-final --pointsDir output/clusteredPoints --output output/clusteranalyze_kmeans.txt

查看:

    hadoopfs -lsr output

    more  output/clusteranalyze_kmeans.txt

    VL-19代表这是一个clustern=161代表该cluster161个点,c=[...]代表该cluster的中心向量点,r=[...]代表cluster的半径

聚类2mahout org.apache.mahout.clustering.syntheticcontrol.canopy.Job

分析2mahout clusterdump --input output/clusters-0-final --pointsDir output/clusteredPoints --output output/clusteranalyze_canopy.txt

聚类3mahout org.apache.mahout.clustering.syntheticcontrol.fuzzykmeans.Job

分析3mahout clusterdump --input output/clusters-6-final --pointsDir output/clusteredPoints --output output/clusteranalyze_fuzzykmeans.txt

聚类4mahout org.apache.mahout.clustering.syntheticcontrol.dirichlet.Job

分析4mahout clusterdump --input output/clusters-5-final --pointsDir output/clusteredPoints --output output/clusteranalyze_dirichlet.txt

聚类5mahout org.apache.mahout.clustering.syntheticcontrol.meanshift.Job

分析5mahout clusterdump --input output/clusters-3-final --pointsDir output/clusteredPoints --output output/clusteranalyze_meanshift.txt

分享到:
评论

相关推荐

    大数据系列9:Mahout – 机器学习

    Apache Mahout是一个基于Hadoop的数据挖掘库,专注于提供机器学习算法,是大数据处理中实现预测分析和模式识别的重要工具。本篇文章将深入探讨Mahout在大数据环境下的应用及其核心功能。 Mahout这个名字来源于“象...

    IT十八掌_Spark阶段学习笔记(Spark+Mahout+机器学习)

    IT十八掌第三期大数据配套学习笔记! 1.Spark简介 2.Spark部署和运行 3.Spark程序开发 4. Spark编程模型 5.作业执行解析 6.Spark SQL与DataFrame ...8.Spark MLlib与机器学习 9.GraphX与SparkR 10.mahout

    Mahout机器学习领域分布式计算框架

    ### Mahout机器学习领域分布式计算框架 #### 一、引言 随着大数据时代的到来,如何高效地处理和分析海量数据成为了一个重要的课题。Apache Mahout作为一款基于Hadoop的机器学习库,为解决这一问题提供了强大的工具...

    mahout机器学习实验数据

    该数据包含两列,数据之间用空格进行划分,主要用来进行聚类分析,可以直接作为mahout机器学习平台的实验数据

    01、机器学习、Mahout与Hadoop的过去,现在与未来

    Mahout是Apache软件基金会的一个开源项目,专注于提供可扩展的机器学习库,尤其与大数据处理框架Hadoop紧密集成。本教程“01、机器学习、Mahout与Hadoop的过去,现在与未来”将深入探讨这三个关键领域的历史、现状和...

    mahout聚类算法

    Mahout 聚类算法是数据挖掘和机器学习领域中的一种重要算法,它可以将相似的数据点聚集在一起,以便更好地理解和分析数据。Mahout 聚类算法可以分为多种类型,如 Canopy、KMeans、Fuzzy-KMeans、Spectral Clustering...

    maven_mahout_template-mahout-0.8

    Mahout的目标是创建易于使用的、可扩展的、并行的机器学习库,使得开发者能够轻松地实现推荐系统、分类和聚类等复杂任务。 `maven_mahout_template-mahout-0.8`这个项目模板,是为使用Maven构建的Mahout项目提供的...

    mahout各种学习包

    Mahout是Apache软件基金会的一个开源项目,专注于提供可扩展的机器学习库。它构建在Hadoop之上,使得大规模数据集的机器学习算法得以并行化处理,极大地提升了效率。在这个"mahout各种学习包"中,我们可以期待找到一...

    mahout-0.3.zip

    《Apache Mahout:开启机器学习之旅》 Apache Mahout,作为一个开源项目,是大数据时代下机器学习领域的杰出代表。这个项目的核心目标是提供一系列可扩展的机器学习算法,以简化开发人员构建智能应用的过程。在...

    mahout 实例

    Apache Mahout是一个开源的机器学习库,基于Java语言,旨在提供可扩展的、分布式机器学习算法。它被广泛应用于大数据领域,尤其是推荐系统、分类和聚类分析。本文将深入浅出地介绍Mahout的三个核心算法:聚类、分类...

    基于大数据技术的机器学习算法研究探讨.pdf

    因此,基于Spark和Hadoop框架结合的机器学习算法,要解决Mahout在处理迭代算法处理数据时消耗资源过多和系统整体性能下降的缺陷,提高数据处理分析的速度。 基于大数据技术的机器学习算法可以实现分析更高级别的...

    mahout-core-0.9.jar+mahout-core-0.8.jar+mahout-core-0.1.jar

    Apache Mahout是一个基于Apache Hadoop的数据挖掘库,专注于大规模机器学习算法的实现。这个压缩包包含的是Mahout项目不同版本的核心库,分别是mahout-core-0.9.jar、mahout-core-0.8.jar和mahout-core-0.1.jar。...

    chc.rar_机器学习_机器学习java

    在Java中,有诸如Weka、Deeplearning4j、Apache Mahout等机器学习框架,它们提供了实现各种机器学习算法的接口,包括CHC算法。开发者可以通过这些框架快速地搭建和实验不同的模型。 综上所述,这个"chc.rar_机器...

    基于mahout的数据挖掘技术课程 共35页.pdf

    Apache Mahout 是 Apache Software Foundation (ASF) 开发的一个全新的开源项目,其主要目标是创建一些可伸缩的机器学习算法,供开发人员在 Apache 在许可下免费使用。 机器学习 • 机器学习是人工智能的一个分支,...

    Mahout in Action 2012

    Apache Mahout是一个Apache开源数据挖掘和机器学习项目,它提供了一系列基于Java的工具和库,用于构建可扩展的推荐系统、聚类算法以及其他机器学习应用。Mahout的目标是简化数据挖掘任务的实现,使其不仅仅局限于...

    mahout api 学习资料

    mahout_help,mahout的java api帮助文档,可以帮你更轻松掌握mahout

    用于创建可扩展的高性能机器学习应用程序mahout-14.1-source-release.zip

    综上所述,Apache Mahout的源码包不仅是一个学习机器学习算法的宝贵资源,也是深入理解大数据处理和分布式计算的实践教材。无论是为了研究、教学还是开发,这个源码包都提供了丰富的学习内容。通过深入学习和研究,...

Global site tag (gtag.js) - Google Analytics