`
yugouai
  • 浏览: 498539 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

Mahout入门

 
阅读更多

1.简介:

    Mahout为推荐引擎提供了一些可扩展的机器学习领域的经典算法实现,可以使开发人员更为快捷的创建智能应用程序。

 

2.安装:

    (1)下载(0.8版本,包含源码):

sudo svn co http://svn.apache.org/repos/asf/mahout/trunk mahout

   (2) Maven build(若存在权限问题,则使用chmod进行权限修改):

 cd $MAHOUT_HOME
 sudo mvn install -DskipTests

    (3)安装Hadoop:问度娘

    (4)检查Mahout是否安装成功:

cd $MAHOUT_HOME/bin
./mahout

     一般没有报错就是安装成功了(忘了截图了...),so easy,另若在/etc/profile中设置环境的变量的,则使用source /etc/profile,若没有则手工export HADOOP_HOME与JAVA_HOME。

 

3.测试Mahout:

    (1)下载测试数据:

    包含600行60列的一个测试数据

wget http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data

    (2)将数据上传到Hadoop:

hadoop fs -mkdir testdata
hadoop fs -put synthetic_control.data testdata

    必须使用该路径,文件会上传到HDFS路径:/user/hadoop/testdata/synthetic_cotrol.data,测试代码已经写死了,所以必须按照此路径作测试数据。

    (3)测试各种算法

cd  $MAHOUT_HOME/examples/target
# canopy
hadoop jar mahout-examples-0.8-job.jar org.apache.mahout.clustering.syntheticcontrol.canopy.Job
# kmeans
hadoop jar mahout-examples-0.8-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

    观察输出,其中canopy算法与kmeans算法以后补充。

 

上述为mahout的安装与案例测试。

 

分享到:
评论

相关推荐

    mahout 入门例子

    mahout入门 下载即可运行 适合新手入门

    9.Hadoop入门进阶课程_第9周_Mahout介绍、安装与应用案例.pdf

    ### Hadoop入门进阶课程之Mahout介绍、安装与应用案例 #### Mahout概述 Mahout作为Apache Software Foundation(ASF)旗下的一个开源项目,致力于提供一系列可扩展的机器学习算法实现,以帮助开发者更轻松地构建...

    大数据Mahout实践指南

    《大数据Mahout实践指南》是一本深入...它不仅适合初学者入门,也为有一定经验的开发者提供了丰富的实践指导。通过阅读本书,读者不仅能理解大数据和Mahout的基本原理,还能掌握实际应用这些技术解决实际问题的方法。

    mahout 实例

    本文将深入浅出地介绍Mahout的三个核心算法:聚类、分类和相似度计算,并结合实际案例帮助初学者快速入门。 首先,我们来了解**聚类算法**。聚类是无监督学习的一种,目标是将数据集中的对象按照某些相似性原则分成...

    Mahout in action 中文版

    为了更好地利用Mahout,本书《Mahout in Action》提供了一条快速入门的路径,包括介绍性章节,详细阐述推荐系统、聚类和分类的原理,以及如何在实际项目中应用这些技术。书中还包含具体的代码示例和实践经验,适合...

    Mahout In Action带书签完整版

    - **官方文档**:Apache Mahout官方网站提供了详细的文档和技术指南,适合初学者入门和高级用户深入研究。 - **社区论坛**:Mahout拥有活跃的社区论坛,用户可以在其中交流心得、解决问题。 - **在线课程与教程**:...

    Mahout in Action 最新版+完整版

    《Mahout in Action》是一部全面而深入的指南,不仅适合初学者入门学习,也适合有经验的开发者深入了解Mahout的高级用法。通过阅读本书,读者可以掌握利用Mahout解决实际问题的方法,并了解最新的机器学习技术和趋势...

    mahout in action中文版 最全的 docx

    对于想要将新算法应用于大规模数据的人,Mahout提供了一个理想的框架,而这本书则是一个很好的入门指南,介绍如何在复杂的分布式计算环境中运行机器学习系统。 总的来说,《Mahout in Action》中文版为读者提供了...

    Hadoop安装学习-入门教程

    Hadoop 安装 学习 入门教程 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, ...

    Spark从入门到精通

    ### Spark从入门到精通 #### 一、大数据框架概述 在大数据处理领域,有几种主流的大数据处理框架,包括以Hadoop2.x为核心的大数据生态系统、以Spark为核心的大数据处理框架,以及以Storm为核心的实时流式处理框架...

    elasticsearch-taste:基于Mahout Taste的Elasticsearch建议

    Elasticsearch Taste插件概述Elasticsearch Taste插件是基于的协作过滤实现。 该插件提供了Elastic...)安装安装Taste插件$ $ES_HOME/bin/plugin install org.codelibs/elasticsearch-taste/2.3.0入门插入资料在本

    Hadoop快速入门

    ### Hadoop快速入门知识点梳理 #### 一、Hadoop概览与背景介绍 **1.1 何为Hadoop** - **定义**:Hadoop是一个由Apache基金会支持的开源软件框架,旨在通过集群中的普通商用硬件来处理大量数据集。 - **核心功能**...

    hadoop入门学习文档

    ### Hadoop 入门学习知识点概览 #### Hadoop 是什么? Hadoop 是 Apache 基金会下的一款开源软件框架,旨在通过集群的方式高效地处理大规模数据集。Hadoop 提供了分布式文件系统(HDFS)、运算资源调度系统(YARN...

    [Lucene] Lucene入门心得

    - **案例研究**:许多开源项目和商业产品,如Apache Nutch(网络爬虫)、Apache Mahout(机器学习库)等,都依赖Lucene来实现其搜索功能。 总的来说,Lucene是一个强大且灵活的全文检索工具,它的核心在于如何高效...

    《大数据》第4章大数据挖掘工具.pptx

    逻辑回归是一种二元分类算法,适用于入门学习,而朴素贝叶斯则常用于文本分类,如新闻类别判定。 除了Mahout,Spark的MLlib库也是大数据挖掘的重要工具。Spark MLlib提供了更广泛的机器学习算法,包括协同过滤、...

    大数据 培训 课程 入门 HDFS hadoop

    【大数据培训课程入门 HDFS Hadoop】 大数据技术已经成为现代企业数据处理的核心,其中Hadoop作为开源的分布式计算框架,扮演着重要角色。本课程旨在帮助初学者了解并掌握Hadoop和其分布式文件系统HDFS的基本概念和...

    清华大学精品大数据全套课程PPT课件含习题(36页)第4章 大数据挖掘工具.pdf

    Mahout的安装和配置过程相对简单,这使得它成为许多大数据入门者的首选工具。尤其是对于那些刚刚接触大数据并希望快速上手的初学者来说,Mahout提供了从基础到进阶的完整学习曲线。 在大数据挖掘的实际操作中,...

    大数据开发入门指南:从概念到实践应用讲解.zip

    大数据开发入门指南是一份全面介绍大数据领域的文档,涵盖了从基础概念到实际应用的各个环节,旨在帮助初学者系统地理解和掌握大数据技术。以下是这份指南中可能包含的重要知识点: 1. **大数据概念**:大数据指的...

Global site tag (gtag.js) - Google Analytics