`

mahout安装测试

阅读更多

mahout 安装

软件准备:hadoop-0.20.2,mahout-0.4,ubuntu 11.10,jdk1.6  mahout的版本0.4只对hadoop-0.20.2版本兼容 如果fs版本为hadoop0.20.2 请下载mahout0.4版本

 

mahout是hadoop的一种高级应用。运行mahout需要提前安装好hadoop。hadoop的安装网上很多。而且也不复杂,这里不再讲述。这里默认hadoop已经安装完成。

1:下载二进制解压安装。

到http://labs.renren.com/apache-mirror/mahout/0.4/mahout-distribution-0.4.tar.gz 下载,我选择下载二进制包,直接解压及可。

2:配置环境变量:HADOOP_HOME,HADOOP_CONF_DIR,MAHOUT_HOME,格式如下

export HADOOP_HOME=/usr/local/hadoop-0.20.205.0

export HADOOP_CONF_DIR=/usr/local/hadoop-0.20.205.0/conf

export MAHOUT_HOME=/usr/local/mahout-distribution-0.5

export PATH=$HADOOP_HOME/bin:$MAHOUT_HOME/bin:$PATH

3:(注意)

网上都说运行bin/mahout --help来查看一些算法以及是否安装成功,这其实是有问题的。bin/mahout --help有bug,有时候运行会提示Unknown program '--help' chosen.这其实并不代表安装出了问题。

你可以继续试下bin/mahout -h或者bin/mahout kmeans --help.应该说如果配置没有问题的话bin/mahout kmeans --help应该是可以正常运行的。

4:准备

  1.下载一个文件synthetic_control.data,下载地址http://archive.ics.uci.edu/ml /databases/synthetic_control/synthetic_control.data,并把这个文件放在$MAHOUT_HOME 目录下。

  2.启动Hadoop:$HADOOP_HOME/bin/start-all.sh

  3.在$MAHOUT_HOME目录下创建测试目录testdata,并把数据导入到这个tastdata目录中(这里的目录的名字只能是testdata)

    $HADOOP_HOME/bin/hadoop fs -mkdir testdata

    $HADOOP_HOME/bin/hadoop fs -put  $MAHOUT_HOME/synthetic_control.data $MAHOUT_HOME/testdata

  4.使用kmeans算法(这会运行1分钟左右)

    $HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/mahout-examples-0.5-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

  5.查看结果

    $HADOOP_HOME/bin/hadoop fs -lsr output

    $HADOOP_HOME/bin/hadoop fs -get output $MAHOUT_HOME/examples

    $cd $MAHOUT_HOME/examples/output

    $ ls

    如果看到以下结果那么算法运行成功,你的安装也就成功了.

    clusteredPoints  clusters-0  clusters-1  clusters-10  clusters-2  clusters-3  clusters-4

    clusters-5  clusters-6  clusters-7  clusters-8  clusters-9  data

分享到:
评论

相关推荐

    mahout KMeansDriver测试相关jar包

    mahout KMeansDriver测试相关jar包,有需要的同学可以下载来试试。把这个包放入hadoop/lib下面然后就可以在eclipse里面运行调试了。

    mahout测试数据

    《Mahout测试数据详解与Spark应用》 Apache Mahout是一个基于Apache Hadoop的机器学习库,致力于提供可扩展的、易于使用的机器学习算法。在大数据领域,Mahout扮演着重要的角色,它允许开发者构建复杂的预测模型,...

    mahout0.9测试详细傻瓜说明

    接下来,进入 Mahout 0.9 安装目录,准备执行 KMeans 算法。KMeans 算法的入口可以在 `MAHOUT_HOME/conf/driver.classes.default.props` 文件中找到。执行 KMeans 算法的命令如下: ```bash # 运行 KMeans 算法 ...

    [Mahout] Windows下Mahout单机安装

    在Windows环境下安装Mahout,可以帮助开发者在本地环境中进行快速的机器学习项目开发和测试。 一、环境准备 在开始安装Mahout之前,确保你的电脑已经安装了以下基础软件: 1. Java Development Kit (JDK):Mahout...

    测试mahout推荐算法的数据集

    在GitHub上的项目“https://github.com/chubbyjiang/MapReduce”,Chubbyjiang分享了一组用于测试Mahout推荐算法的数据集。数据集通常包含用户ID、物品ID和用户对物品的评分。例如,datafile可能是一个CSV文件,每行...

    mahout文本训练测试数据

    本文将深入探讨名为“mahout文本训练测试数据”的资源,该资源包含在一系列特定目录下的文本文件,旨在为Mahout算法提供训练和测试的基础。 首先,我们要理解这些数据的组织结构。这个压缩包文件包含了五个主要的子...

    Mahout源码

    在MiA-master这个压缩包中,你将找到Mahout项目的源代码,包括各个模块的Java源文件、测试代码、配置文件等。深入研究这些源码,可以帮助你理解Mahout的内部工作机制,并有可能进行二次开发或定制化需求。

    9.Hadoop入门进阶课程_第9周_Mahout介绍、安装与应用案例.pdf

    Mahout安装完成后,可以通过几个简单的测试例子来熟悉其基本用法,例如: 1. **运行K-Means聚类**:通过加载数据集并运行K-Means算法来进行聚类分析。 2. **实现协同过滤推荐**:使用电影评分数据集,通过Mahout的...

    mahout canopy+kmeans测试数据

    在Mahout中,测试数据往往是由一系列数值构成,这些数值代表了不同特征或维度上的测量值。例如,在上述部分数据中,可以看到一连串的数字,这可能代表了多维空间中的点坐标,或者是某个具体应用场景下的各种属性值。...

    maven_mahout_template-mahout-0.8

    4. `src/test/java`和`src/test/resources`:测试代码和测试资源的存放位置,用于单元测试和集成测试,确保代码的质量和正确性。 5. `src/main/assembly`:可能包含项目打包的配置,如创建可执行的JAR或WAR文件,...

    mahout1.0编译包

    3. **文档**:可能包括README文件,指导用户如何安装和使用这个编译包。 4. **配置文件**:如`.xml`文件,可能包含Hadoop和Mahout的配置信息。 5. **示例项目**:演示如何在Hadoop 2环境下运行Mahout的实例。 6. **...

    mahout环境搭建

    4. **Apache Maven**:Maven 是一个项目管理和构建工具,用于编译、测试和打包 Mahout 项目。同样下载 Maven 2.2.1,解压到 `/usr/local/`。 在 Ubuntu 中,可以通过以下步骤来安装这些软件: 1. 使用 `Ctrl + Alt...

    Mahout 单机demo

    9. **命令行接口**:Mahout提供了命令行接口(CLI),使得用户可以通过简单的命令行操作来运行算法,这对于快速测试和原型设计非常有用。 10. **优化与扩展**:虽然这是一个单机demo,但在实际应用中,可以将Mahout与...

    mahout-0.3.tar

    Apache Mahout是一个基于Java的开源机器学习库,它为大数据处理提供了丰富的算法和工具...同时,由于"新建文件夹"没有给出具体信息,可能是一个空文件夹,或者包含了与Mahout相关的其他资料,如测试数据、配置文件等。

    apache-mahout-distribution-0.10.2

    在"apache-mahout-distribution-0.10.2"压缩包中,通常会包含源代码、编译后的库文件、文档、示例代码和测试用例。为了开始使用,开发者需要配置好Java环境,并根据项目需求选择合适的算法实现。Mahout的API设计友好...

Global site tag (gtag.js) - Google Analytics