mahout 安装
软件准备:hadoop-0.20.2,mahout-0.4,ubuntu 11.10,jdk1.6 mahout的版本0.4只对hadoop-0.20.2版本兼容 如果fs版本为hadoop0.20.2 请下载mahout0.4版本
mahout是hadoop的一种高级应用。运行mahout需要提前安装好hadoop。hadoop的安装网上很多。而且也不复杂,这里不再讲述。这里默认hadoop已经安装完成。
1:下载二进制解压安装。
到http://labs.renren.com/apache-mirror/mahout/0.4/mahout-distribution-0.4.tar.gz 下载,我选择下载二进制包,直接解压及可。
2:配置环境变量:HADOOP_HOME,HADOOP_CONF_DIR,MAHOUT_HOME,格式如下
export HADOOP_HOME=/usr/local/hadoop-0.20.205.0
export HADOOP_CONF_DIR=/usr/local/hadoop-0.20.205.0/conf
export MAHOUT_HOME=/usr/local/mahout-distribution-0.5
export PATH=$HADOOP_HOME/bin:$MAHOUT_HOME/bin:$PATH
3:(注意)
网上都说运行bin/mahout --help来查看一些算法以及是否安装成功,这其实是有问题的。bin/mahout --help有bug,有时候运行会提示Unknown program '--help' chosen.这其实并不代表安装出了问题。
你可以继续试下bin/mahout -h或者bin/mahout kmeans --help.应该说如果配置没有问题的话bin/mahout kmeans --help应该是可以正常运行的。
4:准备
1.下载一个文件synthetic_control.data,下载地址http://archive.ics.uci.edu/ml
/databases/synthetic_control/synthetic_control.data,并把这个文件放在$MAHOUT_HOME
目录下。
2.启动Hadoop:$HADOOP_HOME/bin/start-all.sh
3.在$MAHOUT_HOME目录下创建测试目录testdata,并把数据导入到这个tastdata目录中(这里的目录的名字只能是testdata)
$HADOOP_HOME/bin/hadoop fs -mkdir testdata
$HADOOP_HOME/bin/hadoop fs -put $MAHOUT_HOME/synthetic_control.data $MAHOUT_HOME/testdata
4.使用kmeans算法(这会运行1分钟左右)
$HADOOP_HOME/bin/hadoop jar
$MAHOUT_HOME/mahout-examples-0.5-job.jar
org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
5.查看结果
$HADOOP_HOME/bin/hadoop fs -lsr output
$HADOOP_HOME/bin/hadoop fs -get output $MAHOUT_HOME/examples
$cd $MAHOUT_HOME/examples/output
$ ls
如果看到以下结果那么算法运行成功,你的安装也就成功了.
clusteredPoints clusters-0 clusters-1 clusters-10 clusters-2 clusters-3 clusters-4
clusters-5 clusters-6 clusters-7 clusters-8 clusters-9 data
相关推荐
mahout KMeansDriver测试相关jar包,有需要的同学可以下载来试试。把这个包放入hadoop/lib下面然后就可以在eclipse里面运行调试了。
《Mahout测试数据详解与Spark应用》 Apache Mahout是一个基于Apache Hadoop的机器学习库,致力于提供可扩展的、易于使用的机器学习算法。在大数据领域,Mahout扮演着重要的角色,它允许开发者构建复杂的预测模型,...
接下来,进入 Mahout 0.9 安装目录,准备执行 KMeans 算法。KMeans 算法的入口可以在 `MAHOUT_HOME/conf/driver.classes.default.props` 文件中找到。执行 KMeans 算法的命令如下: ```bash # 运行 KMeans 算法 ...
在Windows环境下安装Mahout,可以帮助开发者在本地环境中进行快速的机器学习项目开发和测试。 一、环境准备 在开始安装Mahout之前,确保你的电脑已经安装了以下基础软件: 1. Java Development Kit (JDK):Mahout...
在GitHub上的项目“https://github.com/chubbyjiang/MapReduce”,Chubbyjiang分享了一组用于测试Mahout推荐算法的数据集。数据集通常包含用户ID、物品ID和用户对物品的评分。例如,datafile可能是一个CSV文件,每行...
本文将深入探讨名为“mahout文本训练测试数据”的资源,该资源包含在一系列特定目录下的文本文件,旨在为Mahout算法提供训练和测试的基础。 首先,我们要理解这些数据的组织结构。这个压缩包文件包含了五个主要的子...
在MiA-master这个压缩包中,你将找到Mahout项目的源代码,包括各个模块的Java源文件、测试代码、配置文件等。深入研究这些源码,可以帮助你理解Mahout的内部工作机制,并有可能进行二次开发或定制化需求。
Mahout安装完成后,可以通过几个简单的测试例子来熟悉其基本用法,例如: 1. **运行K-Means聚类**:通过加载数据集并运行K-Means算法来进行聚类分析。 2. **实现协同过滤推荐**:使用电影评分数据集,通过Mahout的...
在Mahout中,测试数据往往是由一系列数值构成,这些数值代表了不同特征或维度上的测量值。例如,在上述部分数据中,可以看到一连串的数字,这可能代表了多维空间中的点坐标,或者是某个具体应用场景下的各种属性值。...
4. `src/test/java`和`src/test/resources`:测试代码和测试资源的存放位置,用于单元测试和集成测试,确保代码的质量和正确性。 5. `src/main/assembly`:可能包含项目打包的配置,如创建可执行的JAR或WAR文件,...
3. **文档**:可能包括README文件,指导用户如何安装和使用这个编译包。 4. **配置文件**:如`.xml`文件,可能包含Hadoop和Mahout的配置信息。 5. **示例项目**:演示如何在Hadoop 2环境下运行Mahout的实例。 6. **...
4. **Apache Maven**:Maven 是一个项目管理和构建工具,用于编译、测试和打包 Mahout 项目。同样下载 Maven 2.2.1,解压到 `/usr/local/`。 在 Ubuntu 中,可以通过以下步骤来安装这些软件: 1. 使用 `Ctrl + Alt...
9. **命令行接口**:Mahout提供了命令行接口(CLI),使得用户可以通过简单的命令行操作来运行算法,这对于快速测试和原型设计非常有用。 10. **优化与扩展**:虽然这是一个单机demo,但在实际应用中,可以将Mahout与...
Apache Mahout是一个基于Java的开源机器学习库,它为大数据处理提供了丰富的算法和工具...同时,由于"新建文件夹"没有给出具体信息,可能是一个空文件夹,或者包含了与Mahout相关的其他资料,如测试数据、配置文件等。
在"apache-mahout-distribution-0.10.2"压缩包中,通常会包含源代码、编译后的库文件、文档、示例代码和测试用例。为了开始使用,开发者需要配置好Java环境,并根据项目需求选择合适的算法实现。Mahout的API设计友好...