一、安装配置
1、安装、配置JDK,Hadoop(略)
2、下载Mahout,http://mahout.apache.org/ ,非源码下载解压即可用(src为源码包,需要用maven编译)。
3、添加环境变量修改/etc/profile 或者 ~/.bashrc ,添加export JAVA_HOME=/opt/java/jdk1.7.0_05
export JAVA_HOME=/home/alan/hadoop/hadoop-1.0.3
export HADOOP_CONF_DIR=/home/alan/hadoop/hadoop-1.0.3
export MAHOUT_HOME=/home/alan/mahout/mahout-distribution-0.7
#export HADOOP_HOME_WARN_SUPPRESS=1
通过$MAHOUT_HOME/bin/mahout 命令检测是否安装成功。
二、运行示例
1、启动 Hadoop (hadoop namenode -format;start-all.sh)
2、下载测试输入数据
3、把数据导入HDFS中
4、运行示例如:Kmeans聚类算法
$bin/hadoop jar $MAHOUT_HOME/mahout-examples-0.6-job.jar org.apache.mahout.clustering.
syntheticcontrol.kmeans.Job
他会启动多个job,输出output/大致如:
clusteredPoints/ clusters-2/ clusters-6/ data/ clusters-0/ clusters-3/ clusters-7/ clusters-1/ clusters-4/ clusters-8/ clusters-10-final/ clusters-5/ clusters-9/
分享到:
相关推荐
本文将详细介绍如何在 Ubuntu 10.04 上搭建 Mahout 实验环境。 首先,为了运行 Mahout,我们需要安装以下基础软件: 1. **Java Development Kit (JDK)**:Mahout 和 Hadoop 都依赖于 Java 运行环境,所以第一步是...
mahout KMeansDriver测试相关jar包,有需要的同学可以下载来试试。把这个包放入hadoop/lib下面然后就可以在eclipse里面运行调试了。
《Mahout测试数据详解与Spark应用》 Apache Mahout是一个基于Apache Hadoop的机器学习库,致力于提供可扩展的、易于使用的机器学习算法。在大数据领域,Mahout扮演着重要的角色,它允许开发者构建复杂的预测模型,...
在本教程中,我们将专注于 Mahout 0.9 版本中的 KMeans 算法测试,这是一个无监督的学习方法,用于将数据集中的样本点划分到不同的簇中。 首先,确保你已经搭建了 Hadoop 2.2.0 环境,并且集群正在正常运行。启动和...
本文将深入探讨名为“mahout文本训练测试数据”的资源,该资源包含在一系列特定目录下的文本文件,旨在为Mahout算法提供训练和测试的基础。 首先,我们要理解这些数据的组织结构。这个压缩包文件包含了五个主要的子...
在GitHub上的项目“https://github.com/chubbyjiang/MapReduce”,Chubbyjiang分享了一组用于测试Mahout推荐算法的数据集。数据集通常包含用户ID、物品ID和用户对物品的评分。例如,datafile可能是一个CSV文件,每行...
在MiA-master这个压缩包中,你将找到Mahout项目的源代码,包括各个模块的Java源文件、测试代码、配置文件等。深入研究这些源码,可以帮助你理解Mahout的内部工作机制,并有可能进行二次开发或定制化需求。
在Eclipse中导入修改后的Mahout源码,可以进行调试和测试,同时也可以直接在IDE中执行Mahout程序。 5. **命令行操作**:除了在Eclipse中编译外,还可以通过命令行来编译和运行Mahout项目。这涉及到基本的Git克隆...
在Mahout中,测试数据往往是由一系列数值构成,这些数值代表了不同特征或维度上的测量值。例如,在上述部分数据中,可以看到一连串的数字,这可能代表了多维空间中的点坐标,或者是某个具体应用场景下的各种属性值。...
它包含了配置文件、依赖管理和项目结构,使得开发者可以快速地搭建起一个基于Mahout的项目环境,进行机器学习的实验和开发。 在项目结构上,`maven_mahout_template-mahout-0.8`可能包括以下关键组件: 1. `pom....
在Windows环境下安装Mahout,可以帮助开发者在本地环境中进行快速的机器学习项目开发和测试。 一、环境准备 在开始安装Mahout之前,确保你的电脑已经安装了以下基础软件: 1. Java Development Kit (JDK):Mahout...
**马哈多(Mahout)库的概述** 马哈多(Mahout)是Apache软件基金会的一个开源项目,专注于提供可扩展的机器学习库。它基于Hadoop,这意味着它能够利用分布式计算来处理大规模数据集。 Mahout的目标是帮助开发人员...
这个压缩包包含的是Mahout项目不同版本的核心库,分别是mahout-core-0.9.jar、mahout-core-0.8.jar和mahout-core-0.1.jar。这些版本的差异在于功能的完善、性能的优化以及对新特性的支持。 1. **Mahout核心功能**:...
接着,将深入讲解Mahout的架构、工作原理以及安装配置方法,使读者能够搭建起自己的Mahout开发环境。 在机器学习部分,书中涵盖了多种Mahout支持的算法,如协同过滤、聚类、分类和回归等。协同过滤是推荐系统的核心...
《深入理解Mahout:朴素贝叶斯分类与中文分词技术解析》 Apache Mahout是一款基于Java开发的机器学习库,旨在提供可扩展的、高效的算法,用于数据挖掘和模式识别。在大数据时代,Mahout已经成为数据科学家和工程师...
mahout_help,mahout的java api帮助文档,可以帮你更轻松掌握mahout