`

mahout使用

 
阅读更多

转自:http://hi.baidu.com/pakko/blog/item/3516fd6e34032bce80cb4afb.html

运行kmeans的简单的例子:

1:将样本数据集放到hdfs中指定文件下,应该在testdata文件夹下
$HADOOP_HOME/bin/hadoop fs -put <PATH TO DATA> testdata
例如:
bin/hadoop fs   -put /home/hadoopuser/mahout-0.3/test/synthetic_control.data  /user/hadoopuser/testdata/

2:使用kmeans算法
$HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-$MAHOUT_VERSION.job org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
例如:
bin/hadoop jar /home/hadoopuser/mahout-0.3/mahout-examples-0.1.job org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

3:使用canopy算法
$HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-$MAHOUT_VERSION.job org.apache.mahout.clustering.syntheticcontrol.canopy.Job
例如:
bin/hadoop jar /home/hadoopuser/mahout-0.3/mahout-examples-0.1.job org.apache.mahout.clustering.syntheticcontrol.canopy.Job

4:使用dirichlet 算法
$HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-$MAHOUT_VERSION.job org.apache.mahout.clustering.syntheticcontrol.dirichlet.Job

5:使用meanshift算法
meanshift : $HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-$MAHOUT_VERSION.job org.apache.mahout.clustering.syntheticcontrol.meanshift.Job

6:查看一下结果吧
bin/mahout vectordump --seqFile /user/hadoopuser/output/data/part-00000
这个直接把结果显示在控制台上。

Get the data out of HDFS  and have a look 
All example jobs use testdata as input and output to directory output
Use bin/hadoop fs -lsr output to view all outputs
Output:
KMeans is placed into output/points
Canopy and MeanShift results are placed into output/clustered-points

分享到:
评论
1 楼 a420144030 2013-05-09  
你好,我想计算n篇文章的相似度,用mahout能处理吗,如何做能给个例子吗?谢谢

相关推荐

    大数据系列9:Mahout – 机器学习

    在源码层面,Mahout使用Java编写,并利用Hadoop的MapReduce框架进行分布式计算。这使得它能够处理PB级别的数据,同时保持良好的可扩展性。开发者可以通过调用Mahout的API来实现自己的机器学习任务,也可以通过命令行...

    apache-mahout-distribution-0.12.2.tar.gz

    Mahout使用Hadoop作为其分布式计算框架,这意味着它能够处理非常大的数据集,通过MapReduce任务在集群上并行运算。然而,随着Spark的兴起,Mahout也逐渐开始支持Spark作为执行引擎,这提供了更快的计算速度和更低的...

    mahout-distribution-0.12.2-src.tar.gz

    4. **构建工具**:Mahout使用Apache Maven作为构建工具,通过`pom.xml`文件管理依赖和构建过程。开发者可以使用Maven命令来编译、测试和打包项目。 5. **文档资源**:在解压后的文件中,通常会包含README文件和...

    mahout所需jar包

    在给定的压缩包中,包含了`mahout-distribution-0.5`版本,这个版本的Mahout已经包含了运行K-Means所需的所有jar包,用户可以直接使用而无需自行编译。 **使用Mahout的步骤** 1. **配置环境**:确保已经安装了Java...

    mahout-core-0.9.jar+mahout-core-0.8.jar+mahout-core-0.1.jar

    作为Apache软件基金会的顶级项目,Mahout有一个活跃的社区,提供丰富的文档、教程和示例,帮助用户理解和使用Mahout。 8. **集成与扩展**: Mahout可以与Hadoop生态系统中的其他工具(如HBase、Spark等)无缝集成...

    [Mahout] Windows下Mahout单机安装

    为了方便使用Mahout,可以将Mahout的bin目录添加到系统PATH环境变量中。这样,你就可以在任何目录下运行Mahout的命令行工具。 五、验证安装 在命令行中输入`mahout`,如果系统能够列出Mahout的所有可用命令,那么...

    maven_mahout_template-mahout-0.8

    `maven_mahout_template-mahout-0.8`这个项目模板,是为使用Maven构建的Mahout项目提供的一种基础架构。它包含了配置文件、依赖管理和项目结构,使得开发者可以快速地搭建起一个基于Mahout的项目环境,进行机器学习...

    Mahout RandomForest Example使用步骤

    - 使用 Mahout 提供的工具或者自定义代码将 CSV 数据转换为适合 Mahout 处理的格式,例如 SequenceFile 或 HDFS 上的文本文件。 2. **导入数据**: - 将转换后的数据输入到 Hadoop 文件系统中,以便 Mahout 可以...

    如何成功运行Apache Mahout的Taste Webapp-Mahout推荐教程-Maven3.0.5-JDK1.6-Mahout0.5

    文档强调使用特定版本的软件栈是成功运行Mahout Taste Webapp的关键。文档中明确指出,需要使用JDK 1.6、Maven 3.0.5和Mahout 0.5版本。这是因为不同版本之间的兼容性问题可能导致运行时出现各种问题,比如依赖冲突...

    mahout1.0编译包

    3. **文档**:可能包括README文件,指导用户如何安装和使用这个编译包。 4. **配置文件**:如`.xml`文件,可能包含Hadoop和Mahout的配置信息。 5. **示例项目**:演示如何在Hadoop 2环境下运行Mahout的实例。 6. **...

    mahout-0.11.1 相关的jar

    mahout-examples-0.11.1 mahout-examples-0.11.1-job mahout-h2o_2.10-0.11.1 mahout-h2o_2.10-0.11.1-dependency-reduced mahout-hdfs-0.11.1 mahout-integration-0.11.1 mahout-math-0.11.1 mahout-math-0.11.1 ...

    Mahout最新基础依赖包.rar

    为了在 Eclipse 中使用 Mahout,你需要安装 Hadoop 和 Mahout 相关的插件,或者手动配置项目以包含 "Mahout 最新基础依赖包" 中的 JAR 文件。这样可以避免因缺少依赖而导致的编译错误或运行时问题。 **使用步骤** ...

    mahout-0.3.tar

    如果你打算深入研究Mahout或者利用其功能,可以先阅读文档了解其架构和使用方法,然后通过例子实践,最后根据实际需求定制和优化算法。同时,由于"新建文件夹"没有给出具体信息,可能是一个空文件夹,或者包含了与...

    Mahout源码

    例如,如果你需要使用推荐系统,只需在`pom.xml`文件中添加相关的Mahout依赖即可。 **3. Mahout 与 Hadoop** Mahout 构建在Hadoop之上,利用MapReduce进行分布式计算。这意味着,对于处理大量数据,Mahout 可以在...

    MAHOUT实战(中文版)

    6. **模型训练与评估**:介绍如何使用Mahout训练模型,以及如何通过交叉验证和性能指标(如准确率、召回率和F1分数)来评估模型的性能。 7. **推荐系统**:Mahout的一个重要应用是构建推荐系统。书中会详细介绍如何...

    Mahout tutorial

    该项目的简短教程提供了对Mahout的基本介绍,并解释了如何使用它来创建推荐系统以及组织文档以形成更易于使用的群集。教程为有志于学习Mahout基础知识并开发涉及推荐、分类和聚类等机器学习技术应用的专业人士所准备...

    Mahout之Item-based应用使用

    《Mahout之Item-based应用使用》 Apache Mahout是一个开源的机器学习库,主要专注于大规模数据集上的推荐系统、分类和聚类算法。在这个主题中,我们将深入探讨Mahout中的Item-based协同过滤(Item-based ...

Global site tag (gtag.js) - Google Analytics