mahout使用:
步骤一:
tar -xvf mahout-0.3.tar.gz
需要指定hadoop的路径和配置文件的路径
export HADOOP_HOME=/home/hadoopuser/hadoop-0.19.2
export HADOOP_CONF_DIR=/home/hadoopuser/hadoop-0.19.2/conf
步骤二:
通过这个命令可以查看mahout提供了哪些算法,以及如何使用
bin/mahout --help
bin/mahout kmeans --input /user/hive/warehouse/tmp_data/complex.seq --clusters 5 --output /home/hadoopuser/1.txt
mahout下处理的文件必须是SequenceFile格式的,所以需要把txtfile转换成sequenceFile。SequenceFile是hadoop中的一个类,允许我们向文件中写入二进制的键值对,具体介绍请看
eyjian写的http://www.hadoopor.com/viewthread.php?tid=144&highlight=sequencefile
mahout中提供了一种将指定文件下的文件转换成sequenceFile的方式。
(You may find Tika (http://lucene.apache.org/tika) helpful in converting binary documents to text.)
使用方法如下:
$MAHOUT_HOME/bin/mahout seqdirectory \
--input <PARENT DIR WHERE DOCS ARE LOCATED> --output <OUTPUT DIRECTORY> \
<-c <CHARSET NAME OF THE INPUT DOCUMENTS> {UTF-8|cp1252|ascii...}> \
<-chunk <MAX SIZE OF EACH CHUNK in Megabytes> 64> \
<-prefix <PREFIX TO ADD TO THE DOCUMENT ID>>
举个例子:
bin/mahout seqdirectory --input /hive/hadoopuser/ --output /mahout/seq/ --charset UTF-8
步骤三:
运行kmeans的简单的例子:
1:将样本数据集放到hdfs中指定文件下,应该在testdata文件夹下
$HADOOP_HOME/bin/hadoop fs -put <PATH TO DATA> testdata
例如:
bin/hadoop fs -put /home/hadoopuser/mahout-0.3/test/synthetic_control.data /user/hadoopuser/testdata/
2:使用kmeans算法
$HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-$MAHOUT_VERSION.job org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
例如:
bin/hadoop jar /home/hadoopuser/mahout-0.3/mahout-examples-0.1.job org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
3:使用canopy算法
$HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-$MAHOUT_VERSION.job org.apache.mahout.clustering.syntheticcontrol.canopy.Job
例如:
bin/hadoop jar /home/hadoopuser/mahout-0.3/mahout-examples-0.1.job org.apache.mahout.clustering.syntheticcontrol.canopy.Job
4:使用dirichlet 算法
$HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-$MAHOUT_VERSION.job org.apache.mahout.clustering.syntheticcontrol.dirichlet.Job
5:使用meanshift算法
meanshift : $HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-$MAHOUT_VERSION.job org.apache.mahout.clustering.syntheticcontrol.meanshift.Job
6:查看一下结果吧
bin/mahout vectordump --seqFile /user/hadoopuser/output/data/part-00000
这个直接把结果显示在控制台上。
可以到hdfs中去看看数据是什么样子的
上面跑的例子大多以testdata作为输入和输出文件夹名
可以使用 bin/hadoop fs -lsr 来查看所有的输出结果
KMeans 方法的输出结果在 output/points
Canopy 和 MeanShift 结果放在了 output/clustered-points
分享到:
相关推荐
【课程大纲】第01课-Mahout数据挖掘工具(1) 共9页第02课-Mahout数据挖掘工具(2) 共9页第03课-Mahout数据挖掘工具(3) 共12页第04课-Mahout数据挖掘工具(4) 共9页第05课-Mahout数据挖掘工具(5) 共11页第06课-Mahout...
问题 • 1、什么是mahout? • 2、mahout是干啥的 ? • 3、mahout是怎么干的? Apache Mahout 是 Apache Software ...此领域与数据挖掘密切相关,并且经常需要使用各种技巧,包括统计学、概率论和模式识别等。
【课程大纲】第01课-Mahout数据挖掘工具(1) 共9页第02课-Mahout数据挖掘工具(2) 共9页第03课-Mahout数据挖掘工具(3) 共12页第04课-Mahout数据挖掘工具(4) 共9页第05课-Mahout数据挖掘工具(5) 共11页第06课-Mahout...
【课程大纲】第01课-Mahout数据挖掘工具(1) 共9页第02课-Mahout数据挖掘工具(2) 共9页第03课-Mahout数据挖掘工具(3) 共12页第04课-Mahout数据挖掘工具(4) 共9页第05课-Mahout数据挖掘工具(5) 共11页第06课-Mahout...
【课程大纲】第01课-Mahout数据挖掘工具(1) 共9页第02课-Mahout数据挖掘工具(2) 共9页第03课-Mahout数据挖掘工具(3) 共12页第04课-Mahout数据挖掘工具(4) 共9页第05课-Mahout数据挖掘工具(5) 共11页第06课-Mahout...
【课程大纲】第01课-Mahout数据挖掘工具(1) 共9页第02课-Mahout数据挖掘工具(2) 共9页第03课-Mahout数据挖掘工具(3) 共12页第04课-Mahout数据挖掘工具(4) 共9页第05课-Mahout数据挖掘工具(5) 共11页第06课-Mahout...
【课程大纲】第01课-Mahout数据挖掘工具(1) 共9页第02课-Mahout数据挖掘工具(2) 共9页第03课-Mahout数据挖掘工具(3) 共12页第04课-Mahout数据挖掘工具(4) 共9页第05课-Mahout数据挖掘工具(5) 共11页第06课-Mahout...
【课程大纲】第01课-Mahout数据挖掘工具(1) 共9页第02课-Mahout数据挖掘工具(2) 共9页第03课-Mahout数据挖掘工具(3) 共12页第04课-Mahout数据挖掘工具(4) 共9页第05课-Mahout数据挖掘工具(5) 共11页第06课-Mahout...
【课程大纲】第01课-Mahout数据挖掘工具(1) 共9页第02课-Mahout数据挖掘工具(2) 共9页第03课-Mahout数据挖掘工具(3) 共12页第04课-Mahout数据挖掘工具(4) 共9页第05课-Mahout数据挖掘工具(5) 共11页第06课-Mahout...
【课程大纲】第01课-Mahout数据挖掘工具(1) 共9页第02课-Mahout数据挖掘工具(2) 共9页第03课-Mahout数据挖掘工具(3) 共12页第04课-Mahout数据挖掘工具(4) 共9页第05课-Mahout数据挖掘工具(5) 共11页第06课-Mahout...
【课程大纲】第01课-Mahout数据挖掘工具(1) 共9页第02课-Mahout数据挖掘工具(2) 共9页第03课-Mahout数据挖掘工具(3) 共12页第04课-Mahout数据挖掘工具(4) 共9页第05课-Mahout数据挖掘工具(5) 共11页第06课-Mahout...
【课程大纲】第01课-Mahout数据挖掘工具(1) 共9页第02课-Mahout数据挖掘工具(2) 共9页第03课-Mahout数据挖掘工具(3) 共12页第04课-Mahout数据挖掘工具(4) 共9页第05课-Mahout数据挖掘工具(5) 共11页第06课-Mahout...
通过使用Mahout,开发者可以更加便捷地实现复杂的数据挖掘算法,并且能够利用Hadoop的计算能力在海量数据集上进行操作。 Oozie是一个用于管理Hadoop作业的工作流调度系统。它允许用户设计包含多个任务的工作流,...
本课程“基于Mahout的数据挖掘技术”显然是为了教授如何利用Mahout进行高效的数据分析。 在35页的课程内容中,我们可以预想它将涵盖以下几个关键知识点: 1. **数据挖掘基础**:首先,课程可能会介绍数据挖掘的...
【课程大纲】第01课-Mahout数据挖掘工具(1) 共9页第02课-Mahout数据挖掘工具(2) 共9页第03课-Mahout数据挖掘工具(3) 共12页第04课-Mahout数据挖掘工具(4) 共9页第05课-Mahout数据挖掘工具(5) 共11页第06课-Mahout...
【课程大纲】第01课-Mahout数据挖掘工具(1) 共9页第02课-Mahout数据挖掘工具(2) 共9页第03课-Mahout数据挖掘工具(3) 共12页第04课-Mahout数据挖掘工具(4) 共9页第05课-Mahout数据挖掘工具(5) 共11页第06课-Mahout...
【课程大纲】第01课-Mahout数据挖掘工具(1) 共9页第02课-Mahout数据挖掘工具(2) 共9页第03课-Mahout数据挖掘工具(3) 共12页第04课-Mahout数据挖掘工具(4) 共9页第05课-Mahout数据挖掘工具(5) 共11页第06课-Mahout...
【课程大纲】第01课-Mahout数据挖掘工具(1) 共9页第02课-Mahout数据挖掘工具(2) 共9页第03课-Mahout数据挖掘工具(3) 共12页第04课-Mahout数据挖掘工具(4) 共9页第05课-Mahout数据挖掘工具(5) 共11页第06课-Mahout...
【课程大纲】第01课-Mahout数据挖掘工具(1) 共9页第02课-Mahout数据挖掘工具(2) 共9页第03课-Mahout数据挖掘工具(3) 共12页第04课-Mahout数据挖掘工具(4) 共9页第05课-Mahout数据挖掘工具(5) 共11页第06课-Mahout...
【课程大纲】第01课-Mahout数据挖掘工具(1) 共9页第02课-Mahout数据挖掘工具(2) 共9页第03课-Mahout数据挖掘工具(3) 共12页第04课-Mahout数据挖掘工具(4) 共9页第05课-Mahout数据挖掘工具(5) 共11页第06课-Mahout...