mahout使用

yeshuqiang

浏览: 157415 次
性别:
来自: 北京

最近访客更多访客>>

liunancun

Lif0820

冷月宫主

awen7916

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

搜索引擎
云计算

运行kmeans的简单的例子：

1：将样本数据集放到hdfs中指定文件下,应该在testdata文件夹下
$HADOOP_HOME/bin/hadoop fs -put <PATH TO DATA> testdata
例如：
bin/hadoop fs -put /home/hadoopuser/mahout-0.3/test/synthetic_control.data /user/hadoopuser/testdata/

2：使用kmeans算法
$HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-$MAHOUT_VERSION.job org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
例如：
bin/hadoop jar /home/hadoopuser/mahout-0.3/mahout-examples-0.1.job org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

3：使用canopy算法
$HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-$MAHOUT_VERSION.job org.apache.mahout.clustering.syntheticcontrol.canopy.Job
例如：
bin/hadoop jar /home/hadoopuser/mahout-0.3/mahout-examples-0.1.job org.apache.mahout.clustering.syntheticcontrol.canopy.Job

4：使用dirichlet 算法
$HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-$MAHOUT_VERSION.job org.apache.mahout.clustering.syntheticcontrol.dirichlet.Job

5：使用meanshift算法
meanshift : $HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-$MAHOUT_VERSION.job org.apache.mahout.clustering.syntheticcontrol.meanshift.Job

6：查看一下结果吧
bin/mahout vectordump --seqFile /user/hadoopuser/output/data/part-00000
这个直接把结果显示在控制台上。

Get the data out of HDFS and have a look
All example jobs use testdata as input and output to directory output
Use bin/hadoop fs -lsr output to view all outputs
Output:
KMeans is placed into output/points
Canopy and MeanShift results are placed into output/clustered-points

分享到：

如何设置SOLR的高亮 (highlight) | Mahout详细安装过程

2012-02-10 11:23
浏览 1593
评论(1)
分类:行业应用
查看更多

1 楼 a420144030 2013-05-09

你好，我想计算n篇文章的相似度，用mahout能处理吗，如何做能给个例子吗？谢谢

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

mahout使用

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

mahout使用

评论

发表评论

相关推荐

用Sqoop把数据从HDFS导入到MYSQL

Solr 4.0: Realtime GET

大数据的储存：百度HDFS集群的数据压缩

用sqoop进行mysql和hdfs系统间的数据互导

从hive将数据导出到mysql

Hive SQL

Hive优化总结

hadoop/mapred 优化方法

hadoop集群dfs.data.dir目录权限问题导致节点无法启动

hadoop中的balancer

Hadoop集群上使用Lzo压缩

使用Hive读取Hbase中的数据

在XP系统下配置eclipse集成hadoop开发

使用Hive读取Hbase中的数据

Web日志分析方法概述 让复杂的数据挖掘变得简单可行

应用sqoop将MySQL数据库中的数据导入Hbase

hadoop中的trash机制，恢复删除的文件

Hadoop 和DBMS 的互补性

Hadoop 中的两表join

各版本编译hadoop eclipse plugin

最近访客更多访客>>

Web日志分析方法概述让复杂的数据挖掘变得简单可行