- 浏览: 155050 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (113)
- Java工具类 (3)
- Hibernate (1)
- Struts>1&2 (0)
- Spring (0)
- Web前端 (1)
- 数据库 (2)
- 中间件 (3)
- 搜索引擎 (11)
- EJB (1)
- Log日志 (1)
- OS操作系统 (7)
- Java文档 (4)
- Security (1)
- Exception&Error (7)
- 日志&心情 (7)
- 开心一下 (3)
- 云计算 (41)
- Cache缓存 (4)
- MongoDB (1)
- OS操作系统 Linux (7)
- jquery (1)
- 机器学习 (2)
- Plugins (2)
- AJAX (1)
- Java工具 (1)
- WebService (1)
最新评论
-
a420144030:
你好,我想计算n篇文章的相似度,用mahout能处理吗,如何做 ...
mahout使用 -
di1984HIT:
OK,真的很牛啊
hadoop常见错误 -
xwl1991:
还真是这个问题 !
quartz报错java.lang.NoSuchMethodError: org.apache.commons.collections.SetUtils.ord
转自:http://hi.baidu.com/pakko/blog/item/3516fd6e34032bce80cb4afb.html
运行kmeans的简单的例子:
1:将样本数据集放到hdfs中指定文件下,应该在testdata文件夹下
$HADOOP_HOME/bin/hadoop fs -put <PATH TO DATA> testdata
例如:
bin/hadoop fs -put /home/hadoopuser/mahout-0.3/test/synthetic_control.data /user/hadoopuser/testdata/
2:使用kmeans算法
$HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-$MAHOUT_VERSION.job org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
例如:
bin/hadoop jar /home/hadoopuser/mahout-0.3/mahout-examples-0.1.job org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
3:使用canopy算法
$HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-$MAHOUT_VERSION.job org.apache.mahout.clustering.syntheticcontrol.canopy.Job
例如:
bin/hadoop jar /home/hadoopuser/mahout-0.3/mahout-examples-0.1.job org.apache.mahout.clustering.syntheticcontrol.canopy.Job
4:使用dirichlet 算法
$HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-$MAHOUT_VERSION.job org.apache.mahout.clustering.syntheticcontrol.dirichlet.Job
5:使用meanshift算法
meanshift : $HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-$MAHOUT_VERSION.job org.apache.mahout.clustering.syntheticcontrol.meanshift.Job
6:查看一下结果吧
bin/mahout vectordump --seqFile /user/hadoopuser/output/data/part-00000
这个直接把结果显示在控制台上。
Get the data out of HDFS and have a look
All example jobs use testdata as input and output to directory output
Use bin/hadoop fs -lsr output to view all outputs
Output:
KMeans is placed into output/points
Canopy and MeanShift results are placed into output/clustered-points
发表评论
-
用Sqoop把数据从HDFS导入到MYSQL
2012-10-27 23:30 2354转自:http://www.kaifajie.cn/mySQL ... -
Solr 4.0: Realtime GET
2012-09-15 14:54 1222he next functionality I decided ... -
大数据的储存:百度HDFS集群的数据压缩
2012-08-30 17:48 12072012年4月13日,由IT168(ITP ... -
用sqoop进行mysql和hdfs系统间的数据互导
2012-07-31 16:32 1941转自:http://abloz.com/2012/07/19/ ... -
从hive将数据导出到mysql
2012-07-31 16:31 1824转自:http://abloz.com/2012/07/20/ ... -
Hive SQL
2012-07-19 13:49 1426转自:http://www.tbdata.org/ ... -
Hive优化总结
2012-07-09 15:18 4332优化时,把hive sql当做ma ... -
hadoop/mapred 优化方法
2012-06-12 11:47 1396从三个方面着手优化 : 1. hadoop配置 2. ... -
hadoop集群dfs.data.dir目录权限问题导致节点无法启动
2012-06-11 18:32 6228安装使用Hive的时候发现文件无法从本地拷贝到hadoo ... -
hadoop中的balancer
2012-06-11 15:49 1144对于HDFS集群,经常长时间的运行,尤其是大量的delete操 ... -
Hadoop集群上使用Lzo压缩
2012-05-28 11:03 934转自:http://www.tech126.com/hadoo ... -
使用Hive读取Hbase中的数据
2012-05-23 13:12 2274转自:http://www.4ucode.com/Study/ ... -
在XP系统下配置eclipse集成hadoop开发
2012-05-05 11:09 1048一、目的:由于hadoop只能在Linux环境下运行,所以对于 ... -
使用Hive读取Hbase中的数据
2012-04-18 14:24 1097转自:http://www.4ucode.com/Study/ ... -
Web日志分析方法概述 让复杂的数据挖掘变得简单可行
2012-04-13 16:31 874志在计算机系统中是一个非常广泛的概念,任何程序都有可能输出日志 ... -
应用sqoop将MySQL数据库中的数据导入Hbase
2012-04-12 11:31 2066转自:http://www.bwxxkj.com/a/jish ... -
hadoop中的trash机制,恢复删除的文件
2012-03-31 13:46 2201Hadoop回收站trash,默认是关闭的。 1.修改con ... -
Hadoop 和DBMS 的互补性
2012-03-29 12:22 672随着Microsoft 也加入Hadoop 阵营,Hadoop ... -
Hadoop 中的两表join
2012-03-29 12:20 851转自:http://www.gemini52013 ... -
各版本编译hadoop eclipse plugin
2012-03-29 12:19 1383转自:http://www.gemini52013 ...
相关推荐
在源码层面,Mahout使用Java编写,并利用Hadoop的MapReduce框架进行分布式计算。这使得它能够处理PB级别的数据,同时保持良好的可扩展性。开发者可以通过调用Mahout的API来实现自己的机器学习任务,也可以通过命令行...
Mahout使用Hadoop作为其分布式计算框架,这意味着它能够处理非常大的数据集,通过MapReduce任务在集群上并行运算。然而,随着Spark的兴起,Mahout也逐渐开始支持Spark作为执行引擎,这提供了更快的计算速度和更低的...
4. **构建工具**:Mahout使用Apache Maven作为构建工具,通过`pom.xml`文件管理依赖和构建过程。开发者可以使用Maven命令来编译、测试和打包项目。 5. **文档资源**:在解压后的文件中,通常会包含README文件和...
在给定的压缩包中,包含了`mahout-distribution-0.5`版本,这个版本的Mahout已经包含了运行K-Means所需的所有jar包,用户可以直接使用而无需自行编译。 **使用Mahout的步骤** 1. **配置环境**:确保已经安装了Java...
作为Apache软件基金会的顶级项目,Mahout有一个活跃的社区,提供丰富的文档、教程和示例,帮助用户理解和使用Mahout。 8. **集成与扩展**: Mahout可以与Hadoop生态系统中的其他工具(如HBase、Spark等)无缝集成...
为了方便使用Mahout,可以将Mahout的bin目录添加到系统PATH环境变量中。这样,你就可以在任何目录下运行Mahout的命令行工具。 五、验证安装 在命令行中输入`mahout`,如果系统能够列出Mahout的所有可用命令,那么...
`maven_mahout_template-mahout-0.8`这个项目模板,是为使用Maven构建的Mahout项目提供的一种基础架构。它包含了配置文件、依赖管理和项目结构,使得开发者可以快速地搭建起一个基于Mahout的项目环境,进行机器学习...
- 使用 Mahout 提供的工具或者自定义代码将 CSV 数据转换为适合 Mahout 处理的格式,例如 SequenceFile 或 HDFS 上的文本文件。 2. **导入数据**: - 将转换后的数据输入到 Hadoop 文件系统中,以便 Mahout 可以...
文档强调使用特定版本的软件栈是成功运行Mahout Taste Webapp的关键。文档中明确指出,需要使用JDK 1.6、Maven 3.0.5和Mahout 0.5版本。这是因为不同版本之间的兼容性问题可能导致运行时出现各种问题,比如依赖冲突...
3. **文档**:可能包括README文件,指导用户如何安装和使用这个编译包。 4. **配置文件**:如`.xml`文件,可能包含Hadoop和Mahout的配置信息。 5. **示例项目**:演示如何在Hadoop 2环境下运行Mahout的实例。 6. **...
mahout-examples-0.11.1 mahout-examples-0.11.1-job mahout-h2o_2.10-0.11.1 mahout-h2o_2.10-0.11.1-dependency-reduced mahout-hdfs-0.11.1 mahout-integration-0.11.1 mahout-math-0.11.1 mahout-math-0.11.1 ...
为了在 Eclipse 中使用 Mahout,你需要安装 Hadoop 和 Mahout 相关的插件,或者手动配置项目以包含 "Mahout 最新基础依赖包" 中的 JAR 文件。这样可以避免因缺少依赖而导致的编译错误或运行时问题。 **使用步骤** ...
如果你打算深入研究Mahout或者利用其功能,可以先阅读文档了解其架构和使用方法,然后通过例子实践,最后根据实际需求定制和优化算法。同时,由于"新建文件夹"没有给出具体信息,可能是一个空文件夹,或者包含了与...
例如,如果你需要使用推荐系统,只需在`pom.xml`文件中添加相关的Mahout依赖即可。 **3. Mahout 与 Hadoop** Mahout 构建在Hadoop之上,利用MapReduce进行分布式计算。这意味着,对于处理大量数据,Mahout 可以在...
6. **模型训练与评估**:介绍如何使用Mahout训练模型,以及如何通过交叉验证和性能指标(如准确率、召回率和F1分数)来评估模型的性能。 7. **推荐系统**:Mahout的一个重要应用是构建推荐系统。书中会详细介绍如何...
该项目的简短教程提供了对Mahout的基本介绍,并解释了如何使用它来创建推荐系统以及组织文档以形成更易于使用的群集。教程为有志于学习Mahout基础知识并开发涉及推荐、分类和聚类等机器学习技术应用的专业人士所准备...
《Mahout之Item-based应用使用》 Apache Mahout是一个开源的机器学习库,主要专注于大规模数据集上的推荐系统、分类和聚类算法。在这个主题中,我们将深入探讨Mahout中的Item-based协同过滤(Item-based ...