mahout的完整运行还是需要hadoop的支持的,不过很多算法只需要能把hadoop的jar包加入到classpath之中就能正常运行。
比如我们在使用LogisticModelParameters的时候,会引用包
import org.apache.hadoop.io.Writable;
按照之前的文章,仅仅将mahout的包加入到classpath之中,就会提示找不到hadoop***
为了解决这个问题,就必须得通过maven进行项目引入搭建开发环境。
下面就是我在没有hadoop的Windows之中利用Eclipse进行mahout开发环境的搭建步骤。
如何下载并运行Eclipse不在本文的范围之中
1. 运行Eclipse,并在File -> Import之中选择“Exsisting maven projects”
2. 选择mahout-src的根目录:
接下来就一路next / OK 即可。
中途会需要重启一次Eclipse~
最后在Eclipse之中会看到如下项目列表:
PS: 以上步骤在Windows有效,在Centos6.2 上虽然导入成功,但是无法正常运行java文件。目前我也木有办法。。。
尝试在mahout-example之中创建一个最简单的文件:
第一次运行请耐心等待,具体原因未知(我也不怎么会玩Maven),Eclipse会尝试创建java文件的index,看机器性能,我的耗时5分钟左右~以后就好了
运行完成,显示:
Hello Classifier!!!
看了不少文章之后,加上自己的尝试,感觉这是想进一步使用mahout最简单的方法了:D
相关推荐
接下来,你可以通过 Maven 构建 Mahout 项目,使用 Hadoop 分布式环境运行数据挖掘任务。在实际应用中,你可能还需要配置 Hadoop 的其他参数,如 `core-site.xml`、`hdfs-site.xml` 和 `mapred-site.xml`,以适应你...
在Hadoop之上构建Mahout环境,可以实现高效的大规模数据挖掘和分析。 标题"hadop 2.4.1+mahout0.9环境搭建"涉及到的知识点主要包括以下几个方面: 1. **Hadoop 2.4.1**:这是Hadoop的一个重要版本,引入了YARN...
"Mahout 最新基础依赖包.rar" 提供了这些基本的依赖,以便在 IDE(如 Eclipse)中构建和运行 Mahout 程序。这些依赖通常包括 Mahout 的核心库、Hadoop 相关的依赖以及可能的其他支持库,它们是实现 Mahout 功能所...
只需导入到IDE,如IntelliJ IDEA或Eclipse,然后就可以直接开始编写基于Mahout的机器学习程序。 Mahout 0.8版本是一个重要的里程碑,包含了丰富的机器学习算法,如协同过滤推荐算法、K-means聚类算法、随机森林分类...
在本文中,我们将深入探讨Mahout 0.9版本,了解其核心概念、功能以及如何在Eclipse环境中配置和运行Mahout项目。 **Mahout 0.9的核心特性:** 1. **分布式计算框架支持**:Mahout 0.9利用Hadoop的分布式计算能力,...
mahout-core-0.7.jar,注意版本hadoop-1.0.x,eclipse-3.7。(mahout0.7不支持hadoop-2.2),由mahout-distribution-0.7.tar.gz源码构建生成jar包,可以直接引入。
开发者可以通过解压并导入到IDE(如Eclipse或IntelliJ IDEA)中,查看和运行示例代码,了解如何在实际项目中应用Mahout。 1. 示例项目结构: - src/main/java:包含Java源代码,展示了如何调用Mahout API创建机器...
开发者和学习者可以通过这个项目轻松地运行和测试Mahout的各种算法,无需复杂的数据预处理和环境配置。这为快速原型开发、算法比较和性能测试提供了便利。`play-mahout-master`可能包含该项目的源代码、配置文件、...
构建此项目的可运行 Jar 在~/.bash_profile设置MahoutHadoopUseCase_HOME和HADOOP_HOME 将此Maven程序导入eclipse 在eclipse中打开feiyu.com.cfex文件夹下的RecommenderJob.java文件,输入如下参数,之后点击Run ...
mapreduce-kmeans 代码。 请注意,这只是一个示例,而不是可用于生产的代码。 如果您要进行正式生产和正常工作的群集,请使用Mahout,Hama或Spark。 建造 您将需要Java 8来构建该库。... mvn eclipse:eclipse
2. 实验环境:配备必要的硬件设备,如装有JDK1.7、eclipse、Tomcat7.0、Centos、CDH的计算机。 3. 资源获取:利用网络和图书馆获取最新的技术和市场信息,确保系统的先进性和实用性。 本课题的关键在于利用Spark的...
`Eclipse`是Java开发常用的集成开发环境(IDE),用于编写、运行和调试代码。在这个项目中,`.classpath`和`.project`文件是Eclipse项目配置文件,它们定义了项目的构建路径和编译设置。 `pom.xml`是Maven项目的...
综合案例:构建互联网高并发分布式服务器集群是分布式集群技术的实践经验,Hadoop 生态圈简介、Hadoop 伪分布式环境搭建、Hadoop 计算模型 MapReduce 例子说明等内容将为读者提供了分布式集群技术的实践经验。...
8. **开发工具与环境**:可能使用Eclipse或IntelliJ IDEA作为Java开发环境,Maven或Gradle作为项目构建工具,Jenkins或GitLab CI/CD进行持续集成和持续部署。 9. **测试框架**:为了确保代码质量,项目可能包含了...
Java 项目时,强烈建议使用可用的最佳 IDE:IntelliJ IDEA ( ) 或 Eclipse ( ),以便支持构建和归档。 项目、依赖项、构建策略等通过 Maven ( ) 处理。 Maven 需要一个名为pom.xml的项目描述文件。部署例如 - Heroku...
Java的面向对象特性使得代码结构清晰,易于维护,同时,Java的开源社区提供了大量用于机器学习和数据处理的工具,如Apache Mahout、Weka和Spark等,这些对于构建推荐系统至关重要。 【压缩包子文件的文件名称列表】...
11. **大数据开发工具**:包括Eclipse、IntelliJ IDEA等集成开发环境,以及Apache Maven或Gradle等构建工具。 12. **数据可视化**:Tableau、Power BI、D3.js等工具用于将复杂数据转化为直观的图表,帮助决策者理解...
在实施过程中,学生可能需要用到C#等编程语言,以及Eclipse J2EE、Mahout、Maven、MySQL、PHP等工具和技术,以实现推荐服务、UI设计、数据库连接和算法开发等功能。项目的成功不仅依赖于技术实现,还需要良好的项目...
Eclipse是一款强大的Java集成开发环境,对于学习和实现各种算法非常方便。为了运行课程项目,你需要提供两个数据集:`src/train-win.dat`和`src/test-win.dat`。训练数据集(train-win.dat)用于构建模型,而测试...