Mahout文件系统结构说明 - The Best or Nothing! - ITeye博客

`

chenwq

浏览: 568539 次
性别:
来自: 济南

最近访客更多访客>>

thtf2001

u012363178

jiumoji

song0394

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

brandNewUser：楼主你好，问个问题，为什么我写的如下的：JobConf pha ...
Hadoop ChainMap
Molisa： Molisa 写道mapred.min.split.size指 ...
Hadoop MapReduce Job性能调优——修改Map和Reduce个数
Molisa： mapred.min.split.size指的是block数， ...
Hadoop MapReduce Job性能调优——修改Map和Reduce个数
heyongcs：请问导入之后，那些错误怎么解决？
Eclipse导入Mahout
a420144030：看了你的文章深受启发，想请教你几个问题我的数据都放到hbase ...
Mahout clustering Canopy+K-means 源码分析

Mahout文件系统结构说明

博客分类：

Mahout

阅读更多

Mahout项目是由多个子项目组成的，各子项目分别位于源码的不同目录下，下面对Mahout的组成进行介绍：

1、mahout-core：核心程序模块，位于/core目录下；

2、mahout-math：在核心程序中使用的一些数据通用计算模块，位于/math目录下；

3、mahout-utils：在核心程序中使用的一些通用的工具性模块，位于/utils目录下；

上述三个部分是程序的主题，存储所有mahout项目的源码。

另外，mahout提供了样例程序，分别在taste-web和examples目录下：

4、taste-web：利用mahout推荐算法而建立的基于WEB的个性化推荐系统demo；

5、examples：对mahout中各种机器学习算法的应用程序；

6、bin：bin目录下只有一个名为mahout的文件，是一个shell脚本文件，用于在hadoop平台的命令行下调用mahout中的程序；

在buildtools、eclipse和distribution目录下，有mahout相关的配置文件

7、buildtools目录下是用于核心程序构建的配置文件，以mahout-buildtools的模块名称在mahout的pom.xml文件中进行说明；

8、eclipse下的xml文件是对利用eclipse开发mahout的配置说明；

9、distribution目录下有两个配置文件：bin.xml和src.xml，进行mahou安装时的一些配置信息。

另外，在mahout的下载地址下可以看到有个文件夹与mahout处于同一级别，它是mahout项目的分支项目—mahout- collections，用于实现了核心程序中使用的集合类操作，该模块独立于mahout进行开发，是对标准jdk中关于集合类的修改，使其可以适应数据密集型项目的开发。

分享到：

Mahout实现的机器学习算法 | Eclipse导入Mahout

2012-06-01 20:35
浏览 1430
评论(0)
分类:行业应用
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于Java+Mahout的协同过滤推荐算法图书推荐系统源码+项目说明.zip: 《基于Java+Mahout的协同过滤推荐算法图书推荐系统源码及项目说明》本项目是一个采用Java语言开发，结合Apache Mahout库实现的协同过滤推荐算法图书推荐系统。协同过滤是推荐系统中最常见的一种算法，它基于用户的...

Mahout-机器学习资源: LICENSE文件详细说明了Mahout的开源许可信息，保障了用户和贡献者在遵循Apache许可证的前提下，可以自由地使用和修改代码。NOTICE文件则提供了项目所依赖的第三方库的声明信息。 Mahout项目的元数据文件doap_Mahout...

mahout-distribution-0.12.2-src.tar.gz: 5. **文档资源**：在解压后的文件中，通常会包含README文件和Javadoc，这些文档可以帮助开发者理解项目结构、如何构建和运行示例，以及API的详细说明。 6. **社区支持**：作为Apache软件基金会的项目，Mahout有活跃...

基于Structs+Hibernate+Spring+mahout+bootstrap+junit+tomacat+mysql实现的网上书店前后台系统，毕业设计 .zip: 从文件的命名来看，可能还包含了关于标签管理、资源内容、配置文件等的详细说明，这些文件对于项目的完整性和易用性是至关重要的。通过这些内容的整合，可以看出该项目是一个功能全面、设计合理的网上书店系统。这...

mahout 测试数据包含movies.dat, ratings.dat， users.dat 和 README: 4. **README**：这是一个说明文件，通常包含了数据集的详细描述、数据格式、如何使用这些数据等信息。对于初学者来说，阅读README可以帮助理解数据集的结构和含义，以便正确地导入和处理数据。在马哈陶中，你可以...

数据采集与数据挖掘简单设计与实现配套代码: 此外，`.gitignore`文件用来指定版本控制系统Git应忽略的文件或目录，这在协作开发中很重要，避免不必要的文件被提交到版本库。而`tangshi-analyze.iml`可能是IntelliJ IDEA这类集成开发环境的项目配置文件，它帮助...

springboot基于协同过滤算法的黔醉酒业白酒销售系统_pv.zip: 从文件名称列表中，我们可以看到包含了一个文本文件“欢迎使用.txt”，这通常是对软件的简单介绍或使用说明；另外一个是名为“springboot基于协同过滤算法的黔醉酒业白酒销售系统_p091v--论文”的文件，这里可能包含...

系统聚类 java: "安装说明.txt"可能是某个软件的安装指南，而其他.dll和.exe文件通常与Windows平台的应用程序相关。例如，"Microsoft.ReportViewer"组件是用于显示报表的，"OQ100*"系列文件可能是某应用程序的核心组件。这些文件...

分布式集群技术.pdf: 分布式文件系统 HDFS 是分布式集群技术的基础，分布式文件系统 HDFS 简介、HDFS 原理、HDFS 上传下载数据过程和源码分析等内容将为读者提供了分布式文件系统 HDFS 的基础知识。分布式计算模型 MapReduce 是分布式...

大数据课程列表.docx: 深入理解Hadoop的分布式文件系统HDFS，包括其架构和工作原理。MapReduce是Hadoop的核心计算框架，你需要理解其概念、思想，熟悉MapReduce的工作流程，通过初级和高级案例，实际编写和运行MapReduce程序，提升解决...

Hadoop in Practice: 6. 书籍结构：文件提及书籍分为几个部分（Part），这可能意味着每个部分都针对Hadoop的特定主题或应用领域进行了深入探讨。 7. 书籍设计：文档中提到书籍的设计包括开发编辑、校对、排版、插图设计、封面设计等，...

gensim-3.8.1-cp37-cp37m-win_amd64.whl.zip: 在这个场景中，我们关注的是gensim的3.8.1版本，它被打包成一个适用于Python 3.7（cp37）且针对AMD64架构的Windows系统（win_amd64）的.whl文件。 ** gensim的核心功能 ** 1. **主题建模**：gensim支持多种主题...

《大数据日知录：架构与算法》完整版+书签: NoSQL数据库如HBase、Cassandra，以及分布式文件系统如HDFS、Ceph在此扮演着关键角色。 3. 数据处理层：处理层负责对采集到的原始数据进行清洗、转换、聚合等操作。Hadoop MapReduce是传统的大数据处理框架，而...

大数据学习记录.zip: 它包括HDFS（分布式文件系统）和MapReduce（分布式计算模型）。在"bigdata-learning-master"中，可能有对Hadoop生态系统组件如YARN（资源调度器）和HBase（NoSQL数据库）的学习材料。 2. **Spark**：Spark作为...

大数据处理常用技术有哪些.pdf: 1. **Apache Hadoop**：Hadoop 是一个开源的分布式计算框架，核心组件包括分布式文件系统（HDFS）和 MapReduce 计算模型。HDFS 提供高容错性和高吞吐量的数据存储，而 MapReduce 则负责数据的分布式处理。 2. **...

大数据处理常用技术有哪些.docx: 1. **Apache Hadoop**：Hadoop 是一个分布式计算框架，核心组件包括分布式文件系统（HDFS）和 MapReduce 框架。HDFS 提供高容错性和可扩展性，使得在普通硬件上存储和处理大量数据成为可能，而 MapReduce 则用于处理...

be-thesis-work:我作为 B. Engg 团队的一员所做的工作。论文。它是 K-Means 的一组实现，并实现了变化。我们最终继续创建了一个推荐系统，该系统将使用粗糙集聚类来聚类用户: 这意味着在解压后，我们可能会看到一个组织良好的文件结构，包含.java文件（Java源代码）、README文件（项目说明）、可能的.ipynb文件（Jupyter Notebook实验记录）以及其他辅助文件如数据集、结果输出和配置文件。...

Hospital-Recommender-System:我的硕士论文的完整代码: Java的面向对象特性使得代码结构清晰，易于维护，同时，Java的开源社区提供了大量用于机器学习和数据处理的工具，如Apache Mahout、Weka和Spark等，这些对于构建推荐系统至关重要。【压缩包子文件的文件名称列表】...

Global site tag (gtag.js) - Google Analytics