Mahout 和 Mahout in Action
1 Mahout 简介
网站:http://mahout.apache.org/
Mahout 项目是由 Apache Lucene(开源搜索)社区中对机器学习感兴趣的一些成员发起的,他们希望建立一个可靠、文档翔实、可伸缩的项目,在其中实现一些常见的用于集群和分类的机器学习算法。
该社区最初基于 Ng et al. 的文章 “Map-Reduce for Machine Learning on Multicore”(见 参考资料),但此后在发展中又并入了更多广泛的机器学习方法。
Mahout 的目标还包括:
- 建立一个用户和贡献者社区,使代码不必依赖于特定贡献者的参与或任何特定公司和大学的资金。
- 专注于实际用例,这与高新技术研究及未经验证的技巧相反。
- 提供高质量文章和示例。
目前Mahout实现的方法算法包括:
Collaborative Filtering 协同过滤
User and Item based recommenders 基于用户和项目的推荐
K-Means, Fuzzy K-Means clustering K均值、模糊K均值聚类
Mean Shift clustering 均值漂移聚类
Dirichlet process clustering Dirichlet过程聚类
Latent Dirichlet Allocation 潜在 Dirichlet分配
Singular value decomposition 奇异值分解
Parallel Frequent Pattern mining 并行频繁模式挖掘
Complementary Naive Bayes classifier 补充朴素贝叶斯分类器
Random forest decision tree based classifier 随机森林基于决策树的分类器
High performance java collections (previously colt collections) 高性能java集合(以前的colt集合)
更多介绍可以参考IBM DW上的系列文章: http://www.ibm.com/developerworks/cn/java/j-mahout/
2 Mahout in Action
- 此书2009年就开始写作,目前全书原文都已完成,但还未正式出版貌似?只有MEAP ,详见 http://www.manning.com/owen/
- 此书以推荐引擎为基础,重点讲述聚类和分类算法
- 全书目录
1. Meet Apache Mahout
Part 1 Recommendations
2. Introducing recommenders
3. Representing data
4. Making recommendations
5. Taking recommenders to production
6. Distributing recommendation computations
Part 2 Clustering
7. Introduction to clustering
8. Representing data
9. Clustering algorithms in Mahout
10. Evaluating clustering quality
11. Taking clustering to production
12. Real-world applications of clustering
Part 3 Classification
13. Introduction to classification
14. Training a classifier
15. Evaluating and tuning a classifier
16. Deploying a classifier
17. Case study: Shop it To Me
Appendices
A. JVM tuning
B. Mahout math
C. Resources
- 有一个哥们正在翻译成中文,目前正在第3章 : http://running.iteye.com/category/144665
3 相关话题
- Hadoop , Lucene
- 推荐引擎
- 多元统计方法
- 数据挖掘
分享到:
相关推荐
《Mahout in Action》是一本由Sean Owen、Robin Anil、Ted Dunning和Ellen Friedman合著的专业书籍,旨在深入介绍Apache Mahout这一强大的机器学习库。该书的网上流传版本通常只包含前13章,而此处提供的完整版则...
《Mahout in Action》是一本深入探讨Apache Mahout机器学习框架的专业书籍,其源码提供了丰富的实践示例和深入理解Mahout算法的机会。在GitHub上,你可以找到这些源码的完整版本,链接为。下面,我们将详细探讨...
Mahout的设计理念强调了算法的可扩展性和实用性,这使得它能够很好地适应现代大数据环境下的挑战。 #### 二、Mahout的核心功能 Mahout提供的核心功能主要包括以下三个方面: 1. **协同过滤(Collaborative ...
Apache Mahout是一个Apache开源数据挖掘和机器学习项目,它提供了一系列基于...《Mahout in Action》作为一本实践导向的书籍,提供了详尽的理论知识和代码示例,是学习和应用Mahout进行数据挖掘和机器学习的理想选择。
### Mahout in Action #### 一、概览 《Mahout in Action》是一本全面介绍Apache Mahout这一开源机器学习库的专业书籍。本书由Sean Owen、Robin Anil、Ted Dunning和Ellen Friedman共同撰写,深入浅出地讲解了...
总的来说,《Mahout in Action》中文版是学习和应用Mahout的宝贵资源,无论你是数据科学家、软件工程师还是对大数据和机器学习感兴趣的个人,都能从中受益。通过这本书,你可以掌握如何利用Hadoop和Mahout来挖掘...
一些支持 Map-Reduce 的集群实现包括 k-Means、模糊 k-Means、Canopy、Dirichlet 和 Mean-Shift。 Distributed Naive Bayes 和 Complementary Naive Bayes 分类实现。
总之,编译《Mahout in Action》的源代码并生成JAR包虽然涉及了一些额外的步骤,但通过理解Maven的工作原理和依赖管理,我们可以有效地解决问题,确保项目顺利进行。在实际的开发环境中,持续关注依赖库的更新和维护...
王家林所著的《Mahout_in_Action》一书详细介绍了如何在实践中有效地使用Mahout,涵盖了Mahout的设置、推荐引擎、聚类和分类的基本原理与应用场景。通过本书,读者可以学习到如何搭建和优化Mahout环境,如何将推荐...
为了更好地利用Mahout,本书《Mahout in Action》提供了一条快速入门的路径,包括介绍性章节,详细阐述推荐系统、聚类和分类的原理,以及如何在实际项目中应用这些技术。书中还包含具体的代码示例和实践经验,适合...
Mahout的目标是提供可扩展的机器学习算法,特别是聚焦于协同过滤、聚类和分类这三个核心主题。由于其与Apache Hadoop的紧密集成,Mahout能够处理大数据集,实现分布式机器学习。 【推荐系统引擎】推荐系统是Mahout...
### Mahout in Action 最新版+完整版 #### 知识点概述 《Mahout in Action》是一本关于Apache Mahout的权威指南,该书详细介绍了如何利用Mahout进行推荐系统、聚类分析以及分类等机器学习任务。此版本为2012年的...