`
bluky999
  • 浏览: 719757 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论
阅读更多

 

Mahout 和 Mahout in Action 

 

1 Mahout 简介

网站:http://mahout.apache.org/

 

Mahout 项目是由 Apache Lucene(开源搜索)社区中对机器学习感兴趣的一些成员发起的,他们希望建立一个可靠、文档翔实、可伸缩的项目,在其中实现一些常见的用于集群和分类的机器学习算法。

 

该社区最初基于 Ng et al. 的文章 “Map-Reduce for Machine Learning on Multicore”(见 参考资料),但此后在发展中又并入了更多广泛的机器学习方法。

 

Mahout 的目标还包括:

- 建立一个用户和贡献者社区,使代码不必依赖于特定贡献者的参与或任何特定公司和大学的资金。

- 专注于实际用例,这与高新技术研究及未经验证的技巧相反。

- 提供高质量文章和示例。

 

 

目前Mahout实现的方法算法包括:

Collaborative Filtering 协同过滤

User and Item based recommenders 基于用户和项目的推荐

K-Means, Fuzzy K-Means clustering K均值、模糊K均值聚类

Mean Shift clustering 均值漂移聚类

Dirichlet process clustering Dirichlet过程聚类

Latent Dirichlet Allocation 潜在 Dirichlet分配

Singular value decomposition 奇异值分解 

Parallel Frequent Pattern mining 并行频繁模式挖掘

Complementary Naive Bayes classifier 补充朴素贝叶斯分类器

Random forest decision tree based classifier 随机森林基于决策树的分类器

High performance java collections (previously colt collections) 高性能java集合(以前的colt集合)

 

 

 

更多介绍可以参考IBM DW上的系列文章: http://www.ibm.com/developerworks/cn/java/j-mahout/ 

 

2 Mahout in Action 

 

- 此书2009年就开始写作,目前全书原文都已完成,但还未正式出版貌似?只有MEAP ,详见 http://www.manning.com/owen/ 

 

- 此书以推荐引擎为基础,重点讲述聚类和分类算法

 

- 全书目录

 

1. Meet Apache Mahout 

 

Part 1 Recommendations

2. Introducing recommenders

3. Representing data 

4. Making recommendations

5. Taking recommenders to production

6. Distributing recommendation computations

 

Part 2 Clustering

7. Introduction to clustering

8. Representing data

9. Clustering algorithms in Mahout

10. Evaluating clustering quality

11. Taking clustering to production

12. Real-world applications of clustering

 

Part 3 Classification

13. Introduction to classification

14. Training a classifier

15. Evaluating and tuning a classifier

16. Deploying a classifier

17. Case study: Shop it To Me

 

Appendices

A. JVM tuning

B. Mahout math

C. Resources

 

- 有一个哥们正在翻译成中文,目前正在第3章 :   http://running.iteye.com/category/144665  

 

 

3 相关话题

- Hadoop , Lucene 

- 推荐引擎 

- 多元统计方法 

- 数据挖掘 

2
2
分享到:
评论

相关推荐

    Mahout In Action英文完整版

    《Mahout in Action》是一本由Sean Owen、Robin Anil、Ted Dunning和Ellen Friedman合著的专业书籍,旨在深入介绍Apache Mahout这一强大的机器学习库。该书的网上流传版本通常只包含前13章,而此处提供的完整版则...

    mahout in action中的源码

    《Mahout in Action》是一本深入探讨Apache Mahout机器学习框架的专业书籍,其源码提供了丰富的实践示例和深入理解Mahout算法的机会。在GitHub上,你可以找到这些源码的完整版本,链接为。下面,我们将详细探讨...

    mahout_in_action_中文版

    Mahout的设计理念强调了算法的可扩展性和实用性,这使得它能够很好地适应现代大数据环境下的挑战。 #### 二、Mahout的核心功能 Mahout提供的核心功能主要包括以下三个方面: 1. **协同过滤(Collaborative ...

    Mahout in Action 2012

    Apache Mahout是一个Apache开源数据挖掘和机器学习项目,它提供了一系列基于...《Mahout in Action》作为一本实践导向的书籍,提供了详尽的理论知识和代码示例,是学习和应用Mahout进行数据挖掘和机器学习的理想选择。

    Mahout_in_Action

    ### Mahout in Action #### 一、概览 《Mahout in Action》是一本全面介绍Apache Mahout这一开源机器学习库的专业书籍。本书由Sean Owen、Robin Anil、Ted Dunning和Ellen Friedman共同撰写,深入浅出地讲解了...

    Mahout in action 实战中文版 高清 完整

    总的来说,《Mahout in Action》中文版是学习和应用Mahout的宝贵资源,无论你是数据科学家、软件工程师还是对大数据和机器学习感兴趣的个人,都能从中受益。通过这本书,你可以掌握如何利用Hadoop和Mahout来挖掘...

    Mahout in Action完整版本(英文)

    一些支持 Map-Reduce 的集群实现包括 k-Means、模糊 k-Means、Canopy、Dirichlet 和 Mean-Shift。  Distributed Naive Bayes 和 Complementary Naive Bayes 分类实现。

    mahout in action源代码maven编译jar包

    总之,编译《Mahout in Action》的源代码并生成JAR包虽然涉及了一些额外的步骤,但通过理解Maven的工作原理和依赖管理,我们可以有效地解决问题,确保项目顺利进行。在实际的开发环境中,持续关注依赖库的更新和维护...

    王家林Mahout_in_Action

    王家林所著的《Mahout_in_Action》一书详细介绍了如何在实践中有效地使用Mahout,涵盖了Mahout的设置、推荐引擎、聚类和分类的基本原理与应用场景。通过本书,读者可以学习到如何搭建和优化Mahout环境,如何将推荐...

    Mahout in action 中文版

    为了更好地利用Mahout,本书《Mahout in Action》提供了一条快速入门的路径,包括介绍性章节,详细阐述推荐系统、聚类和分类的原理,以及如何在实际项目中应用这些技术。书中还包含具体的代码示例和实践经验,适合...

    能找到的最全的 mahout in action中文版

    Mahout的目标是提供可扩展的机器学习算法,特别是聚焦于协同过滤、聚类和分类这三个核心主题。由于其与Apache Hadoop的紧密集成,Mahout能够处理大数据集,实现分布式机器学习。 【推荐系统引擎】推荐系统是Mahout...

    Mahout in Action 最新版+完整版

    ### Mahout in Action 最新版+完整版 #### 知识点概述 《Mahout in Action》是一本关于Apache Mahout的权威指南,该书详细介绍了如何利用Mahout进行推荐系统、聚类分析以及分类等机器学习任务。此版本为2012年的...

Global site tag (gtag.js) - Google Analytics