The Apache Mahout™ project's goal is to build an environment for quickly creating scalable performant machine learning applications.
Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现、分类、聚类等。Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能。
Apache Mahout software provides three major features:
1)A simple and extensible programming environment and framework for building scalable algorithms
2)A wide variety of premade algorithms for Scala + Apache Spark, H2O, Apache Flink
3)Samsara, a vector math experimentation environment with R-like syntax which works at scale
4)On-GPU compute for performance improvements in large matrix multiplications
查了Mahout的中文意思——驭象的人,再看看Mahout的logo,好吧,想和小黄象happy地玩耍,得顺便陪陪这位驭象人耍耍了...
Mahout 目前提供了一些工具,可用于通过 Taste 库建立一个推荐引擎 —针对 CF 的快速且灵活的引擎。Taste 支持基于用户和基于项目的推荐,并且提供了许多推荐选项,以及用于自定义的界面。Taste 包含 5 个主要组件,用于操作 用户、项目和 首选项:
DataModel:用于存储 用户、项目和 首选项
UserSimilarity:用于定义两个用户之间的相似度的界面
ItemSimilarity:用于定义两个项目之间的相似度的界面
Recommender:用于提供推荐的界面
UserNeighborhood:用于计算相似用户邻近度的界面,其结果随时可由 Recommender使用
算法类 |
算法名 |
中文名 |
分类算法 |
Logistic Regression |
逻辑回归 |
Bayesian |
贝叶斯 |
|
SVM |
支持向量机 |
|
Perceptron |
感知器算法 |
|
Neural Network |
神经网络 |
|
Random Forests |
随机森林 |
|
Restricted Boltzmann Machines |
有限波尔兹曼机 |
|
聚类算法 |
Canopy Clustering |
Canopy聚类 |
K-means Clustering |
K均值算法 |
|
Fuzzy K-means |
模糊K均值 |
|
Expectation Maximization |
EM聚类(期望最大化聚类) |
|
Mean Shift Clustering |
均值漂移聚类 |
|
Hierarchical Clustering |
层次聚类 |
|
Dirichlet Process Clustering |
狄里克雷过程聚类 |
|
Latent Dirichlet Allocation |
LDA聚类 |
|
Spectral Clustering |
谱聚类 |
|
关联规则挖掘 |
Parallel FP Growth Algorithm |
并行FP Growth算法 |
回归 |
Locally Weighted Linear Regression |
局部加权线性回归 |
降维/维约简 |
Singular Value Decomposition |
奇异值分解 |
Principal Components Analysis |
主成分分析 |
|
Independent Component Analysis |
独立成分分析 |
|
Gaussian Discriminative Analysis |
高斯判别分析 |
|
进化算法 |
并行化了Watchmaker框架 |
|
推荐/协同过滤 |
Non-distributed recommenders |
Taste(UserCF, ItemCF, SlopeOne) |
Distributed Recommenders |
ItemCF |
|
向量相似度计算 |
RowSimilarityJob |
计算列间相似度 |
VectorDistanceJob |
计算向量间距离 |
|
非Map-Reduce算法 |
Hidden Markov Models |
隐马尔科夫模型 |
集合方法扩展 |
Collections |
扩展了java的Collections类 |
相关推荐
Apache Mahout是一个开源项目,专注于开发可扩展的机器学习库,它主要由Java语言编写,并且依赖于Maven构建系统。在"apache-mahout-distribution-0.11.0-src.zip"这个压缩包中,您将找到Mahout 0.11.0版本的源代码,...
### Apache Mahout Cookbook知识点概述 #### 一、Apache Mahout简介 Apache Mahout是一个高度可扩展的机器学习库,主要用于构建智能推荐系统、聚类分析以及其他数据挖掘任务。该库利用了Apache Hadoop的强大分布式...
apache-mahout-distribution-0.12.1.tar.gz 开源版本 .
Apache Mahout 项目旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout 的创始者 Grant Ingersoll 介绍了机器学习的基本概念,并演示了如何使用 Mahout 来实现文档集群、提出建议和组织内容。
k-Nearest Neighbors algorithm (k-NN) implemented on Apache Spark. This uses a hybrid spill tree approach to achieve high accuracy and search efficiency. The simplicity of k-NN and lack of tuning ...
Apache Mahout是一个基于Java的开源机器学习库,它为大数据处理提供了丰富的算法集。这个"apache-mahout-distribution-0.10.2"压缩包包含的是Mahout的0.10.2版本,该版本是2014年发布的一个稳定版本,旨在帮助大数据...
This book is a practical guide that explains the classification algorithms provided in Apache Mahout with the help of actual examples. Starting with the introduction of classification and model ...
根据给定的文件信息,我们可以提炼出以下几个与Apache Mahout及其Taste Webapp相关的知识点: 1. Apache Mahout简介 Apache Mahout是一个开源项目,隶属于Apache软件基金会(ASF),专门提供可扩展的机器学习算法...
Apache Mahout 项目旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout 的创始者 Grant Ingersoll 介绍了机器学习的基本概念,并演示了如何使用 Mahout 来实现文档集群、提出建议和组织内容。
Apache Mahout 简介
Apache Mahout是一个基于Hadoop的大规模数据集上实现的机器学习库,它的主要目标是提供简单易用的算法,用于构建智能应用。在标题中提到的"apache-mahout-distribution-0.12.2.tar.gz"是Mahout的一个发行版本,版本...
Thank you for requesting the download for Apache Mahout Cookbook. Please click the following link to download the code:
《Apache Mahout Cookbook》是一本深入探讨Apache Mahout框架的指南,旨在帮助读者掌握并熟练应用Mahout的各种功能,从基础设置到高级分析技术。本书不仅涵盖了安装与配置Mahout所需的环境,还提供了丰富的示例代码...
Apache Mahout is a scalable machine learning library with algorithms for clustering, classification, and recommendations. It empowers users to analyze patterns in large, diverse, and complex datasets ...
Apache Mahout 是一个开源机器学习库,主要由Java编写,旨在提供可扩展的、易于使用的机器学习算法。在物联网(IoT)领域,Mahout 的应用可以为智能设备如智能锁和充电桩等带来智能化功能。这些设备通常需要通过不同...
Apache Mahout是一个开源项目,专注于开发可扩展的机器学习库,尤其在大数据处理领域有着广泛的应用。源码分析可以从以下几个方面展开: 1. **Mahout的背景与目标**: Apache Mahout起源于2008年,由Apache ...
马哈多(Mahout)是Apache软件基金会的一个开源项目,专注于提供可扩展的机器学习库。它基于Hadoop,这意味着它能够利用分布式计算来处理大规模数据集。 Mahout的目标是帮助开发人员构建智能应用程序,如推荐系统、...
在《Learning Apache Mahout》这本书中,作者Chandramani Tiwary深入介绍了Mahout的安装和使用,让读者能够获得大数据分析和数据科学探索的实用技能。书中不仅涵盖了Mahout的基础概念,还深入讲解了如何在实际项目中...