当提供大量的优良的输入数据时,这些技术中的那一个才可以最好的操作。有时候,这些技术不仅必须在大量的输入数据上操作,而且必须很快的产生结果。可扩展性,很快成为这些因素的一个主要问题。
根据粗略的估计,Picasa甚至在三年前可能已经服务器托管了5亿的图片。这意味着每日成千上万的新的图片必须被分析。通过它自己来分析一张图片没有很大的问题,虽然它重复成千上万次。但是,学习阶段需要同时地数以亿计的每张图片的信息,一定规模的计算对于单一的机器来说是显然是行不通的。
根据类似的分析,谷歌新闻中心每天查询大约3.5百万的新的新闻文章。虽然就其本身来说这不是很大的量,但考虑到这些文章必须与近来的文章一起被聚集,并且需要在短时间内完成。
Netflix发行的Nerflix奖,额定数据的子集包含了一亿个等级。大概这是因为竞争的目的而发布的,所以Netflix实际拥有并必须处理,用来创造推荐的数据的总额扩大了很多倍。
这些技术在上下文中是有必要的展开,在上下文里输入的数据总额是非常巨大的。如此巨大的数据量,在一台电脑上,甚至在一个强大的电脑上处理它,都是行不通的。因此,实施这些技术的人,没有人能够忽视这个规模问题。这就是为什么Mahout使可扩展性成为头等重要的事情,以及为什么这本书会集中有效的处理大型的数据集合,而其他技术则不会采用这种方式。
1.5.1 MapReduce 和 Hadoop
Mahout利用Apache Hadoop 项目,这个项目是一个基于java的开源实现mapreduce(http://labs.google.com/papers/mapreduce.html) 。mapreduce是一个分布式计算框架,并且在谷歌内部普遍使用。Mapreduce是一个设计范式,它起先听起来可能有些古怪,或者太简单而不能强有力。Mapreduce框架适用于这些问题,它的输入数据是一套键值对。一个“map”的作用是把这些键值对,变成其他中间结果的键值对。一个“reduce”的作用是以某种方式,将每个中间结果的键合并所有的值来产生结果。
事实上,很多难题可以被MapReduce实现,或者解决它们。这个框架本身有很好的并发性:所有的处理都是独立的,并且可以被分割到很多的机器上。请参考这里了解关于hadoop的更多知识(http://hadoop.apache.org/common/docs/current/mapred_tutorial.html).
分享到:
相关推荐
《Mahout in Action》是一本深入探讨Apache Mahout机器学习框架的专业书籍,其源码提供了丰富的实践示例和深入理解Mahout算法的机会。在GitHub上,你可以找到这些源码的完整版本,链接为。下面,我们将详细探讨...
### Mahout in Action:全面解析 #### 一、概述 《Mahout in Action》是一本由Sean Owen、Robin Anil、Ted Dunning和Ellen Friedman合著的专业书籍,旨在深入介绍Apache Mahout这一强大的机器学习库。该书的网上...
一些支持 Map-Reduce 的集群实现包括 k-Means、模糊 k-Means、Canopy、Dirichlet 和 Mean-Shift。 Distributed Naive Bayes 和 Complementary Naive Bayes 分类实现。
Mahout在设计时考虑到了可扩展性,因此它能够处理大量数据集,并在分布式计算环境中运行,例如在Hadoop平台上。 推荐系统是电子商务和内容提供网站常用的技术,用于向用户推荐商品、电影、音乐、新闻等。Mahout提供...
《Mahout in Action源代码Maven编译JAR包详解》 Apache Mahout是一个流行的机器学习库,广泛用于数据挖掘和大数据分析。《Mahout in Action》这本书是Mahout技术的权威指南,提供了丰富的示例代码供读者实践。然而...
Mahout的设计理念强调了算法的可扩展性和实用性,这使得它能够很好地适应现代大数据环境下的挑战。 #### 二、Mahout的核心功能 Mahout提供的核心功能主要包括以下三个方面: 1. **协同过滤(Collaborative ...
Mahout In Action 2012.pdf 配套源代码 Mahout In Action 2012 Source Code 原书 Mahout In Action 2012 版本 源代码。 帮助理解推荐系统的常用算法,分布式信息挖掘技术。
《Mahout in Action》是一本深入探讨Apache Mahout的实战指南,它详尽地介绍了如何在Hadoop平台上实现机器学习算法。这本书的中文高清完整版为中国的读者提供了方便,使得更多的开发者可以理解并掌握这一强大的数据...
Mahout In Action 清晰完整版 聚类分析、算法推荐
### Mahout in Action 最新版+完整版 #### 知识点概述 《Mahout in Action》是一本关于Apache Mahout的权威指南,该书详细介绍了如何利用Mahout进行推荐系统、聚类分析以及分类等机器学习任务。此版本为2012年的...
### Mahout in Action 英文完整版(2012)关键知识点解析 #### 标题:Mahout in Action 英文完整版(2012) - **Mahout in Action**:本书主要介绍了Apache Mahout框架的应用和技术细节。Mahout是一个开源项目,专注...
《Mahout in Action》是一本详细介绍Apache Mahout的书籍,中文版提供了全面的翻译,适合对机器学习和大数据处理感兴趣的读者。Mahout是一个Apache基金会的开源项目,专注于机器学习算法,它在Java语言基础上构建,...
### Mahout in Action (2012) 关键知识点概览 #### 一、书籍基本信息 - **书名**:Mahout in Action (2012) - **作者**:Sean Owen, Robin Anil, Ted Dunning, Ellen Friedman - **出版社**:Manning Publications ...