`
奔跑的羚羊
  • 浏览: 576931 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

【译】mahout in action 1.4 扩展性Scaling up

阅读更多
当提供大量的优良的输入数据时,这些技术中的那一个才可以最好的操作。有时候,这些技术不仅必须在大量的输入数据上操作,而且必须很快的产生结果。可扩展性,很快成为这些因素的一个主要问题。

根据粗略的估计,Picasa甚至在三年前可能已经服务器托管了5亿的图片。这意味着每日成千上万的新的图片必须被分析。通过它自己来分析一张图片没有很大的问题,虽然它重复成千上万次。但是,学习阶段需要同时地数以亿计的每张图片的信息,一定规模的计算对于单一的机器来说是显然是行不通的。

根据类似的分析,谷歌新闻中心每天查询大约3.5百万的新的新闻文章。虽然就其本身来说这不是很大的量,但考虑到这些文章必须与近来的文章一起被聚集,并且需要在短时间内完成。

Netflix发行的Nerflix奖,额定数据的子集包含了一亿个等级。大概这是因为竞争的目的而发布的,所以Netflix实际拥有并必须处理,用来创造推荐的数据的总额扩大了很多倍。

这些技术在上下文中是有必要的展开,在上下文里输入的数据总额是非常巨大的。如此巨大的数据量,在一台电脑上,甚至在一个强大的电脑上处理它,都是行不通的。因此,实施这些技术的人,没有人能够忽视这个规模问题。这就是为什么Mahout使可扩展性成为头等重要的事情,以及为什么这本书会集中有效的处理大型的数据集合,而其他技术则不会采用这种方式。

1.5.1 MapReduce 和 Hadoop

Mahout利用Apache Hadoop 项目,这个项目是一个基于java的开源实现mapreduce(http://labs.google.com/papers/mapreduce.html) 。mapreduce是一个分布式计算框架,并且在谷歌内部普遍使用。Mapreduce是一个设计范式,它起先听起来可能有些古怪,或者太简单而不能强有力。Mapreduce框架适用于这些问题,它的输入数据是一套键值对。一个“map”的作用是把这些键值对,变成其他中间结果的键值对。一个“reduce”的作用是以某种方式,将每个中间结果的键合并所有的值来产生结果。

事实上,很多难题可以被MapReduce实现,或者解决它们。这个框架本身有很好的并发性:所有的处理都是独立的,并且可以被分割到很多的机器上。请参考这里了解关于hadoop的更多知识(http://hadoop.apache.org/common/docs/current/mapred_tutorial.html).
分享到:
评论
1 楼 huqing2010 2011-09-14  
mapreduce

相关推荐

    mahout in action中的源码

    《Mahout in Action》是一本深入探讨Apache Mahout机器学习框架的专业书籍,其源码提供了丰富的实践示例和深入理解Mahout算法的机会。在GitHub上,你可以找到这些源码的完整版本,链接为。下面,我们将详细探讨...

    Mahout In Action英文完整版

    ### Mahout in Action:全面解析 #### 一、概述 《Mahout in Action》是一本由Sean Owen、Robin Anil、Ted Dunning和Ellen Friedman合著的专业书籍,旨在深入介绍Apache Mahout这一强大的机器学习库。该书的网上...

    Mahout in Action完整版本(英文)

    一些支持 Map-Reduce 的集群实现包括 k-Means、模糊 k-Means、Canopy、Dirichlet 和 Mean-Shift。  Distributed Naive Bayes 和 Complementary Naive Bayes 分类实现。

    Mahout in Action 2012

    Mahout在设计时考虑到了可扩展性,因此它能够处理大量数据集,并在分布式计算环境中运行,例如在Hadoop平台上。 推荐系统是电子商务和内容提供网站常用的技术,用于向用户推荐商品、电影、音乐、新闻等。Mahout提供...

    mahout in action源代码maven编译jar包

    《Mahout in Action源代码Maven编译JAR包详解》 Apache Mahout是一个流行的机器学习库,广泛用于数据挖掘和大数据分析。《Mahout in Action》这本书是Mahout技术的权威指南,提供了丰富的示例代码供读者实践。然而...

    mahout_in_action_中文版

    Mahout的设计理念强调了算法的可扩展性和实用性,这使得它能够很好地适应现代大数据环境下的挑战。 #### 二、Mahout的核心功能 Mahout提供的核心功能主要包括以下三个方面: 1. **协同过滤(Collaborative ...

    Mahout In Action 2012 Source Code

    Mahout In Action 2012.pdf 配套源代码 Mahout In Action 2012 Source Code 原书 Mahout In Action 2012 版本 源代码。 帮助理解推荐系统的常用算法,分布式信息挖掘技术。

    Mahout in action 实战中文版 高清 完整

    《Mahout in Action》是一本深入探讨Apache Mahout的实战指南,它详尽地介绍了如何在Hadoop平台上实现机器学习算法。这本书的中文高清完整版为中国的读者提供了方便,使得更多的开发者可以理解并掌握这一强大的数据...

    Mahout in action清晰完整版

    Mahout In Action 清晰完整版 聚类分析、算法推荐

    Mahout in Action 最新版+完整版

    ### Mahout in Action 最新版+完整版 #### 知识点概述 《Mahout in Action》是一本关于Apache Mahout的权威指南,该书详细介绍了如何利用Mahout进行推荐系统、聚类分析以及分类等机器学习任务。此版本为2012年的...

    mahout in action 英文完整版(2012)

    ### Mahout in Action 英文完整版(2012)关键知识点解析 #### 标题:Mahout in Action 英文完整版(2012) - **Mahout in Action**:本书主要介绍了Apache Mahout框架的应用和技术细节。Mahout是一个开源项目,专注...

    mahout in action中文版 最全的 docx

    《Mahout in Action》是一本详细介绍Apache Mahout的书籍,中文版提供了全面的翻译,适合对机器学习和大数据处理感兴趣的读者。Mahout是一个Apache基金会的开源项目,专注于机器学习算法,它在Java语言基础上构建,...

    Mahout in Action(2012)

    ### Mahout in Action (2012) 关键知识点概览 #### 一、书籍基本信息 - **书名**:Mahout in Action (2012) - **作者**:Sean Owen, Robin Anil, Ted Dunning, Ellen Friedman - **出版社**:Manning Publications ...

Global site tag (gtag.js) - Google Analytics