`
奔跑的羚羊
  • 浏览: 576902 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

【译】mahout in action 6.1从维基百科统计分析大量的数据

阅读更多
维基百科(http://wikipedia.org)众所周知的在线百科全书,它的内容可以被用户编辑和维护。到2010年5月它的报导,仅仅用英语写的文章超过了3.2M。估计Freebase Wikipedia Extraction项目(http://download.freebase.com/wex/)的大小,仅仅英语文章超过4.2GB。作为web站点,维基百科的文章可以使用和被连接到另外的文章里面。有这么一篇文章,它里面有很多形同兴趣的文章连接。我们将认为这些文章为“users”,和文章的引用作为“items”,文章的来源为“likes”

幸运的,我们不在需要下载freebase百科的目录摘要和列出所有的连接。研究员亨利.哈塞格洛芙已经提前出所以文章和出版信息,位于http://users.on.net/~henry/home/wikipedia.htm.这将有利于过滤出连接的附件资源,例如文章的讨论页,图片,等等。这些数据集合也可以根据数字id描述出文章,取代标题。这些更有帮助,针对Mahout研究所有的users和items使用数字id。

在继续之前,下载和提取links-simple-sorted.zip

6.1.1分析数据集合

分享到:
评论

相关推荐

    Mahout In Action英文完整版

    这些算法可以帮助我们对大量数据进行分组,发现数据之间的内在结构和模式,为后续的数据分析和挖掘工作提供支持。 3. **分类算法**:除了推荐系统和聚类外,Mahout还支持多种分类算法,如决策树(Decision Tree)、...

    mahout in action中的源码

    《Mahout in Action》是一本深入探讨Apache Mahout机器学习框架的专业书籍,其源码提供了丰富的实践示例和深入理解Mahout算法的机会。在GitHub上,你可以找到这些源码的完整版本,链接为。下面,我们将详细探讨...

    mahout_in_action_中文版

    #### 四、从维基百科统计分析大量数据 以维基百科为例,Mahout能够处理极其庞大的数据集。维基百科是一个典型的在线百科全书,其内容由全球范围内的志愿者编辑和维护。截止至2010年5月,仅英文版本的维基百科就收录...

    Mahout in Action 2012

    Mahout在设计时考虑到了可扩展性,因此它能够处理大量数据集,并在分布式计算环境中运行,例如在Hadoop平台上。 推荐系统是电子商务和内容提供网站常用的技术,用于向用户推荐商品、电影、音乐、新闻等。Mahout提供...

    mahout in action中文版 最全的 docx

    《Mahout in Action》是一本详细...总的来说,《Mahout in Action》中文版为读者提供了全面了解和使用Mahout进行机器学习和大数据处理的知识,涵盖了从理论基础到实践应用的多个层面,适合不同背景的读者学习和参考。

    Mahout in Action完整版本(英文)

    一些支持 Map-Reduce 的集群实现包括 k-Means、模糊 k-Means、Canopy、Dirichlet 和 Mean-Shift。  Distributed Naive Bayes 和 Complementary Naive Bayes 分类实现。

    大数据挖掘原版资料:Mahout in Action和Mining of Massive Datasets

    《大数据挖掘原版资料:Mahout in Action和Mining of Massive Datasets》是两本深入探讨大数据分析和数据挖掘领域的经典著作。这两本书分别从不同的角度提供了丰富的知识和技术,帮助读者理解并掌握大数据处理的核心...

    mahout in action源代码maven编译jar包

    《Mahout in Action源代码Maven编译JAR包详解》 Apache Mahout是一个流行的机器学习库,广泛用于数据挖掘和大数据分析。《Mahout in Action》这本书是Mahout技术的权威指南,提供了丰富的示例代码供读者实践。然而...

    Mahout in action 实战中文版 高清 完整

    《Mahout in Action》是一本深入探讨Apache Mahout的实战指南,它详尽地介绍了如何在Hadoop平台上实现机器学习算法。这本书的中文高清完整版为中国的读者提供了方便,使得更多的开发者可以理解并掌握这一强大的数据...

    Mahout in action清晰完整版

    Mahout In Action 清晰完整版 聚类分析、算法推荐

    Mahout in Action 最新版+完整版

    《Mahout in Action》是一本关于Apache Mahout的权威指南,该书详细介绍了如何利用Mahout进行推荐系统、聚类分析以及分类等机器学习任务。此版本为2012年的最新完整版,由Sean Owen、Robin Anil、Ted Dunning和Ellen...

    Mahout_in_Action

    ### Mahout in Action #### 一、概览 《Mahout in Action》是一本全面介绍Apache Mahout这一开源机器学习库的专业书籍。本书由Sean Owen、Robin Anil、Ted Dunning和Ellen Friedman共同撰写,深入浅出地讲解了...

    Mahout In Action 2012 Source Code

    Mahout In Action 2012.pdf 配套源代码 Mahout In Action 2012 Source Code 原书 Mahout In Action 2012 版本 源代码。 帮助理解推荐系统的常用算法,分布式信息挖掘技术。

Global site tag (gtag.js) - Google Analytics