`
奔跑的羚羊
  • 浏览: 576926 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

【译】mahout in action 2.5 评估GroupLens数据集合

阅读更多
用这些在进行中的工具,我们将可能不仅讨论速度,也讨论我们创造和修改的推荐引擎的质量。虽然大量真实数据的例子仍然要过几章才能讲到,我们将花一些时间在一个小型数据集合上去快速评估性能。

2.5.1 提取推荐器输入数据

GroupLens (http://grouplens.org/)是一个研究项目,它提供几个不同型号的数据集合,每一个都来自于真实的用户对电影的评分。这是几个有效的大型的真实世界的数据库中之一,在这本书中我们将会探究更多这种数据集合。从grouplens.org查找并下载“100K data set”,当前在 http://www.grouplens.org/node/73上可以得到。反归档(你下载的文件),在它内部,这个文件被称为ua.base。这是一个具有user IDs,item IDs,评级(首选项值)和一些额为信息的用tab键分隔的文件。

这个文件将会起作用吗?Tabs不是用逗号分开它的域,而且它也在终点包含一个额外的信息域。是的,这个FileDataModel的文件会起作用的。返回到listing 2.3中的以前的代码,在listing 2.3中我们建立了一个RecommenderEvaluator,努力进入ua.base的位置,用它来代替我们构造的这个小的数据文件。再一次运行它。这时,评估应该要花几分钟时间,因为它现在是基于100000的首选项值,而不是少数的首选项值。

最后,你应该得到0.9左右的数字。那并不算坏,虽然这个数字由于某种原因远离1到5这个规模上的一个整点,这个整点也不算好。难道我们尝试的这个独特的Recommender对这类数据来说并不是最好的?

让我们在这个数据库上test-drive一个“slope-one” recommender,在即将到来的这节里,我们将会在recommender algorithms自身上讨论一个简单的算法。这像替换RecommenderBuilder一样容易。这个RecommenderBuilder用org.apache.mahout.cf.taste.impl.recommender.slopeone.SlopeOneRecommeder,像这样:

Listing 2.6 改变评估项目去运行一个SlopeOneRecommender
RecommenderBuilder recommenderBuilder = new RecommenderBuilder() { 
@Override 
public Recommender buildRecommender(DataModel model) throws TasteException { 
return new SlopeOneRecommender(model); 
} 
};

分享到:
评论

相关推荐

    Mahout In Action英文完整版

    ### Mahout in Action:全面解析 #### 一、概述 《Mahout in Action》是一本由Sean Owen、Robin Anil、Ted Dunning和Ellen Friedman合著的专业书籍,旨在深入介绍Apache Mahout这一强大的机器学习库。该书的网上...

    mahout in action中的源码

    《Mahout in Action》是一本深入探讨Apache Mahout机器学习框架的专业书籍,其源码提供了丰富的实践示例和深入理解Mahout算法的机会。在GitHub上,你可以找到这些源码的完整版本,链接为。下面,我们将详细探讨...

    Mahout in Action 2012

    本书《Mahout in Action》于2012年由Manning Publications出版,由多位数据挖掘和机器学习的专家共同撰写,包括Sean Owen、Robin Anil、Ted Dunning和Ellen Friedman。这本书详细介绍了如何使用Apache Mahout进行...

    Mahout in Action完整版本(英文)

    一些支持 Map-Reduce 的集群实现包括 k-Means、模糊 k-Means、Canopy、Dirichlet 和 Mean-Shift。  Distributed Naive Bayes 和 Complementary Naive Bayes 分类实现。

    Mahout in Action 最新版+完整版

    ### Mahout in Action 最新版+完整版 #### 知识点概述 《Mahout in Action》是一本关于Apache Mahout的权威指南,该书详细介绍了如何利用Mahout进行推荐系统、聚类分析以及分类等机器学习任务。此版本为2012年的...

    mahout in action源代码maven编译jar包

    《Mahout in Action源代码Maven编译JAR包详解》 Apache Mahout是一个流行的机器学习库,广泛用于数据挖掘和大数据分析。《Mahout in Action》这本书是Mahout技术的权威指南,提供了丰富的示例代码供读者实践。然而...

    mahout in action中文版 最全的 docx

    《Mahout in Action》是一本详细介绍Apache Mahout的书籍,中文版提供了全面的翻译,适合对机器学习和大数据处理感兴趣的读者。Mahout是一个Apache基金会的开源项目,专注于机器学习算法,它在Java语言基础上构建,...

    mahout_in_action_中文版

    这些工具旨在简化机器学习过程中的数据准备、模型训练和结果评估等工作。 ### Mahout在分布式环境中的应用 #### 四、从维基百科统计分析大量数据 以维基百科为例,Mahout能够处理极其庞大的数据集。维基百科是一...

    Mahout in action 实战中文版 高清 完整

    总的来说,《Mahout in Action》中文版是学习和应用Mahout的宝贵资源,无论你是数据科学家、软件工程师还是对大数据和机器学习感兴趣的个人,都能从中受益。通过这本书,你可以掌握如何利用Hadoop和Mahout来挖掘...

    大数据挖掘原版资料:Mahout in Action和Mining of Massive Datasets

    《大数据挖掘原版资料:Mahout in Action和Mining of Massive Datasets》是两本深入探讨大数据分析和数据挖掘领域的经典著作。这两本书分别从不同的角度提供了丰富的知识和技术,帮助读者理解并掌握大数据处理的核心...

    mahout in action 英文完整版(2012)

    ### Mahout in Action 英文完整版(2012)关键知识点解析 #### 标题:Mahout in Action 英文完整版(2012) - **Mahout in Action**:本书主要介绍了Apache Mahout框架的应用和技术细节。Mahout是一个开源项目,专注...

    Mahout In Action 2012 Source Code

    Mahout In Action 2012.pdf 配套源代码 Mahout In Action 2012 Source Code 原书 Mahout In Action 2012 版本 源代码。 帮助理解推荐系统的常用算法,分布式信息挖掘技术。

    Mahout in action清晰完整版

    Mahout In Action 清晰完整版 聚类分析、算法推荐

Global site tag (gtag.js) - Google Analytics