用这些在进行中的工具,我们将可能不仅讨论速度,也讨论我们创造和修改的推荐引擎的质量。虽然大量真实数据的例子仍然要过几章才能讲到,我们将花一些时间在一个小型数据集合上去快速评估性能。
2.5.1 提取推荐器输入数据
GroupLens (http://grouplens.org/)是一个研究项目,它提供几个不同型号的数据集合,每一个都来自于真实的用户对电影的评分。这是几个有效的大型的真实世界的数据库中之一,在这本书中我们将会探究更多这种数据集合。从grouplens.org查找并下载“100K data set”,当前在 http://www.grouplens.org/node/73上可以得到。反归档(你下载的文件),在它内部,这个文件被称为ua.base。这是一个具有user IDs,item IDs,评级(首选项值)和一些额为信息的用tab键分隔的文件。
这个文件将会起作用吗?Tabs不是用逗号分开它的域,而且它也在终点包含一个额外的信息域。是的,这个FileDataModel的文件会起作用的。返回到listing 2.3中的以前的代码,在listing 2.3中我们建立了一个RecommenderEvaluator,努力进入ua.base的位置,用它来代替我们构造的这个小的数据文件。再一次运行它。这时,评估应该要花几分钟时间,因为它现在是基于100000的首选项值,而不是少数的首选项值。
最后,你应该得到0.9左右的数字。那并不算坏,虽然这个数字由于某种原因远离1到5这个规模上的一个整点,这个整点也不算好。难道我们尝试的这个独特的Recommender对这类数据来说并不是最好的?
让我们在这个数据库上test-drive一个“slope-one” recommender,在即将到来的这节里,我们将会在recommender algorithms自身上讨论一个简单的算法。这像替换RecommenderBuilder一样容易。这个RecommenderBuilder用org.apache.mahout.cf.taste.impl.recommender.slopeone.SlopeOneRecommeder,像这样:
Listing 2.6 改变评估项目去运行一个SlopeOneRecommender
RecommenderBuilder recommenderBuilder = new RecommenderBuilder() {
@Override
public Recommender buildRecommender(DataModel model) throws TasteException {
return new SlopeOneRecommender(model);
}
};
分享到:
相关推荐
### Mahout in Action:全面解析 #### 一、概述 《Mahout in Action》是一本由Sean Owen、Robin Anil、Ted Dunning和Ellen Friedman合著的专业书籍,旨在深入介绍Apache Mahout这一强大的机器学习库。该书的网上...
《Mahout in Action》是一本深入探讨Apache Mahout机器学习框架的专业书籍,其源码提供了丰富的实践示例和深入理解Mahout算法的机会。在GitHub上,你可以找到这些源码的完整版本,链接为。下面,我们将详细探讨...
本书《Mahout in Action》于2012年由Manning Publications出版,由多位数据挖掘和机器学习的专家共同撰写,包括Sean Owen、Robin Anil、Ted Dunning和Ellen Friedman。这本书详细介绍了如何使用Apache Mahout进行...
一些支持 Map-Reduce 的集群实现包括 k-Means、模糊 k-Means、Canopy、Dirichlet 和 Mean-Shift。 Distributed Naive Bayes 和 Complementary Naive Bayes 分类实现。
### Mahout in Action 最新版+完整版 #### 知识点概述 《Mahout in Action》是一本关于Apache Mahout的权威指南,该书详细介绍了如何利用Mahout进行推荐系统、聚类分析以及分类等机器学习任务。此版本为2012年的...
《Mahout in Action源代码Maven编译JAR包详解》 Apache Mahout是一个流行的机器学习库,广泛用于数据挖掘和大数据分析。《Mahout in Action》这本书是Mahout技术的权威指南,提供了丰富的示例代码供读者实践。然而...
《Mahout in Action》是一本详细介绍Apache Mahout的书籍,中文版提供了全面的翻译,适合对机器学习和大数据处理感兴趣的读者。Mahout是一个Apache基金会的开源项目,专注于机器学习算法,它在Java语言基础上构建,...
这些工具旨在简化机器学习过程中的数据准备、模型训练和结果评估等工作。 ### Mahout在分布式环境中的应用 #### 四、从维基百科统计分析大量数据 以维基百科为例,Mahout能够处理极其庞大的数据集。维基百科是一...
总的来说,《Mahout in Action》中文版是学习和应用Mahout的宝贵资源,无论你是数据科学家、软件工程师还是对大数据和机器学习感兴趣的个人,都能从中受益。通过这本书,你可以掌握如何利用Hadoop和Mahout来挖掘...
《大数据挖掘原版资料:Mahout in Action和Mining of Massive Datasets》是两本深入探讨大数据分析和数据挖掘领域的经典著作。这两本书分别从不同的角度提供了丰富的知识和技术,帮助读者理解并掌握大数据处理的核心...
### Mahout in Action 英文完整版(2012)关键知识点解析 #### 标题:Mahout in Action 英文完整版(2012) - **Mahout in Action**:本书主要介绍了Apache Mahout框架的应用和技术细节。Mahout是一个开源项目,专注...
Mahout In Action 2012.pdf 配套源代码 Mahout In Action 2012 Source Code 原书 Mahout In Action 2012 版本 源代码。 帮助理解推荐系统的常用算法,分布式信息挖掘技术。
Mahout In Action 清晰完整版 聚类分析、算法推荐