数据准备
intro.csv
1,101,5.0
1,102,3.0
1,103,2.5
2,101,2.0
2,102,2.5
2,103,5.0
2,104,2.0
3,101,2.5
3,104,4.0
3,105,4.5
3,107,5.0
4,101,5.0
4,103,3.0
4,104,4.5
4,106,4.0
5,101,4.0
5,102,3.0
5,103,2.0
5,104,4.0
5,105,3.5
5,106,4.0
1,102,3.0
1,103,2.5
2,101,2.0
2,102,2.5
2,103,5.0
2,104,2.0
3,101,2.5
3,104,4.0
3,105,4.5
3,107,5.0
4,101,5.0
4,103,3.0
4,104,4.5
4,106,4.0
5,101,4.0
5,102,3.0
5,103,2.0
5,104,4.0
5,105,3.5
5,106,4.0
测试代码
下面是基于用户维度的推荐
DataModel model = new FileDataModel(new File("/home/yunpeng/test2/intro.csv")); UserSimilarity similarity = new PearsonCorrelationSimilarity(model); UserNeighborhood neighborhood = new NearestNUserNeighborhood(2, similarity, model); Recommender recommender = new GenericUserBasedRecommender(model, neighborhood, similarity); List<RecommendedItem> recommendations = recommender.recommend(1, 1); for (RecommendedItem recommendation : recommendations) { System.out.println(recommendation); }
下面是比较两份内容之间的关联
DataModel model = new FileDataModel(new File("/home/yunpeng/test2/intro.csv")); ItemSimilarity similarity = new PearsonCorrelationSimilarity(model); ItemBasedRecommender recommender = new GenericItemBasedRecommender(model, similarity); List<RecommendedItem> recommendations = recommender.mostSimilarItems(101, 3); for (RecommendedItem recommendation : recommendations) { System.out.println(recommendation); }
相关推荐
mahout入门 下载即可运行 适合新手入门
### Hadoop入门进阶课程之Mahout介绍、安装与应用案例 #### Mahout概述 Mahout作为Apache Software Foundation(ASF)旗下的一个开源项目,致力于提供一系列可扩展的机器学习算法实现,以帮助开发者更轻松地构建...
《大数据Mahout实践指南》是一本深入...它不仅适合初学者入门,也为有一定经验的开发者提供了丰富的实践指导。通过阅读本书,读者不仅能理解大数据和Mahout的基本原理,还能掌握实际应用这些技术解决实际问题的方法。
本文将深入浅出地介绍Mahout的三个核心算法:聚类、分类和相似度计算,并结合实际案例帮助初学者快速入门。 首先,我们来了解**聚类算法**。聚类是无监督学习的一种,目标是将数据集中的对象按照某些相似性原则分成...
为了更好地利用Mahout,本书《Mahout in Action》提供了一条快速入门的路径,包括介绍性章节,详细阐述推荐系统、聚类和分类的原理,以及如何在实际项目中应用这些技术。书中还包含具体的代码示例和实践经验,适合...
- **官方文档**:Apache Mahout官方网站提供了详细的文档和技术指南,适合初学者入门和高级用户深入研究。 - **社区论坛**:Mahout拥有活跃的社区论坛,用户可以在其中交流心得、解决问题。 - **在线课程与教程**:...
《Mahout in Action》是一部全面而深入的指南,不仅适合初学者入门学习,也适合有经验的开发者深入了解Mahout的高级用法。通过阅读本书,读者可以掌握利用Mahout解决实际问题的方法,并了解最新的机器学习技术和趋势...
对于想要将新算法应用于大规模数据的人,Mahout提供了一个理想的框架,而这本书则是一个很好的入门指南,介绍如何在复杂的分布式计算环境中运行机器学习系统。 总的来说,《Mahout in Action》中文版为读者提供了...
Hadoop 安装 学习 入门教程 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, ...
### Spark从入门到精通 #### 一、大数据框架概述 在大数据处理领域,有几种主流的大数据处理框架,包括以Hadoop2.x为核心的大数据生态系统、以Spark为核心的大数据处理框架,以及以Storm为核心的实时流式处理框架...
Elasticsearch Taste插件概述Elasticsearch Taste插件是基于的协作过滤实现。 该插件提供了Elastic...)安装安装Taste插件$ $ES_HOME/bin/plugin install org.codelibs/elasticsearch-taste/2.3.0入门插入资料在本
### Hadoop快速入门知识点梳理 #### 一、Hadoop概览与背景介绍 **1.1 何为Hadoop** - **定义**:Hadoop是一个由Apache基金会支持的开源软件框架,旨在通过集群中的普通商用硬件来处理大量数据集。 - **核心功能**...
### Hadoop 入门学习知识点概览 #### Hadoop 是什么? Hadoop 是 Apache 基金会下的一款开源软件框架,旨在通过集群的方式高效地处理大规模数据集。Hadoop 提供了分布式文件系统(HDFS)、运算资源调度系统(YARN...
- **案例研究**:许多开源项目和商业产品,如Apache Nutch(网络爬虫)、Apache Mahout(机器学习库)等,都依赖Lucene来实现其搜索功能。 总的来说,Lucene是一个强大且灵活的全文检索工具,它的核心在于如何高效...
逻辑回归是一种二元分类算法,适用于入门学习,而朴素贝叶斯则常用于文本分类,如新闻类别判定。 除了Mahout,Spark的MLlib库也是大数据挖掘的重要工具。Spark MLlib提供了更广泛的机器学习算法,包括协同过滤、...
【大数据培训课程入门 HDFS Hadoop】 大数据技术已经成为现代企业数据处理的核心,其中Hadoop作为开源的分布式计算框架,扮演着重要角色。本课程旨在帮助初学者了解并掌握Hadoop和其分布式文件系统HDFS的基本概念和...
这些课程内容不仅对初学者来说是很好的入门材料,对于已经在职的专业人士也是有价值的复习资源,它们涵盖了从理论到实践的全面知识,有助于提升大数据分析和挖掘的能力。通过学习这些工具,学员将能够理解和应用数据...
大数据开发入门指南是一份全面介绍大数据领域的文档,涵盖了从基础概念到实际应用的各个环节,旨在帮助初学者系统地理解和掌握大数据技术。以下是这份指南中可能包含的重要知识点: 1. **大数据概念**:大数据指的...