现在进到各种电商网站都会在页面给你推荐一些物品,那么这些推荐的物品是怎么得出来的呢?这里介绍一种协同过滤算法:基于物品的协同过滤算法。简单的说,就是给用户推荐他之前买过且平分高的相似的物品。该算法的主要思想是:
1. 建立物品的同现矩阵
就是说按用户分组,找出每2个物品在多少用户中同时出现的次数。
2. 建立用户对物品的评分矩阵
每个用户对每个物品的评分
3. 2个矩阵相乘,计算结果。
下面以一个简单的例子进行实际开发。
一份用户对商品的评价数据:
1 101 4 1 106 3 2 105 3 2 101 1 2 106 2 2 103 2 2 104 5 2 102 2 3 101 2 3 106 5 3 103 4 4 101 2 4 102 5 4 105 4 4 104 5 5 105 4 5 104 5 6 102 1 6 104 1 6 101 4 6 103 1 7 104 4 7 101 1 7 102 2 7 105 5 7 103 2 7 106 1 8 101 2
第一个字段为用户id,第二个字段为商品id,第三个字段为评分。
1. 建立物品的同现矩阵
101 | 102 | 103 | 104 | 105 | 106 | |
101 | 7 | 4 | 4 | 4 | 3 | 4 |
102 | 4 | 4 | 3 | 4 | 3 | 2 |
103 | 4 | 4 | 4 | 3 | 2 | 3 |
104 | 4 | 4 | 3 | 5 | 4 | 2 |
105 | 3 | 3 | 2 | 4 | 4 | 2 |
106 | 4 | 2 | 3 | 2 | 2 | 4 |
2. 建立用户的评分矩阵
这里以用户4为例:
u4 | |
101 | 2 |
102 | 5 |
103 | 0 |
104 | 5 |
105 | 4 |
106 | 0 |
3. 矩阵相乘
101 | 102 | 103 | 104 | 105 | 106 | u4 | |||
101 | 7 | 4 | 4 | 4 | 3 | 4 | 101 | 2 | |
102 | 4 | 4 | 3 | 4 | 3 | 2 | 102 | 5 | |
103 | 4 | 4 | 4 | 3 | 2 | 3 | X | 103 | 0 |
104 | 4 | 4 | 3 | 5 | 4 | 2 | 104 | 5 | |
105 | 3 | 3 | 2 | 4 | 4 | 2 | 105 | 4 | |
106 | 4 | 2 | 3 | 2 | 2 | 4 | 106 | 0 |
结果为:
下面用mapreduce程序来实现以上的算法。
1. 上传文件
将用户对物品的评分文件上传至hdfs下的/test/cf/moive.txt 文件下。
2. 编写mapreduce
该mr程序分为4步。
第一步:按用户分组,计算其对每个物品的评分
第二步:每2个物品一组,计算出现次数,建立同现矩阵
第三步:2个矩阵相乘
第四步:找出推荐的商品
编写mr:
第一步:将输入文件为/test/twtbgn/cf/in,输出文件为 /test/twtbgn/cf/step1
public class RecommendStep1 { public static class Step1Mapper extends MapReduceBase implements Mapper<LongWritable, Text, Text, Text>{ private Text key = new Text(); private Text value = new Text(); public void map(LongWritable lineNum, Text line, OutputCollector<Text, Text> output, Reporter reporter) throws IOException { // TODO Auto-generated method stub String[] strings = line.toString().split("\\s+"); // String[] strings = line.toString().split(" "); if(strings.length >= 3){ key.set(strings[0]); value.set(strings[1]+":"+strings[2]); System.out.println("map key: " + strings[0]); System.out.println("map value: " + strings[1]+":"+strings[2]); output.collect(key, value); } } } public static class Step1Reducer extends MapReduceBase implements Reducer<Text, Text, Text, Text>{ public void reduce(Text key, Iterator<Text> value, OutputCollector<Text, Text> output, Reporter reporter) throws IOException { // TODO Auto-generated method stub Map<String, List<Float>> movieScoreMap = new HashMap<String, List<Float>>(); while (value.hasNext()) { Text text = (Text) value.next(); String str = text.toString(); // System.out.println("moviescore: " + str); String[] arr = str.split(":"); if(arr.length > 1){ List<Float> scoreList = movieScoreMap.get(arr[0]); if(scoreList == null){ scoreList = new ArrayList<Float>(); movieScoreMap.put(arr[0], scoreList); } scoreList.add(Float.valueOf(arr[1])); } } Set<Entry<String, List<Float>>> set = movieScoreMap.entrySet(); StringBuffer valuebuBuffer = new StringBuffer(); for(Entry<String, List<Float>> entry : set){ String movieId = entry.getKey(); List<Float> scoreList = entry.getValue(); int length = scoreList.size(); Float sum = new Float(0); for(Float score : scoreList){ sum += score; } Float avg = sum/length; valuebuBuffer.append(movieId).append(":") .append(avg).append(","); } String valueStr = valuebuBuffer.toString(); // System.out.println(valueStr); output.collect(key, new Text(valueStr.substring(0, valueStr.length()-1))); } } public static void main(String[] args) { String input = "hdfs://host261:9000/test/twtbgn/cf/in"; String output = "hdfs://host261:9000/test/twtbgn/cf/step1"; HdfsDaoImpl daoImpl = new HdfsDaoImpl(); try { daoImpl.rmr(output); Thread.sleep(5000); } catch (IOException e1) { // TODO Auto-generated catch block e1.printStackTrace(); } catch (InterruptedException e) { // TODO Auto-generated catch block e.printStackTrace(); } JobConf conf = new JobConf(RecommendStep1.class); conf.setJobName("RecommendStep1"); conf.addResource("classpath:/hadoop/core-site.xml"); conf.addResource("classpath:/hadoop/hdfs-site.xml"); conf.addResource("classpath:/hadoop/mapred-site.xml"); conf.setOutputKeyClass(Text.class); conf.setOutputValueClass(Text.class); conf.setMapperClass(Step1Mapper.class); // conf.setCombinerClass(Step1Reducer.class); conf.setReducerClass(Step1Reducer.class); conf.setInputFormat(TextInputFormat.class); conf.setOutputFormat(TextOutputFormat.class); FileInputFormat.setInputPaths(conf, new org.apache.hadoop.fs.Path(input)); FileOutputFormat.setOutputPath(conf, new Path(output)); try { JobClient.runJob(conf); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } } }
第二步:将输入文件为/test/twtbgn/cf/step1 ,输出文件为 /test/twtbgn/cf/step2
public class RecommendStep2 { public static class Step2Mapper extends MapReduceBase implements Mapper<LongWritable, Text, Text, IntWritable>{ private static final IntWritable ONE = new IntWritable(1); public void map(LongWritable linenum, Text line, OutputCollector<Text, IntWritable> output, Reporter reporter) throws IOException { // TODO Auto-generated method stub String[] arr = line.toString().split("\\s+"); String[] movieScores = arr[1].split(","); int length = movieScores.length; for(int i = 0; i < length; i++){ String movie = movieScores[i].split(":")[0]; for(int j=0; j<length; j++){ String movie1 = movieScores[j].split(":")[0]; output.collect(getKey(movie, movie1), ONE); } } } private Text getKey(String str1, String str2){ Text key = new Text(); key.set(str1 + ":" + str2); return key; } } public static class Step2Reducer extends MapReduceBase implements Reducer<Text, IntWritable, Text, IntWritable>{ public void reduce(Text text, Iterator<IntWritable> iterator, OutputCollector<Text, IntWritable> output, Reporter reporter) throws IOException { // TODO Auto-generated method stub int sum = 0; while (iterator.hasNext()) { IntWritable one = iterator.next(); sum += one.get(); } output.collect(text, new IntWritable(sum)); } } public static void main(String[] args) { String input = "hdfs://host261:9000/test/twtbgn/cf/step1"; String output = "hdfs://host261:9000/test/twtbgn/cf/step2"; HdfsDaoImpl daoImpl = new HdfsDaoImpl(); try { daoImpl.rmr(output); Thread.sleep(5000); } catch (IOException e1) { // TODO Auto-generated catch block e1.printStackTrace(); } catch (InterruptedException e) { // TODO Auto-generated catch block e.printStackTrace(); } JobConf conf = new JobConf(RecommendStep2.class); conf.setJobName("RecommendStep2"); conf.addResource("classpath:/hadoop/core-site.xml"); conf.addResource("classpath:/hadoop/hdfs-site.xml"); conf.addResource("classpath:/hadoop/mapred-site.xml"); conf.setMapOutputKeyClass(Text.class); conf.setMapOutputValueClass(IntWritable.class); conf.setOutputKeyClass(Text.class); conf.setOutputValueClass(IntWritable.class); conf.setMapperClass(Step2Mapper.class); conf.setReducerClass(Step2Reducer.class); conf.setInputFormat(TextInputFormat.class); conf.setOutputFormat(TextOutputFormat.class); FileInputFormat.setInputPaths(conf, new org.apache.hadoop.fs.Path(input)); FileOutputFormat.setOutputPath(conf, new Path(output)); try { JobClient.runJob(conf); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } } }
第三步:将输入文件为/test/cf/step1和/test/cf/step2 ,输出文件为 /test/cf/step3
第四步:将输入文件为/test/cf/step3 ,输出文件为 /test/cf/step4
相关推荐
《基于物品的协同过滤算法在MapReduce框架下的实现与应用》 协同过滤(Collaborative Filtering,简称CF)是推荐系统中最常用的一种算法,它基于用户的行为数据来预测他们可能感兴趣但尚未接触过的物品。而基于物品...
在这个名为"MapReduce实现基于物品的协同过滤算法,即电影推荐系统.zip"的压缩包中,我们看到的是一个利用Hadoop MapReduce实现的电影推荐系统,它基于物品的协同过滤算法来为用户推荐可能感兴趣的电影。 协同过滤...
本项目通过MapReduce实现了一种基于物品的协同过滤算法,该算法常用于电影推荐系统,帮助用户发现他们可能感兴趣的电影。 协同过滤是推荐系统中的核心算法之一,分为基于用户的协同过滤和基于物品的协同过滤。基于...
本项目“基于MapReduce实现物品协同过滤算法(ItemCF)”是针对推荐系统中的一种经典算法进行分布式实现,旨在提高推荐效率和精度。下面我们将深入探讨MapReduce、Hadoop以及物品协同过滤(Item-based Collaborative...
通过上述代码分析可以看出,基于MapReduce的用户基于用户的协同过滤算法在实现过程中充分考虑了分布式计算的特点,通过将任务分解为多个MapReduce任务的方式,有效提高了处理效率。这种方式非常适合应用于大规模数据...
本文将围绕“MapReduce基于物品的协同过滤算法实现电影推荐系统”这一主题,深入探讨如何利用MapReduce框架来实现大规模数据处理,并结合协同过滤算法构建电影推荐系统。 协同过滤算法是推荐系统中最常用的一种方法...
总结,基于MapReduce实现物品协同过滤算法是一项将分布式计算能力应用于推荐系统的重要实践。通过理解ItemCF的基本原理和MapReduce的工作流程,我们可以设计出高效的推荐算法,服务于大规模的在线服务。
基于物品的协同过滤推荐算法是推荐系统中一种广泛使用的...总的来说,基于物品的协同过滤推荐算法借助MapReduce和Hadoop,能够处理海量用户行为数据,实现个性化推荐,而这种分布式实现方式是应对大数据挑战的关键。
本项目“基于Java MapReduce实现物品协同过滤算法”旨在利用这项技术实现一种推荐系统,该系统根据用户对不同物品的评分来预测他们可能感兴趣的新物品。协同过滤是推荐系统中的核心算法之一,特别适用于物品数量远...
<项目介绍> ...3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。 --------
《基于物品的协同过滤推荐系统实现》 协同过滤推荐系统是一种广泛应用在个性化推荐中的算法,其核心思想是利用用户的历史行为数据,找出具有相似兴趣或偏好的用户或物品,然后根据这些相似性进行预测,为用户推荐...
- 不懂运行,下载完可以私聊问...3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。 --------
协同过滤算法是推荐系统中常用的一种技术,尤其在电影推荐领域有着广泛的应用。协同过滤的基本思想是通过分析用户的历史行为,如对电影的评分,来推测用户未来可能的兴趣。它分为基于用户(User-Based)和基于物品...
基于MapReduce实现物品的协同过滤算法,即电影推荐系统源码+文档+全部资料+优秀项目.zip 【备注】 1、该项目是个人高分项目源码,已获导师指导认可通过,答辩评审分达到95分 2、该资源内项目代码都经过测试运行成功...
基于物品的协同过滤算法:给用户推荐与他之前喜欢的物品相似的物品。 基于用户的协同过滤算法:给用户推荐与他兴趣相似的用户喜欢的物品。 协同过滤算法的优点包括: 无需事先对商品或用户进行分类或标注,适用于...
《基于协同过滤算法使用Hadoop实现商品推荐系统》 在当今大数据时代,人工智能与分布式计算技术的结合在各个领域发挥着越来越重要的作用。本项目聚焦于利用协同过滤算法在Hadoop分布式文件系统上构建商品推荐系统,...
本项目的主题是基于MapReduce的物品协同过滤算法实现,这一课题在计算机科学与技术领域,尤其是大数据推荐系统的研究中占有重要地位。该课题不仅是众多计算机专业学生毕业设计或课程设计的热门选题,也对那些对人工...