anylin

浏览: 14174 次
性别:
来自: 北京

最近访客更多访客>>

hx1993

尚先生

m1475a

sea_wave2011

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Mahout的taste推荐系统里的几种Recommender分析

博客分类：

推荐系统

Taste简介

Mahout 是apache下的一个java语言的开源大数据机器学习项目，与其他机器学习项目不同的是，它的算法多数是mapreduce方式写的，可以在hadoop上运行，并行化处理大规模数据。

协同过滤在mahout里是由一个叫taste的引擎提供的，它提供两种模式，一种是以jar包形式嵌入到程序里在进程内运行，另外一种是MapReduce Job形式在hadoop上运行。这两种方式使用的算法是一样的，配置也类似。基本上搞明白了一种，就会另外一种了。

Taste的系统结构如下图

其中：

Perference：表示用户的喜好数据，是个三元组（userid, itemid, value），分别表示用户id, 物品id和用户对这个物品的喜好值。

DataModel：是Perference的集合，可以认为是协同过滤用到的user*item的大矩阵。DateModel可以来自db, 文件或者内存。

Similarity：相似度计算的接口，各种相似度计算算法都是继承自这个接口，具体相似度计算的方法，可以参考这篇文章：http://anylin.iteye.com/blog/1721978

Recommender: 利用Similarity找到待推荐item集合后的各种推荐策略，这是最终要暴露个使用者的推荐接口，本文将重点介绍下taste里各种recommender的实现策略，有错误之处，请多指正。

各种Recommender介绍

按照协同过滤方法的分类， taste里的recommender可以分别划到对应的分类下：

Item-based:

GenericItemBasedRecommender

GenericBooleanPrefItemBasedRecommender

KnnItemBasedRecommender

User-based:

GenericUserBasedRecommender

GenericBooleanPerfUserBasedRecommender

Model-based:

SlopeOneRecommender

SVDRecommender

TreeClusteringRecommender

ItemAverageRecommender

ItemUserAverageRecommender

每种Recommender的详细介绍如下：

GenericUserBasedRecommender

一个很简单的user-based模式的推荐器实现类，根据传入的DataModel和UserNeighborhood进行推荐。其推荐流程分成三步：

第一步，使用UserNeighborhood获取跟指定用户U_i最相似的K个用户{U₁…U_k}；

第二步，{U₁…U_k}喜欢的item集合中排除掉U_i喜欢的item, 得到一个item集合 {Item₀...Item_m}

第三步，对{Item₀...Item_m}每个item_j计算 U_i可能喜欢的程度值perf(U_i, Item_j) ，并把item按这个数值从高到低排序，把前N个item推荐给U_i。其中perf(U_i, Item_j)的计算公式如下：

其中是用户U_l对Item_j的喜好值。

GenericBooleanPerfUserBasedRecommender

继承自GenericUserBasedRecommender，处理逻辑跟GenericUserBasedRecommender一样，只是的计算公式变成如下公式

其中是布尔型取值，不是0就是1。

GenericItemBasedRecommender

一个简单的item-based的推荐器，根据传入的DateModel和ItemSimilarity去推荐。基于Item的相似度计算比基于User的相似度计算有个好处是，item数量较少，计算量也就少了，另外item之间的相似度比较固定，所以相似度可以事先算好，这样可以大幅提高推荐的速度。

其推荐流程可以分成三步：

第一步，获取用户U_i喜好的item集合{It₁…It_m}

第一步，使用MostSimilarItemsCandidateItemsStrategy(有多种策略, 功能类似UserNeighborhood) 获取跟用户喜好集合里每个item最相似的其他Item构成集合 {Item₁…Item_k}；

第二步，对{Item₁...Item_k}里的每个item_j计算 U_i可能喜欢的程度值perf(U_i, Item_j) ，并把item按这个数值从高到低排序，把前N个Item推荐给U_i。其中perf(U_i, Item_j)的计算公式如下：

其中是用户U_l对Item_l的喜好值。

GenericBooleanPrefItemBasedRecommender

继承自GenericItemBasedRecommender，处理逻辑跟GenericItemBasedRecommender一样，只是的计算公式变成如下公式

其中是布尔型取值，不是0就是1。

KnnItemBasedRecommender

继承自GenericItemBasedRecommender，处理逻辑跟GenericItemBasedRecommender一样，只是的计算公式比较复杂，基于一篇论文提到的算法，论文地址在这里

http://public.research.att.com/~volinsky/netflix/BellKorICDM07.pdf。根据论文介绍，该算法对数据进行了一些预处理，同时改进了邻居选取策略，再不怎么增加计算量的情况下，可以较大幅度提高推荐准确度。

ItemAverageRecommender

这是一个提供给实验用的推荐类，简单但计算快速，推荐结果可能会不够好。它预测一个用户对一个未知item的喜好值是所有用户对这个item喜好值的平均值，预测公式如下。

ItemUserAverageRecommender

在ItemAverageRecommender的基础上，考虑了用户喜好的平均值和全局所有喜好的平均值进行调整，它的预测公式如下：

其中是所有用户对Item_j喜好的平均值，是用户U_l所有喜好的平均值，是全局所有喜好值的平均值。

RandomRecommender

随机推荐item, 除了测试性能的时候有用外，没太大用处。

SlopeOneRecommender

基于Slopeone算法的推荐器，Slopeone算法适用于用户对item的打分是具体数值的情况。Slopeone算法不同于前面提到的基于相似度的算法，他计算简单快速，对新用户推荐效果不错，数据更新和扩展性都很不错，预测能达到和基于相似度的算法差不多的效果，很适合在实际项目中使用。

基本原理：

用户对item_a打分对item_b打分

X 3 4

Y 2 4

Z 4 ?

用户Z对item_b的打分可能是多少呢？ Slope one算法认为：所有用户对事物A对item_b的打分平均差值是：((3 - 4) + (2 - 4)) / 2 = -1.5，也就是说人们对item_b的打分一般比事物A的打分要高1.5，于是Slope one算法就猜测Z对item_b的打分是4 + 1.5 = 5.5