今天我们讲一个下怎么使用随机游走算法PersonalRank实现基于图的推荐。
在推荐系统中,用户行为数据可以表示成图的形式,具体来说是二部图。用户的行为数据集由一个个(u,i)二元组组成,表示为用户u对物品i产生过行为。本文中我们认为用户对他产生过行为的物品的兴趣度是一样的,也就是我们只考虑“感兴趣”OR“不感兴趣”。假设有下图所示的行为数据集。
其中users集U={A, B, C},items集I = {a,b,c,d}。则用户物品的二部图如下所示:
我们用G(V, E)来表示这个图,则顶点集V=U∪I,图中的边则是由数据集中的二元组确定。二元组(u, i)表示u对i有过行为,则在图中表现为有边相连,即e(u,i)。【注意】,本文中我们不考虑各边的权重(即u对i的兴趣度),权重都默认为1。感兴趣即有边相连,不感兴趣则没有边相连。
那有了二部图之后我们要对u进行推荐物品,就转化为计算用户顶点u和与所有物品顶点之间的相关性,然后取与用户没有直接边相连的物品,按照相关性的高低生成推荐列表。说白了,这是一个图上的排名问题,我们最容易想到的就是Google的pageRank算法。
PageRank是Larry Page 和 Sergey Brin设计的用来衡量特定网页相对于搜索引擎中其他网页的重要性的算法,其计算结果作为google搜索结果中网页排名的重要指标。网页之间通过超链接相互连接,互联网上不计其数的网页就构成了一张超大的图。PageRank假设用户从所有网页中随机选择一个网页进行浏览,然后通过超链接在网页直接不断跳转。到达每个网页后,用户有两种选择:到此结束或者继续选择一个链接浏览。算法令用户继续浏览的概率为d,用户以相等的概率在当前页面的所有超链接中随机选择一个继续浏览。这是一个随机游走的过程。当经过很多次这样的游走之后,每个网页被访问用户访问到的概率就会收敛到一个稳定值。这个概率就是网页的重要性指标,被用于网页排名。算法迭代关系式如下所示:
上式中PR(i)是网页i的访问概率(也就是重要度),d是用户继续访问网页的概率,N是网页总数。in(i)表示指向网页i的网页集合,out(j)表示网页j指向的网页集合。
用user节点和item节点替换上面的网页节点就可以计算出每个user,每个item在全局的重要性,给出全局的排名,显然这并不是我们想要的,我们需要计算的是物品节点相对于某一个用户节点u的相关性。怎么做呢?Standford的Haveliwala于2002年在他《Topic-sensitive pagerank》一文中提出了PersonalRank算法,该算法能够为用户个性化的对所有物品进行排序。它的迭代公式如下:
我们发现PersonalRank跟PageRank的区别只是用替换了1/N,也就是说从不同点开始的概率不同。u表示我们推荐的目标用户,这样使用上式计算的就是所有顶点相对于顶点u的相关度。
与PageRank随机选择一个点开始游走(也就是说从每个点开始的概率都是相同的)不同,如果我们要计算所有节点相对于用户u的相关度,则PersonalRank从用户u对应的节点开始游走,每到一个节点都以1-d的概率停止游走并从u重新开始,或者以d的概率继续游走,从当前节点指向的节点中按照均匀分布随机选择一个节点往下游走。这样经过很多轮游走之后,每个顶点被访问到的概率也会收敛趋于稳定,这个时候我们就可以用概率来进行排名了。
在执行算法之前,我们需要初始化每个节点的初始概率值。如果我们对用户u进行推荐,则令u对应的节点的初始访问概率为1,其他节点的初始访问概率为0,然后再使用迭代公式计算。而对于pageRank来说,由于每个节点的初始访问概率相同,所以所有节点的初始访问概率都是1/N (N是节点总数)。
我自己用Python实现了一下PersonalRank:(可执行,感兴趣的童鞋可通过附件下载源码文件,若有错误恳请指正^_^)
- #coding=utf-8
- __author__ = 'Harry Huang'
- def PersonalRank(G, alpha, root, max_step):
- rank = dict()
- rank = {x:0 for x in G.keys()}
- rank[root] = 1
- #开始迭代
- for k in range(max_step):
- tmp = {x:0 for x in G.keys()}
- #取节点i和它的出边尾节点集合ri
- for i, ri in G.items():
- #取节点i的出边的尾节点j以及边E(i,j)的权重wij, 边的权重都为1,在这不起实际作用
- for j, wij in ri.items():
- #i是j的其中一条入边的首节点,因此需要遍历图找到j的入边的首节点,
- #这个遍历过程就是此处的2层for循环,一次遍历就是一次游走
- tmp[j] += alpha * rank[i] / (1.0 * len(ri))
- #我们每次游走都是从root节点出发,因此root节点的权重需要加上(1 - alpha)
- #在《推荐系统实践》上,作者把这一句放在for j, wij in ri.items()这个循环下,我认为是有问题。
- tmp[root] += (1 - alpha)
- rank = tmp
- #输出每次迭代后各个节点的权重
- print 'iter: ' + str(k) + "\t",
- for key, value in rank.items():
- print "%s:%.3f, \t"%(key, value),
- return rank
- if __name__ == '__main__' :
- G = {'A' : {'a' : 1, 'c' : 1},
- 'B' : {'a' : 1, 'b' : 1, 'c':1, 'd':1},
- 'C' : {'c' : 1, 'd' : 1},
- 'a' : {'A' : 1, 'B' : 1},
- 'b' : {'B' : 1},
- 'c' : {'A' : 1, 'B' : 1, 'C':1},
- 'd' : {'B' : 1, 'C' : 1}}
- PersonalRank(G, 0.85, 'A', 100)
数据集使用的本文一开始讲的那个,最终各个节点的概率结果如下所示:
上面的代码是对本文一开始描述的数据集中的用户A进行推荐。上图给出了不同迭代次数后各节点的概率值。发现46次迭代之后,所有节点的概率值全都收敛。在这个例子中,A用户没有产生过行为的物品是b和d,相对于A的访问概率分别是0.039,0.076,d的访问概率显然要大于b,所有给A用户的推荐列表为{d,b}。
相关推荐
**PersonalRank算法**是一种基于图模型的推荐算法,它借鉴了PageRank算法的思想,通过对用户-物品交互数据构建图模型,利用随机游走的方式来评估用户对物品的兴趣度。 ##### 图模型与二分图 在基于图的推荐系统中...
本文主要讨论了大数据背景下基于社交网络的聚类随机游走抽样算法的研究。首先,文章指出在数字经济时代,社交网络作为数字化平台经济的重要载体,受到国内外学者的广泛关注。社交网络的商业应用价值巨大,但其规模...
在 `Walker-master` 文件中,可能包含了实现重启随机游走算法的代码示例。通过读取和理解这些代码,我们可以看到如何将算法应用于实际问题,如定义图结构、设置参数、执行游走并计算概率分布等。具体步骤可能包括: ...
基于随机游走的社团发现算法Hadoop版 以及一个graph生成程序。整个是个eclipse项目,没有把lib放上来。内容在 http://blog.csdn.net/lgnlgn/article/details/6561876 的下一篇博客
【图像分割】基于matlab随机游走算法图像分割【含Matlab源码 149期】 图像分割是计算机视觉领域中的核心问题之一,它旨在将图像分成多个具有不同特征的区域,以便于后续的分析和理解。在这个项目中,我们将深入探讨...
基于PRINCE算法(基于随机游走)来预测疾病的致病基因matlab源码.zip基于PRINCE算法(基于随机游走)来预测疾病的致病基因matlab源码.zip基于PRINCE算法(基于随机游走)来预测疾病的致病基因matlab源码.zip基于...
为了应对这一挑战,本文提出了一种基于随机游走路径的两阶段分布式SimRank算法。 SimRank算法是一种广泛使用的模型,用于基于图拓扑结构计算对象间的相似性。由于集中式SimRank方法在处理大量数据时的局限性,而...
本文将详细解析《推荐系统实践》一书中2.6节的“基于图的推荐算法”实现,重点介绍其核心原理、C++代码实现以及随机游走的概念。 1. **推荐算法概述**: 推荐系统的目标是根据用户的历史行为和偏好,为他们推荐最...
在“random walker segmentation codes”中,可能包含了实现随机游走算法的代码文件。这些代码可能用Python、MATLAB或其他编程语言编写,包括了对图像读取、预处理、构建图、执行随机游走以及后处理等步骤。通过分析...
该算法的核心在于将图像像素视为图中的节点,像素间的相似性则表示为边的权重,然后通过模拟随机游走过程来实现分割。 1. **随机游走理论**:随机游走是概率论中的一个概念,它描述了一个随机过程,在这个过程中,...
"一种基于随机游走模型的多标签分类算法" 本文提出了一种基于随机游走模型的多标签分类算法,称为多标签随机游走算法。该算法首先将多标签数据映射成为多标签随机游走图,然后对图系列中的每个图应用随机游走模型,...
资源包含文件:课程论文word+源码 PageRank 问题,就是一种基于图的随机游走问题。在搜索引擎最初出现的时候,多采用的是分类目录的方法,详细介绍参考:https://blog.csdn.net/newlw/article/details/126875536
【基于多粒子随机游走免疫算法】 在复杂网络的研究中,传播现象的分析与控制是核心议题,特别是在疾病和谣言的传播控制上。由于资源有限,不能对所有网络节点进行免疫,因此寻找高效的免疫策略至关重要。传统的免疫...
【图像分割】基于随机游走算法的图像分割matlab源码.md
【标题】"基于随机游走算法的气体扩散matlab仿真模拟"主要涵盖了两个核心主题:随机游走算法和MATLAB仿真。随机游走算法是一种在复杂系统中模拟扩散过程的数学模型,而MATLAB则是实现这种算法的强大工具,尤其适用于...
在本资源中,我们关注的是基于随机游走算法的图像分割方法,这是一种在MATLAB环境中实现的算法。随机游走算法(Random Walks)是一种概率模型,常用于图像分割,因为它能够有效地处理像素级的分类问题。 随机游走...