`

推荐系统算法初探

阅读更多
摘要: 互联网时代信息量已然处于爆炸状态,若是将所有内容都放在网站首页上用户是无从阅读的,信息的利用率将会十分低下。因此我们需要推荐系统来帮助用户过滤掉低价值的信息。好的推荐系统能让用户更频繁地访问一个站点, ...
 
 
序言
最近因为PAC平台自动化的需求,开始探坑推荐系统。这个乍一听去乐趣无穷的课题,对于算法大神们来说是这样的:

而对于刚接触这个领域的我来说,是这样的:

在深坑外围徘徊了一周后,我整理了一些推荐系统的基本概念以及一些有代表性的简单的算法,作为初探总结,也希望能抛砖引玉,给同样想入坑的伙伴们提供一些思路。
 
1. 什么是推荐系统?
推荐系统是啥?
如果你是个多年电商(剁手)党,你会说是这个:

如果你是名充满文艺细胞的音乐发烧友,你会答这个:

如果你是位活跃在各大社交平台的点赞狂魔,你会答这个:

没错,猜你喜欢、个性歌单、热点微博,这些都是推荐系统的输出内容。从这些我们就可以总结出,推荐系统到底是做什么的。
 
 目的1. 帮助用户找到想要的商品(新闻/音乐/……),发掘长尾 
 
帮用户找到想要的东西,谈何容易。商品茫茫多,甚至是我们自己,也经常点开淘宝,面对眼花缭乱的打折活动不知道要买啥。在经济学中,有一个著名理论叫长尾理论(The Long Tail)。

套用在互联网领域中,指的就是最热的那一小部分资源将得到绝大部分的关注,而剩下的很大一部分资源却鲜少有人问津。这不仅造成了资源利用上的浪费,也让很多口味偏小众的用户无法找到自己感兴趣的内容。
 
目的2. 降低信息过载 
互联网时代信息量已然处于爆炸状态,若是将所有内容都放在网站首页上用户是无从阅读的,信息的利用率将会十分低下。因此我们需要推荐系统来帮助用户过滤掉低价值的信息。
 
目的3. 提高站点的点击率/转化率 
好的推荐系统能让用户更频繁地访问一个站点,并且总是能为用户找到他想要购买的商品或者阅读的内容。
 
目的4. 加深对用户的了解,为用户提供定制化服务 
可以想见,每当系统成功推荐了一个用户感兴趣的内容后,我们对该用户的兴趣爱好等维度上的形象是越来越清晰的。当我们能够精确描绘出每个用户的形象之后,就可以为他们定制一系列服务,让拥有各种需求的用户都能在我们的平台上得到满足。
 
2. 推荐算法
算法是什么?我们可以把它简化为一个函数。函数接受若干个参数,输出一个返回值。

算法如上图,输入参数是用户和item的各种属性和特征,包括年龄、性别、地域、商品的类别、发布时间等等。经过推荐算法处理后,返回一个按照用户喜好度排序的item列表。
 
推荐算法大致可以分为以下几类[1]:
基于流行度的算法
协同过滤算法
基于内容的算法
基于模型的算法
混合算法
 
2.1 基于流行度的算法
基于流行度的算法非常简单粗暴,类似于各大新闻、微博热榜等,根据PV、UV、日均PV或分享率等数据来按某种热度排序来推荐给用户。

这种算法的优点是简单,适用于刚注册的新用户。缺点也很明显,它无法针对用户提供个性化的推荐。基于这种算法也可做一些优化,比如加入用户分群的流行度排序,例如把热榜上的体育内容优先推荐给体育迷,把政要热文推给热爱谈论政治的用户。
 
2.2 协同过滤算法
协同过滤算法(Collaborative Filtering, CF)是很常用的一种算法,在很多电商网站上都有用到。CF算法包括基于用户的CF(User-based CF)和基于物品的CF(Item-based CF)。
 
基于用户的CF原理如下:
分析各个用户对item的评价(通过浏览记录、购买记录等);
依据用户对item的评价计算得出所有用户之间的相似度;
选出与当前用户最相似的N个用户;
将这N个用户评价最高并且当前用户又没有浏览过的item推荐给当前用户。
示意图如下:

基于物品的CF原理大同小异,只是主体在于物品:
分析各个用户对item的浏览记录。
依据浏览记录分析得出所有item之间的相似度;
对于当前用户评价高的item,找出与之相似度最高的N个item;
将这N个item推荐给用户。
 
示意图如下:

举个栗子,基于用户的CF算法大致的计算流程如下:
首先我们根据网站的记录计算出一个用户与item的关联矩阵,如下:

图中,行是不同的用户,列是所有物品,(x, y)的值则是x用户对y物品的评分(喜好程度)。我们可以把每一行视为一个用户对物品偏好的向量,然后计算每两个用户之间的向量距离,这里我们用余弦相似度来算:

然后得出用户向量之间相似度如下,其中值越接近1表示这两个用户越相似:

最后,我们要为用户1推荐物品,则找出与用户1相似度最高的N名用户(设N=2)评价的物品,去掉用户1评价过的物品,则是推荐结果。
 
基于物品的CF计算方式大致相同,只是关联矩阵变为了item和item之间的关系,若用户同时浏览过item1和item2,则(1,1)的值为1,最后计算出所有item之间的关联关系如下:

我们可以看到,CF算法确实简单,而且很多时候推荐也是很准确的。然而它也存在一些问题:
 
依赖于准确的用户评分;
在计算的过程中,那些大热的物品会有更大的几率被推荐给用户;
冷启动问题。当有一名新用户或者新物品进入系统时,推荐将无从依据;
在一些item生存周期短(如新闻、广告)的系统中,由于更新速度快,大量item不会有用户评分,造成评分矩阵稀疏,不利于这些内容的推荐。
 
对于矩阵稀疏的问题,有很多方法来改进CF算法。比如通过矩阵因子分解(如LFM),我们可以把一个nm的矩阵分解为一个nk的矩阵乘以一个k*m的矩阵,如下图:

这里的k可以是用户的特征、兴趣爱好与物品属性的一些联系,通过因子分解,可以找到用户和物品之间的一些潜在关联,从而填补之前矩阵中的缺失值。
 
2.3 基于内容的算法
CF算法看起来很好很强大,通过改进也能克服各种缺点。那么问题来了,假如我是个《指环王》的忠实读者,我买过一本《双塔奇兵》,这时库里新进了第三部:《王者归来》,那么显然我会很感兴趣。然而基于之前的算法,无论是用户评分还是书名的检索都不太好使,于是基于内容的推荐算法呼之欲出。
举个栗子,现在系统里有一个用户和一条新闻。通过分析用户的行为以及新闻的文本内容,我们提取出数个关键字,如下图:

将这些关键字作为属性,把用户和新闻分解成向量,如下图:

之后再计算向量距离,便可以得出该用户和新闻的相似度了。这种方法很简单,如果在为一名热爱观看英超联赛的足球迷推荐新闻时,新闻里同时存在关键字体育、足球、英超,显然匹配前两个词都不如直接匹配英超来得准确,系统该如何体现出关键词的这种“重要性”呢?这时我们便可以引入词权的概念。在大量的语料库中通过计算(比如典型的TF-IDF算法),我们可以算出新闻中每一个关键词的权重,在计算相似度时引入这个权重的影响,就可以达到更精确的效果。
 
sim(user, item) = 文本相似度(user, item) * 词权
然而,经常接触体育新闻方面数据的同学就会要提出问题了:要是用户的兴趣是足球,而新闻的关键词是德甲、英超,按照上面的文本匹配方法显然无法将他们关联到一起。在此,我们可以引用话题聚类:

利用word2vec一类工具,可以将文本的关键词聚类,然后根据topic将文本向量化。如可以将德甲、英超、西甲聚类到“足球”的topic下,将lv、Gucci聚类到“奢侈品”topic下,再根据topic为文本内容与用户作相似度计算。
 
综上,基于内容的推荐算法能够很好地解决冷启动问题,并且也不会囿于热度的限制,因为它是直接基于内容匹配的,而与浏览记录无关。然而它也会存在一些弊端,比如过度专业化(over-specialisation)的问题。这种方法会一直推荐给用户内容密切关联的item,而失去了推荐内容的多样性。
 
2.4 基于模型的算法
基于模型的方法有很多,用到的诸如机器学习的方法也可以很深,这里只简单介绍下比较简单的方法——Logistics回归预测。我们通过分析系统中用户的行为和购买记录等数据,得到如下表:

表中的行是一种物品,x1~xn是影响用户行为的各种特征属性,如用户年龄段、性别、地域、物品的价格、类别等等,y则是用户对于该物品的喜好程度,可以是购买记录、浏览、收藏等等。通过大量这类的数据,我们可以回归拟合出一个函数,计算出x1~xn对应的系数,这即是各特征属性对应的权重,权重值越大则表明该属性对于用户选择商品越重要。
 
在拟合函数的时候我们会想到,单一的某种属性和另一种属性可能并不存在强关联。比如,年龄与购买护肤品这个行为并不呈强关联,性别与购买护肤品也不强关联,但当我们把年龄与性别综合在一起考虑时,它们便和购买行为产生了强关联。比如(我只是比如),20~30岁的女性用户更倾向于购买护肤品,这就叫交叉属性。通过反复测试和经验,我们可以调整特征属性的组合,拟合出最准确的回归函数。最后得出的属性权重如下:

基于模型的算法由于快速、准确,适用于实时性比较高的业务如新闻、广告等,而若是需要这种算法达到更好的效果,则需要人工干预反复的进行属性的组合和筛选,也就是常说的Feature Engineering。而由于新闻的时效性,系统也需要反复更新线上的数学模型,以适应变化。
 
2.5 混合算法
现实应用中,其实很少有直接用某种算法来做推荐的系统。在一些大的网站如Netflix,就是融合了数十种算法的推荐系统。我们可以通过给不同算法的结果加权重来综合结果,或者是在不同的计算环节中运用不同的算法来混合,达到更贴合自己业务的目的。
 
2.6 结果列表
在算法最后得出推荐结果之后,我们往往还需要对结果进行处理。比如当推荐的内容里包含敏感词汇、涉及用户隐私的内容等等,就需要系统将其筛除;若数次推荐后用户依然对某个item毫无兴趣,我们就需要将这个item降低权重,调整排序;另外,有时系统还要考虑话题多样性的问题,同样要在不同话题中筛选内容。
 
3. 推荐结果评估
当推荐算法完成后,怎样来评估这个算法的效果?CTR(点击率)、CVR(转化率)、停留时间等都是很直观的数据。在完成算法后,可以通过线下计算算法的RMSE(均方根误差)或者线上进行ABTest来对比效果。
 
4. 改进策略
用户画像是最近经常被提及的一个名词,引入用户画像可以为推荐系统带来很多改进的余地,比如:
打通公司各大业务平台,通过获取其他平台的用户数据,彻底解决冷启动问题;
在不同设备上同步用户数据,包括QQID、设备号、手机号等;
丰富用户的人口属性,包括年龄、职业、地域等;
更完善的用户兴趣状态,方便生成用户标签和匹配内容。
另外,公司的优势——社交平台也是一个很好利用的地方。利用用户的社交网络,可以很方便地通过用户的好友、兴趣群的成员等更快捷地找到相似用户以及用户可能感兴趣的内容,提高推荐的准确度。

 

 

http://bi.dataguru.cn/article-9128-1.html

分享到:
评论

相关推荐

    算法文档无代码非最优化算法初探

    在探讨“算法文档无代码非最优化算法初探”这一概念前,我们需要先了解几个关键点:算法的定义、算法文档的意义、无代码和非最优化的特点,以及百度网盘分享地址的作用。 算法是一种解决问题的明确指令集合,它们...

    GIS最短路径算法初探

    在地理信息系统(GIS)领域,最短路径算法是解决路径规划、交通导航、物流配送等应用的核心技术之一。本文将深入探讨GIS领域的最短路径算法,重点分析静态最短路径算法与动态最短路径算法,并对比Dijkstra算法、A*...

    李群机器学习(LML)的学习子空间轨道生成理论及算法初探.pdf

    "李群机器学习(LML)的学习子空间轨道生成理论及算法初探" 本文介绍了李群机器学习(LML)的学习子空间轨道生成理论及算法初探。李群机器学习是一种基于李群的机器学习方法,它将李群的理论和方法应用于机器学习领域...

    数据挖掘十大经典算法初探

    这种算法在市场篮子分析、推荐系统中有广泛应用。 5. 最大期望 (EM) 算法: EM 算法是用于估计含有隐藏变量的概率模型参数的迭代方法。它通过期望和最大化两个步骤交替进行,以求得模型参数的最大似然估计。常用于...

    分治算法初探_方泓杰.pdf

    在互联网行业中,分治算法同样发挥着重要作用,尤其是在大数据处理和复杂系统设计中,它能够帮助我们有效地管理和解决复杂的问题。 总的来说,分治算法是一种强大的工具,它提供了一种结构化的方法来解决看似无解的...

    基于CFD系统辨识的气弹分析及GPU并行算法初探.pdf

    本文主要探讨了基于CFD(Computational Fluid Dynamics,计算流体动力学)的气弹分析,并利用GPU(Graphics Processing Unit,图形处理器)进行并行计算以提高效率。在气弹分析中,CFD是一种关键工具,用于模拟空气...

    基于免疫的城市生态系统框架初探

    仇蕾和罗凤琦在其研究论文《基于免疫的城市生态系统框架初探》中,探讨了如何将免疫系统的原理应用于构建可持续的城市生态系统模型。以下内容详述了该论文中涉及的关键知识点。 首先,文章明确了现代城市的“人工”...

    智能交通系统设计初探.pdf

    智能交通系统设计初探主要关注如何利用现代信息技术改善交通行业的安全性和效率。系统设计的核心是集成5G网络、GPS定位系统、音视频采集等技术,建立一个车载监控实时信息平台,以实现智能交通管理。 首先,系统...

    论文研究-基于语义的词义消歧算法初探.pdf

    这对于提高机器翻译、信息检索、情感分析以及问答系统等多个领域的性能至关重要。这些领域都依赖于准确的词义理解,从而为用户提供更加智能化和个性化的服务。 在实现多策略词义消歧的具体技术中,文档中提到了一些...

    RANSAC算法初探

    但在实际操作中,由于系统误差的存在,这种方法往往不够精确。 ##### 2.2 最小二乘法局限性 传统的解决方法之一是最小二乘法,它通过最小化预测值与实际观测值之间的平方差之和来估计模型参数。然而,最小二乘法...

    基于OpenCV的人脸识别的算法研究与实现.pdf

    * 跨平台:OpenCV 库可以在多种操作系统上运行,包括 Windows、Linux、Mac OS 等。 * 免费:OpenCV 库是免费的,可以免费下载和使用。 * 扩展性强:OpenCV 库提供了大量的扩展接口,用户可以根据需要进行扩展和修改...

    南水北调水质智能监测分析系统设计初探.rar

    《南水北调水质智能监测分析系统设计初探》这篇文档主要探讨了如何利用现代信息技术构建一个高效、精准的水质监测系统,以保障南水北调工程的水质安全。南水北调工程是一项宏大的水资源调配工程,其水质直接影响到...

    GPS/INS组合导航定位系统应用初探.pdf

    《GPS/INS组合导航定位系统应用初探》 GPS/INS组合导航定位系统是一种现代导航技术,它结合了GPS(全球定位系统)的高精度定位优势和INS(惯性导航系统)的自主导航特性,形成了一个高效且可靠的导航解决方案。这种...

    新闻聚合系统中的数据挖掘技术初探.pdf

    《新闻聚合系统中的数据挖掘技术初探》这篇文章探讨了在互联网时代,随着信息量的急剧增长,数据挖掘技术在新闻聚合系统中的应用。数据挖掘技术在这个领域扮演着越来越关键的角色,它能帮助信息检索和个性化推荐变得...

    电厂燃料智能化系统建设初探.pdf

    【电厂燃料智能化系统建设初探】 随着电力行业的快速发展和电力体制改革的深入,电厂对燃料管理的需求日益提升。燃料作为火电厂的主要成本来源,其管理效率和精确度直接影响电厂的经济效益。因此,构建电厂燃料智能...

    探索推荐引擎内部的秘密-推荐引擎初探

    它提供了多种推荐算法,并支持分布式计算,有助于构建高效、适应性强的推荐系统。 总的来说,推荐引擎是通过理解和分析用户行为,挖掘隐藏在大数据中的模式,来提供个性化推荐服务的复杂系统。随着技术的发展,推荐...

    Simulink应用于PLC运动控制系统初探.pdf

    Simulink应用于PLC运动控制系统的初探涉及到一系列的控制工程和软件工程的知识点。文章以交流伺服系统的三环控制为例,展示了如何通过Simulink这一平台进行建模仿真,并利用Simulink PLC Coder工具将模型转换为符合...

    消防指挥中心分布式可视化调度系统设计初探.pdf

    福州市消防救援支队的翁杨华针对这些问题,提出了一种新型的分布式可视化调度系统设计方案,本设计初探的重点在于分析传统系统的不足,探讨分布式系统设计的必要性,详细介绍了分布式可视化调度系统的设计原则、核心...

Global site tag (gtag.js) - Google Analytics