原文: http://gengrenjie.com/2009/12/15/%E3%80%90resys%E3%80%91%E5%A6%82%E4%BD%95%E4%BB%8E%E6%97%A0%E5%88%B0%E6%9C%89%E5%BB%BA%E7%AB%8B%E6%8E%A8%E8%8D%90%E7%B3%BB%E7%BB%9F/
推荐系统广泛应用于各类网站,电子商务中的商品推荐、博客网站的文章推荐,以及帮助人们寻找音乐和影片的各类应用。但如何才能从无到有的给网站配备一个推荐系统呢?针对这个问题,我在搜索引擎中遍寻多时,但始终没有找到满意的答案。这期间我也加入了国内推荐系统高手聚集的推荐系统邮件列表,其中不乏当当、卓越亚马逊、豆瓣等业内在推荐系统上领先的产品、技术高手,但浸淫多日却始终无法在脑海中形成一个以内容推荐为最终目的的产品框架或产品路线图。这种状态一直持续到我购买了集体智慧编程(Programming
Collective Intelligence)后才得以改观,现在我将此书的部分读书笔记予以整理,希望能给同样对推荐系统感兴趣的朋友整理出一个可操作的、适合内容型网站推荐系统产品框架。
——————–正文分割线——————–
我们知道,要想了解内容网站的推荐信息,最没有技术含量的方法莫过于向朋友询问。我们也知道,这其中有一部分人的品位会比其他人的高一些,通过观察这些人是否通常也和我们一样喜欢同样的东西,可以逐渐对这些情况有所了解。不过随着选择越来越多,要想通过询问一小群人来确定我们想要的东西,将会变得越来越不切实际,因为他们可能并不了解所有的选择。这就是为什么人们要发展出一套被称为协同过滤(collaborative
filtering)的技术。从实际的情况看,目前我们所能接触到的领先推荐系统,包括Netfilx、豆瓣、Amazon等等都是利用协同过滤技术来实现的。协同过滤又分成几种:基于用户的协同过滤、基于项目的协同过滤、基于模型的协同过滤。
那么到底什么是协同过滤?它需要产品设计者做哪些事情才能实现?(为了让问题简化,这里着重介绍基于用户的协同过滤)
一个基于用户的协同过滤过滤算法通常的做法是对一大群人进行搜索,并从中找出与我们品位相近的一小群人。算法会对这些人所偏爱的其他内容进行考察,并将它们组合起来构成一个经过排名的推荐列表。因此产品设计者需要理解你的网站需要依次做以下这几件事情:
1.搜集偏好(Collecting Preferences)
要搜集偏好意味着要寻找一种表达不同人及其偏好的方法。例如,豆瓣会要求用户对每部电影用1到5颗星来评分,以此来体现包括本人在内的每位影评者对某一给定影片的喜爱程度。假如你正在设计一个购物网站,那不妨用数字1来代表有人过去购买过某件商品,用数字0来代表未曾购买过任何商品。而对于一个新闻故事投票网站,我们可以分别用数字-1、0和1来表达“不喜欢”、“没有投票”、“喜欢”。不管偏好如何表达的,你要做的是建立一种方法来使得你的用户来参与表达,并把他们表达的内容对应到数字以形成相应的数据集合。
2.寻找相近的用户(Finding Similar Users)
有了人们偏好的数据集后,我们需要有一种方法来确定人们在品位方面的相似程度。为此,我们可以将每个人与所有其他人进行对比,并计算他们的相似度评价值。有若干种方法可以达到此目的:欧几里德距离(Euclidean Distance Score)、皮尔逊相关度(Person Correlation Coefficient)、余弦相似性(Cosine-based Similarity)、调整余弦相似性(Adjusted
Cosine Similarity)、Jaccard系数或曼哈顿距离算法等。请记住,各种相似度的计算方法各有所长,要根据具体的应用场景来选取一种或几种综合使用。
下面以实际例子简单介绍两种:
欧几里德距离(Euclidean Distance Score):它以经过人们一致评价的物品为坐标轴,然后将参与评价的人绘制到图上,并考察他们彼此间的距离远近。x轴、y轴分别代表电影Dupree和Snake,而在第一象限偏好空间里的则是每个人对这两部电影的评分。
不难发现,Toby对Snakes和Dupree这两部电影的评分是4.5和1.0,而LaSalle的则是4.0和2.0。按照欧几里德距离的结论,偏好越相似的人,其在偏好空间的距离就越短。至于如何计算两者的距离,运用你初中学的几何知识就行,计算两点每个坐标的差值,求平方后再相加,最后对总和取平方根。值得一提的是此方法对于数量多于两项的评分也同样适用。因此,你可以设计一个函数来计算2个用户间的相似度,当然前提是两者需要有一定重合的评分项。
皮尔逊相关度(Pearson Correlation Score):它的原理是通过判断两组数据与某一直线拟合程度来判断相似度。它在数据不是很规范(normalized)的时候,如影评者对影片的评价总是相对于平均水平偏离很大时,会倾向于给出更好的结果。
如下图是Mick LaSalle和Gene Seymour分别对5部电影的评分(与上图不同,x轴和y轴对应的是两个人),虚线被称为最佳拟合线(best-fit line),其绘制原则是尽可能地靠近图上的所有坐标点。如果两位评论者对所有影片的评分情况都相同,那么这条直线将成为对角线,并且会与图上所有的坐标点都相交。
下图展示了一个有着更高相关系数的例子,这意味着Lisa Rose和Jack Matthews在这几部电影上有着更高的相似度(各点更靠近最佳拟合曲线)。
采用皮尔逊方法可以修正“夸大分值(grade inflation)”的情况。在上图中,虽然Jack总是倾向于给出比Lisa更高的分数,但最终的直线仍然拟合度较高,这是因为他们两者有着相对近似的偏好。也就是说,如果某人总是倾向于给出比另一人更高的分数,而两者的分差又始终保持一致,则他们依然可能会存在很好的相关性。而此前提到过的欧几里德距离评价方法,会因为一个人的评价始终比另一个人更为“严格”(从而导致评价始终相对较低),而得出两者不相近的结论,即使他们的品位很相似也是如此。而这一行为是否是我们想要的结果,取决于具体的应用场景。
皮尔逊的相关度算法首先会找出两位评论者都曾评价过的物品,然后计算两者的评分总和和平方和,并求得评分的乘积之和。最后,利用这些计算结果计算出相关系数:
PS:公式能看懂,但我还未能从数学上去理解此公式的推导过程,惭愧-_-|||
3.为评论者打分(Ranking the Critics)
理解了上一步后,这步就简单了。现在只需根据指定的人员对每个人进行打分,找出最接近的匹配结果,也即所谓该人的最近邻。回到上面的例子,我们的目的是要寻找与自己品位相似的影评者,那么所需要做的就是以你自己为基准,计算每个人和你的相似度,然后排序输出前几项即可。现在假设你是Toby,那么经过这一步的计算你会得到一个你的最近邻列表,也就是说你可能会知道Lisa、Mick和Claudia可能是和你品位最相近的3个人。
4.推荐物品(Recommending Items)
找到一位和你趣味相投的影评者固然不错,但我们的最终目的是一份影片的推荐列表(上面提到过的以内容推荐为最终目的)。当然,简单的做法是查找与自己品位最相近的人,并从他所喜欢的影片中找出一部自己还未看过的影片,但这样做有些随意或者是粗糙。因为如果该人还未对某些影片做过评论,但这些影片也许就是我们所喜欢的。又或者另外的一种情况就是推荐给你某人特别热衷的一部影片,但有其他可靠数据表明所有的其他评论者都不看好这部影片。
为了解决上述问题,我们需要一个经过加权的评价值来为影片打分:
上图中Critic列是与Toby进行相似度对比的人名,Similarity列表示他们与Toby的相似度系数。Night、Lady和Luck都是电影名,所在列是这些人对这些电影的评分。S.x打头的那几列给出了相似度系数和评分后相乘的结果。如此一来,相比于我们不相近的人,那些与我们相近的人将会对整体评价拥有更多的贡献。
那有人会问为什么不直接采用Total这行,而需要Total/Sim.Sum?这是因为,一部受更多人评论的影片会对结果产生更大的影响,因此我们必须要除以Sim.Sum,它代表了所有对这部电影有过评论的评论者的相似度之和。就像Night这部电影,Total为12.89,有5个人为其评分,而Lady为8.38,4个人评分。假设电影Night有和当前相同的Total分数却多了一倍的人为其评分,那最后的结果也未必一定比电影Lady的Total/Sim.Sum更好。
好了,我们现在已经得到了一个经过排名的影片列表了,你可以决定自己究竟要不要观看其中的某一部,或者干脆什么也别看。其实,有时候什么都不推荐也是一种推荐。
最后我用lovelycharts画了这张流程图(用的时候才现不支持中文噢)。如果你想要设计一个推荐系统,现在应该大概清楚要做哪几件事情了吧:)
分享到:
相关推荐
总之,从无到有建立推荐系统,需要从数据收集、处理、特征工程、模型选择和评估等多方面着手。Python提供了丰富的工具和库,使得这一过程更为便捷。随着数据量的增加和算法的优化,推荐系统能够更好地理解和满足用户...
在本课程“从无到有构建大型电商微服务架构”的第二阶段中,我们将深入探讨如何利用Java技术栈来设计和实现一个高效的微服务架构。这一阶段涵盖了微服务设计的关键概念和最佳实践,对于想要构建可扩展、高可用的电商...
接下来,我们将从无到有的角度出发,系统性地分析并总结搭建过程中的核心内容,帮助读者全面理解并应用到实际工作中。 ### 一、架构设计基本原则 #### 1.1 高可用性(High Availability) 高可用性是指系统能够在...
### 无盘Windows XP系统建立教程 #### 一、无盘技术概述 无盘网络是一种特殊的网络架构形式,其中的工作站并不安装硬盘,而是通过网络服务器进行启动和数据交互。这种设计不仅能够节省成本(尤其是当网络规模较大...
5. **测试无盘启动**:启动虚拟机,如果一切配置正确,虚拟机应该能从无盘服务器加载操作系统,进入桌面环境。在此过程中,虚拟机的硬盘只用于临时存储和缓存数据,不保存任何系统文件。 6. **维护和管理**:无盘...
从无到有的构建过程对于任何一家初创或正在成长中的中小型互联网公司来说都是至关重要的一步。在这一过程中,后台服务架构与运维架构的设计尤为关键,它不仅关乎系统的稳定性、可扩展性和安全性,还直接影响到产品的...
《从无到有创建品牌——以奥美与耐克为例》 品牌,是商业世界中的灵魂,它不仅仅是产品的标识,更是消费者情感、信任与价值认同的载体。在品牌构建的过程中,理解并把握产品优势、品牌个性以及消费者需求与信念之间...
在医疗领域,构建一个高效的医生推荐系统至关重要,它能够基于患者的特定需求,匹配最合适的医疗专家。本项目采用先进的自然语言处理技术,如BERT、CRF和BiLSTM,进行医疗实体识别,进而构建医学知识图谱,并以此为...
Linux无盘远程启动与传统的Novell、WinNT下的无盘启动技术有所不同,它不采用RPL (Remote Initial Program Loader),而是基于标准的BootP/DHCP和TFTP协议,并通过NFS建立文件系统。 1. **客户端个人电脑开机**: ...
基于Spark的分布式实时推荐系统这...从系统设计的动机、面临的挑战,到所使用的技术、平台、算法,再到部署环境的具体配置,都做了详尽的说明。这为了解和实现基于Spark的实时推荐系统提供了完整的理论框架和技术指导。
《建立学生信息管理系统》 学生信息管理系统的建立是利用计算机技术高效管理大量学生数据的有效手段。在这个系统中,我们采用链表数据结构来存储和处理学生的信息,这使得操作如输入、查找、删除、插入和排序变得...
### ARM Linux NFS 文件系统建立知识点 #### 一、NFS简介 - **定义**:NFS(Network ...以上内容涵盖了从NFS基础知识到实际操作的具体步骤,旨在帮助读者理解和掌握ARM Linux环境下NFS文件系统建立的方法和技术要点。
然后,通过合适的数据挖掘算法对审查数据进行分析和模式挖掘,并将发现的知识更新到现有的入侵检测系统中,以保证网络系统的动态学习能力,从而维护企业网络安全。 一个典型的基于数据挖掘的网络入侵检测系统主要由...
### 如何建立Android系统app开发环境 #### 一、概览 本文档旨在详细介绍如何在Windows环境下搭建Android应用开发环境,适用于初次接触Android开发的新手和技术人员。文档内容包括安装必要的开发工具(如JDK、...
2. **逻辑结构**:通常被划分为竞争情报采集子系统、竞争情报加工子系统和竞争情报服务子系统,这三个子系统共同构成了情报工作的完整流程,从信息的获取到处理再到应用。 3. **管理结构**:强调从管理角度优化系统...
食品追溯系统能够追踪食品从农田到餐桌的全过程,有助于快速定位问题源头,防止问题食品的进一步流通,同时也提升了消费者的信任度。 一、食品安全追溯的必要性 1. 应对食品安全危机:食品安全追溯能迅速确定问题...
【如何建立百万销售系统】 建立一个百万级别的销售系统是每个企业或个人销售人员追求的目标,尤其在保险行业。这个系统不仅关注销售额,更注重可持续性、客户满意度和深度合作。以下根据提供的内容,详细阐述实现这...