`

(转)One Class Collaborative Filtering 单类协同过滤

 
阅读更多

YangQiang教授指导的这篇ICDM2008的文章我2年前就拜读过,但当初对上面的方法不是特别感冒,所以也就没有记得特别清楚。最 近,KDD Cup的第二个track的问题和这篇Paper的研究问题很像,同时我在做KDD Cup时也设计了一个算法,感觉效果非常好,我准备把他称作基于采样的binarySVD算法。然后我准备研究一下这个算法是不是已经有人提出来了,因为 我隐约记得是看过类似的方法。结果我一查,发现果然是,标题里的那篇论文就是用的类似的方法,既然这个方法已经有人提出来了,我也就写篇博客再公开一下, 让更多人知道,哈哈。

废话不多说了。早期的推荐系统研究的问题就是评分预测,用户有一堆评分,然后弄出个模型,预测给定用户对给定item的评分。不过评分预测问题的解决无法实际应用。有2个原因:
1. 评分预测问题是说,我知道这个用户要对这个物品评分,然后问你他会评多少分。而实际系统的问题大多是,这个用户会对哪些物品评分?
2. 评分预测问题过度依赖评分数据,而很多网站记录的往往是用户的访问日志,比如视频网站中最多的数据是用户看了什么视频,而用户对视频打分的数据却非常少。

所以,实际系统中最重要的问题就是基于隐反馈的评分预测问题。所谓隐反馈,往往就是只有正样本。我们就拿视频网站说事,比如我们的数据就是,用户看了什么视频,然后让你预测用户还会看什么视频。

这个时候我们遇到一个问题,对于一个用户,我们有很样本是关于他看了什么视频,除了这些视频,剩下的视频是missing value,也就是说我们不知道他有没有看。不知道不代表用户没有看,也许用户在别的网站看了,也许用户在电视上看了。那么,这个时候对于我们在 Netflix比赛中很NB的SVD算法来说就出现了一个问题,没有负样本了。

没有负样本不代表不能做推荐,基于邻域的算法,比如基于Item的协同过滤(ItemCF)就可以在只有正样本的数据集上推荐。因为他的基本思想是 在正样本集合外画个比正样本集合稍微大一点的圈,然后推荐给用户那些和他们看过的视频相似的视频。但没有负样本却代表学习算法基本不work了,因为学习 算法大多是在正样本和负样本中间画一个分类面,那么没有负样本,自然也就没有分类面了。

所以,One Class Collaborative Filtering(OCCF)的思想就是我们要构造负样本

如何构造负样本是一个重点,这里我只介绍这篇文章中的方法,不谈也许更好的方法(等KDD Cup结束了可以谈,哈哈)。
1. 所有的missing value都是负样本(AMAU)
这是最自然想到的一个方法,不过这也是最烂的一个方法(这也是这篇文章中试图打败,并最终成功打败的一个算法)。这个方法有三点烂的。第一,因为 missing value非常多,造成数据规模非常大,因为我们知道一般推荐系统的数据集99%都是missing value。这样带来了无比高的复杂度,基本在大数据集上是不work的。第二,还是因为missing value非常多,造成负样本非常多,从而正负样本不平衡,这对学习算法也是很不利的因素。第三,missing value中有很多其实是正样本,只是我们不知道他们是正样本,如果把它们都归为负样本,会对精度带来负面影响。所以,这个算法理所当然的败下阵来,不过 这个算法是个不错的baseline算法,如果连这个方法都不如,就不要干了。

2. 采样负样本
终于到了本文的重点了。前面提到,AMAU的最大问题就是负样本太多了,造成复杂度太高。所以我们的一个想法就是,我们从missing value中采样出一个和正样本差不多大的集合作为负样本,就OK了。这个想法很朴素,但正是这个朴素的想法让SVD算法终于可以在OCCF的问题上和 ItemCF想媲美了。

但是missing value太多了,怎么采样呢,这篇文章介绍了3种方法
1. 均匀采样:这个想法最自然呢
2. 偏重用户采样:就是活跃度用户负样本也要多一点
3. 偏重item采样:不热门的item的负样本要多一点

最终文章的实验说,这三种采样策略,2好于1好于3。

得到负样本还没完,得到负样本之后我们可以构造出一个矩阵,里面有些元素是1,有些是-1,还有一些不知道。这个时候我们就可以用SVD来做预测了。这里还有一个重点,就是SVD是需要迭代的,那么我们需要在每次迭代的时候都进行重新采样。文中把这个称为bagging。

好了,就说到这儿了,其实上面的三种采样方法都不是最好的,将来再讨论更好的采样策略和优化策略。

分享到:
评论

相关推荐

    【大数据课设】p105出租车数据可视化分析-大数据-实训大作业.zip

    项目资源包含:可运行源码+数据集+文档 python + numpy, pandas, matplotlib, pyecharts, wordcloud 适用人群:学习不同技术领域的小白或进阶学习者;可作为课程设计、大作业、工程实训或初期项目立项。 数据来源:数据集taxis.csv从网络下载 数据清洗:异常值与缺失值的处理:有一些数据distance(乘车距离)为零而且上下车地点为空,还有些一些数据的payment(支付方式)为空。 数据预处理:将列名更改成中文 标准化与归一化: 数据分析: 数据可视化:

    TypeScript 入门教程

    TypeScript 入门教程

    人脸识别_课堂考勤_OpenCV_服务端系统_1741777828.zip

    人脸识别项目实战

    历届电赛试题及综合测评(真题+模拟题)

    本资源汇总了 历届全国电子设计竞赛(电赛)真题+模拟题,涵盖 电路设计、嵌入式系统、信号处理、自动控制等核心考点,并提供详细解析及综合测评,帮助参赛者高效备赛、查漏补缺、提升实战能力。 适用人群: 适合 准备参加电子设计竞赛的大学生、电赛爱好者、电子信息类相关专业的学生,以及希望提高电子设计和电路分析能力的工程师。 能学到什么: 电赛考察重点:熟悉往届竞赛的命题方向及考核重点。 电路设计与仿真:提升模拟电路、数字电路、单片机等核心技能。 问题分析与解决能力:通过综合测评找到薄弱点并针对性提升。 实战经验:掌握竞赛策略,提高应试效率和设计能力。 阅读建议: 建议先 通读真题,了解题型与解题思路,然后 结合模拟题实战演练,查找不足并通过测评强化练习,逐步提升竞赛能力。

    2024人工智能如何塑造未来产业:AI对各行业组织带来的的变革研究研究报告.pdf

    2024人工智能如何塑造未来产业:AI对各行业组织带来的的变革研究研究报告.pdf

    人脸识别_Golang_SDK_命令行登录_微信小程序应用_1741772240.zip

    人脸识别项目源码实战

    Vulkan原理与实战课程

    给大家分享一套课程——Vulkan原理与实战课程

    SiriYXR_Sokoban11_1741860914.zip

    c语言学习

    海豚鲸鱼数据集 5435张图 正确识别率可达92.6% 可识别:海豚 虎鲸 蜥蜴 海豹 鲨鱼 龟 支持yolov8格式标注

    海豚鲸鱼数据集 5435张图 正确识别率可达92.6% 可识别:海豚 虎鲸 蜥蜴 海豹 鲨鱼 龟 支持yolov8格式标注

    答谢中书书教学设计.docx

    答谢中书书教学设计.docx

    人脸识别_环境搭建_dlib_face_recognitio_1741771308.zip

    人脸识别项目源码实战

    网络技术_Web服务器_C语言_学习交流版_1741863251.zip

    c语言学习

    安卓开发_Gradle配置_React_Native_Meg_1741777287.zip

    人脸识别项目源码实战

    人工智能_深度学习_图像识别_UI界面_项目展示.zip

    人脸识别项目实战

    基于Springboot框架的美发门店管理系统的设计与实现(Java项目编程实战+完整源码+毕设文档+sql文件+学习练手好项目).zip

    本美发门店管理系统有管理员和用户两个角色。用户功能有项目预定管理,产品购买管理,会员充值管理,余额查询管理。管理员功能有个人中心,用户管理,美容项目管理,项目类型管理,项目预定管理,产品库存管理,产品购买管理,产品入库管理,会员卡管理,会员充值管理,余额查询管理,产品类型管理,系统管理等。因而具有一定的实用性。 本站是一个B/S模式系统,采用SSM框架,MYSQL数据库设计开发,充分保证系统的稳定性。系统具有界面清晰、操作简单,功能齐全的特点,使得美发门店管理系统管理工作系统化、规范化。本系统的使用使管理人员从繁重的工作中解脱出来,实现无纸化办公,能够有效的提高美发门店管理系统管理效率。 关键词:美发门店管理系统;SSM框架;MYSQL数据库;Spring Boot 1系统概述 1 1.1 研究背景 1 1.2研究目的 1 1.3系统设计思想 1 2相关技术 2 2.1 MYSQL数据库 2 2.2 B/S结构 3 2.3 Spring Boot框架简介 4 3系统分析 4 3.1可行性分析 4 3.1.1技术可行性 4 3.1.2经济可行性 5 3.1.3操作可行性 5 3.2系

    Python实现基于SSA-CNN-GRU麻雀算法优化卷积门控循环单元数据分类预测的详细项目实例(含完整的程序,GUI设计和代码详解)

    内容概要:本文档介绍了基于SSA-CNN-GRU麻雀算法优化卷积门控循环单元数据分类预测的详细项目实例,重点讲述了该项目的背景、目标、挑战与解决方案、技术特点、应用领域等方面的内容。文档详细记录了从项目启动、数据预处理、算法设计(SSA优化CNN-GRU模型)、构建与评估模型到实现美观的GUI界面整个过程,并讨论了防止过拟合的技术如正则化、早停和超参数优化。另外还涵盖了项目扩展的可能性、部署和应用策略、需要注意的地方以及未来改进的方向。全文强调了模型的泛化能力和计算效率,展示了该混合算法模型在实际应用中的优越性能。 适合人群:具备一定的Python编程经验及机器学习基础知识的研究人员和技术人员;对深度学习、智能优化算法及实际应用感兴趣的学者和从业者;寻求提升数据分析和预测准确性的金融分析师、数据科学家等相关专业人士。 使用场景及目标:本文档非常适合用作学习和参考资料,以掌握如何将SSA、CNN与GRU三种先进技术结合起来进行复杂的分类和预测问题求解。具体应用场景包括但不限于以下几个方面:金融领域——股票价格预测;医疗保健领域——辅助诊断;工业制造——预防性维护;智能家居——个性化服务;以及其他涉及到时序数据分析和多模态数据处理的场合。文档既包含了理论知识又提供了完整的源代码示例,可以帮助读者理解算法原理并通过实践中加深对其的认识。 其他说明:该项目不仅仅是关于算法的设计实现,更是有关于系统的整体架构规划以及工程上的考量,比如环境准备(确保环境洁净、必要包的安装等)、数据准备、GPU配置支持等等。同时文中给出了详细的代码片段,方便开发者理解和复现实验成果。值得注意的是,虽然文中提供了一套通用解决方案,但在真实场景下还需要针对性的调整参数或修改网络结构来达到最好的性能效果。此外,对于追求更高的预测精度或解决更大规模的问题,作者建议进一步探索深度强化学习等高级技术和多任务学习策略,并且考虑使用增量学习让模型能够适应新数据而不必重新训练整个模型。最后提到安全性和隐私保护也是项目实施过程中的重要因素,要妥善保管用户的敏感信息并且做到合法合规地收集和使用数据。

    人脸识别_T形分布_Gabor变换_特征提取_增强鲁棒性_1741777397.zip

    人脸识别项目实战

    13005463562_FaceWeb_1741771809.zip

    人脸识别项目实战

    水下垃圾检测数据集,基于voc和yolo标注的两种格式

    水下垃圾检测数据集,基于voc和yolo标注的两种格式,共23,056个文件,已经划分了训练集和验证集、测试集。并且提供了真实水下的视频数据,可以用作视频推理

    (参考GUI)MATLAB车辆检测.zip

    (参考GUI)MATLAB车辆检测.zip

Global site tag (gtag.js) - Google Analytics