阅读更多
大数据在网易内部的应用丰富多彩,在《让机器读懂用户–大数据中的用户画像》一文中,网易工程师对用户画像进行了较为系统的介绍,并提到用户画像的一个重要作用在于个性化推荐。但企业怎样才能正确认识和利用推荐系统来拓展业务?本文对推荐的本质和实现思路进行了深入的探讨,并介绍了网易严选的推荐系统实践,让您充分领略个性化推荐的魅力。

推荐系统作用本质
有资料称亚马逊的推荐系统带来的GMV占其全站总量的20%-30%。这个数据会让人直觉地认为,电商网站只要一上好的推荐系统,就会带来相当高的GMV提升。甚至有产品会问:我们的推荐系统GMV占全站多少?为什么亚马逊能做到30%而我们做不到?

想象一下,亚马逊把推荐系统的位置全换成游戏广告,每次用户点击收取广告费等同于物品推荐时的单次点击价值。这时会有什么结果?合理的推荐是,如果游戏推荐做得足够精准,这个伪推荐系统的GMV占全站的比例可能越来越高,网站的用户流失率会显著增加,总体营收会趋于下降。

这个假设揭露了一个真相:推荐系统的位置本质上就是广告展现;对于任何一个有流量的站点来说,不断上升或者稳定的忠实用话是其最大价值;广告位的展现最好能够同时不损坏甚至提升用户体验。Facebook初上广告时就遇到一个问题:广告的投放影响了用户体验,会损失用户忠诚度,造成用户流失。而对于电商网站来说,为用户推荐物品,是一种能提升用户体验的方向投放,看起来像一种奇妙的巧合。

与搜索类似,推荐的本质就是提升用户体验 - 为此它们最主要的方式就是帮助用户快速的找到它需要的产商品,其他的方式还包括给用户新颖感等。事实上,亚马逊宣称的20%的GMV,其中很多是“你不向用户推荐他也会购买的东西”,推荐系统在这方面的贡献是为用户提供了便利性点击,节约了用户的精力。如果没有推荐系统或者推荐系统很糟,用户流向竞品网站的可能性就会增大,这时造成的损害是在整体GMV上。至于推荐的GMV能占全站的比率是多少才合适,这个问题很难回答。只能说每个站点的基准值由产品的综合情况决定,不能一概而论。

综合起来,推荐系统有如下几个作用:
  • 提升综合体验: 帮助用户节省精力,增加漫游机率,提升页面访问量及驻留时间,提升留存率;
  • 提升GMV(由1附带的效果);
  • 提升印象。
推荐的结果,用户点不点是个非0即1的的事件,但是用户对它们兴趣度是一个介于0到1的连续的数值。兴趣度的提升,能提升用户对网站的信任度,提升留存及LTV。

推荐系统工作原理本质
在推荐领域被证明有效的算法非常多,如各种CF(协同过滤)、矩阵分解、基于图的算法、关联规则、各种方式的embedding、融合多种特征的CTR-based方法等。深度学习领域的进展表明,如果有一种最接近上帝的方法,那很可能就是embedding的方法。所谓embedding,数学上的意义就是映射。如word2vec通过语料训练把词变成一个数百维的向量,向量的每一维没有明确的物理意义(或者说我们无法理解)。推荐系统如果可以把人很精确地映射成一个向量,把物品也映射成一个同维度同意义的向量,那么推荐就是可以按规则处理的精确的事情了。

图1.最佳的推荐形式

事实上,电影推荐的确可以这样做。豆瓣电影推荐是国内推荐系统的先驱之一,它经过多次迭代,最终形成了一种本质上是embedding的方法来实现推荐:用一定的方法把用户用一系列标签描述,将电影也样同样的标签空间描述,据此计算用户与电影的相似度来推荐,得到的推荐效果非常好。

图2.豆瓣基于标签的电影推荐


电商推荐系统的特点
电影是一种文化艺术商品,直接与人的感性感受相关;同时它有比较精深的空间,从数学的角度来说,它具有多个维度的属性,多到可以产生非常丰富的变化,但不至于多到让人脑难以理解。人对电影的兴趣,具有一定的稳定性,不太会发生快速的转变。

在电影的世界里,人与电影都比较容易做embedding。

与电影推荐不同,电商推荐就复杂得多了。主要有如下几点:
  • 商品种类数巨大,不同的商品需要不同的embedding。
  • 放在电商的世界里,电影就相当于一种商品。如果要做embedding,用户与每一物品都要做一组embedding,不同的物品无法统一。比如,喜欢白色T-shirt的用户,不见得会喜欢白皮鞋;喜欢咸豆浆的用户,不一定会喜欢咸豆腐脑。而商品的种类可能是数以10万记的。即始可以针对每种商品做embedding,也很难将它们统一起来。
  • 单种商品深度不够,难以有效embedding。
  • 描述物品的空间维度一般很浅,除了少数的商品(如女士包等)称得上博大精深,大多数是很简单的。
  • 人对商品的兴趣大都建立在短期或者瞬时需求之上。
  • 大部分情况下,人对商品有兴趣是因为正好需要商品,而非中长期的喜好。很多情况下,买了某种耐用品之后,人对它的兴趣(指购买它的欲望)在很长时间内会降到最低。想要embbeding这种转瞬即逝的变化,是一件不容易的事情。当然,也有一些商品及一些情况下,用户的确是对商品有中长期的兴趣,比如刚生小孩的父母,很长时间内会对母婴用品感兴趣。在海量的商品与情景中把这些case都找出来,本身是一件不容易的事情。
  • 大量耐消品的影响。
  • 上面的论述中可能已经包含这部分。但有必要单独强调一下:电影是一种极佳的快消品,而在商品的世界里,充满了海量的慢消品 - 慢消品的特点是一旦满足用户兴趣就转移了。
  • 用户理论上对所有商品都会有兴趣。
  • 人在一生中,会在不同的时间对大部分商品产生兴趣。用户对商品的大部分情况是短期兴趣。一般情况下,用户短期的兴趣难以预测,只能根据用户明确指时的对哪些商品感兴趣;中长期兴趣在某些情况下可以挖掘。

基于以上的原因,在电商领域难以找到完美的embedding方式来实现推荐。其实我们在看各大电商的个性化推荐时,无论宣称背后用怎样复杂的模型融合,从结果看,用户近期行为的权重是非常大的,使得结果非常像itemCF推荐出来的。很容易看到,很多大型电商网站首页的“猜你喜欢”模块,推荐的都是与用户最近浏览相似的物品。

因此,现代电商的推荐往往用机器学习的方法来实现。对于推荐来说,算法与模型并不是最主要的,重要的是对需求、业务目标、平台用户、平台数据的理解及与之对应的特征工程。

网易严选推荐实践
网易严选推荐的基础模型采用的是CTR模型,基于LR(逻辑回归)。

图3.网易严选推荐模型

在核心的特征工程方面,网易严选推荐团队将用户的具体属性(性别、收入水平、地域等)、用户在网易严选的行为属性(短期,长期)、及时间上下文(季节、上次购买时间间隔等)作为属性空间,从1层迪卡尔积开始往上构造N层迪卡尔积形成复杂属性空间P,挖掘属性空间与商品的相关,对有明显相关(正相关或负相关)的(属性、物品)对构造特征。

图4.用户属性空间


图5.具体属性应用


图6.行为属性作为抽象属性与具体属性置以相同的地位


图7.二阶属性(属性的2重迪卡尔积)

从结果来看,这一套特征工程方法可以挖出比较全的特征集,在鲁棒性与效果上都有不错的效果,自上线以来各项指标均在稳步提升。

易小云说:
网易基础技术的云化,以及大数据技术的平台化,支撑着网易互联网业务快速发展,其中网易严选在电商领域发展得有声有色。业务的成功,强化了网易人对技术的信仰,基于大数据的个性化推荐功能作为当前电商平台的标配,网易严选也进行了自己的探索。当然,网易工程师并未奉行唯技术论,不认为算法/模型至上,而是秉承业务导向的思想,从全局的角度深入思考推荐系统的角色,从实用的角度分析推荐在不同业务场景下实现方式和性能提升的关键(并重点解释网易严选的核心工作 - 特征工程),这其实和网易云提倡场景化云服务的理念一脉相承,而文章最后一段的阐述,也证明了这个理念的正确性。2017年,网易云将继续深耕场景化的云计算和大数据解决方案,助力互联网企业及传统行业成功实现业务的创新和升级。
引用
作者简介:沈燕,网易严选推荐算法工程师。(责编/魏伟)


SDCC 2017·上海站将于2017年3月17-19日登陆申城,三大技术峰会24位嘉宾,汇聚国内一线的互联网公司大牛,畅谈运维、数据库和架构的热门话题和技术热点,精益运维发起人&优维科技CEO王津银、MongoDB 大中华区首席架构师唐建法和华为软件API开放平台架构师李林锋等亲临现场。3月5日前门票八折优惠中,5人以上团购立减400元,详情点击注册参会

  • 大小: 102.5 KB
  • 大小: 236.9 KB
  • 大小: 71.4 KB
  • 大小: 83.7 KB
  • 大小: 131.8 KB
  • 大小: 90.3 KB
  • 大小: 41.9 KB
  • 大小: 148.7 KB
0
0
评论 共 0 条 请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • csdn崩溃了?每次都卡

    需要注意的是,以上影响因素是一般情况下的推测,具体影响程度取决于CSDN在技术架构、数据备份和恢复等方面的准备情况以及崩溃的持续时间。此外,对于个人用户而言,CSDN崩溃可能只是暂时的不便,并且他们可以通过其他渠道获取所需的信息和资源。开发者社区受影响:CSDN 是一个广受开发者欢迎的社区平台,提供了大量的技术博文、问答、资源下载等。如果CSDN崩溃,学习者可能无法访问这些资源,从而影响他们的学习进程。如果CSDN崩溃,他们将无法获得及时的帮助,可能需要寻找其他渠道来解决问题。

  • 再见了,CSDN!

    再见了,CSDN!

  • 点评项目-6-缓存更新策略、缓存穿透、雪崩

    使用 redis 缓存记录的信息,有可能在数据库被信息被修改导致信息不一致,使用缓存更新来解决这个问题缓存更新策略主要有三种:1.内存淘汰(redis默认开启)2.超时剔除(给key添加TTL时间)3.主动更新(编写业务逻辑)主动更新策略:在数据库更新时删除缓存,通过事物保证数据库的更新和缓存的删除同时成功或失败。对于数据库的更新和缓存的删除的执行顺序:先删后更,在多线程下在数据库完成更新前可能会被另一个线程查询,导致数据不一致;

  • 你还在担心你的 IP 被封吗?

    点击上方“程序人生”,选择“置顶公众号”第一时间关注程序猿(媛)身边的故事图片源自unsplash作者fightjiang如需转载,请联系原作者授权。是不是有很多小伙伴都...

  • 爬虫应对IP封禁的一般性处理方法

    ** 封IP目前是很多网站常用的反爬虫手段,为了让广大爬虫少走弯路,本文整理了几种可行的封IP应对方法 ** 1.通过设置Http请求头直接绕过 某些网站,由于网站开发者或者管理员安全意识不够,通过设置X-Forwarded-For头可以伪造任意IP。以IP138为例 如上图所示,通过修改X-Forwarded-For标头的值,可以任意伪造请求ip,配合随机IP使用,效果很好。但是目前存在此类...

  • 解决IP被封的问题几种方法

    在爬虫工作中,我们不可避免的会遇到网页的反爬封锁,所以就有了爬虫的攻防,在攻和守之间两股力量不断的抗衡。接下来就讲讲使用爬虫时ip限制问题的六种方法!   方法1.   1、IP必须需要,如果有条件,建议一定要使用代理IP。   2、在有外网IP的机器上,部署爬虫代理服务器。   3、你的程序,使用轮训替换代理服务器来访问想要采集的网站。   好处:   1、程序逻辑变化小,只需要代理...

  • 采集爬虫中,解决网站限制IP的问题?

    开发了一个爬虫,布置在自己的服务器上,请求某网站的查询功能,然后抓取查询结果,结果访问才一会儿,就被提示封IP了。整合了大家的解决方法!

  • 测试中被封ip和mac的解决办法

    今天在客户这做内网测试,在测试注入的时候触发了防护设备,禁了我的ip,然后我换了一个ip还是不行。 最后请教别人才知道防护设备永久禁了我的ip和mac地址,下面就开始改mac地址 这个mac地址是我随便在网上找的 E8039A352BED 然后拔掉网线 查看是否改成功 ipconfig /all 然后插上网线就可以了 即可测试 ...

  • 关于CSDN blog博客被封的说明

     2017.6.14,我发了一篇blog >,其中有一个字: 提手+比 之后CSDN封了我的blog,  访问会出现 "该博客违反了网站规则被关闭"。 我打400电话咨询,应该就是这个关键字影响,发于各位博主注意。。。

  • 爬虫怎么解决封IP?

    转载于 https://www.zhihu.com/question/26018679这个网站提供上千个 http://www.vpn.cn/ ip交换在网络爬虫抓取信息的过程中,如果抓取频率高过了网站的设置阀值,将会被禁止访问。通常,网站的反爬虫机制都是依据IP来标识爬虫的。于是在爬虫的开发者通常需要采取两种手段来解决这个问题:1、放慢抓取速度,减小对于目标网站造成的压力。但是这样会减少单位时间...

Global site tag (gtag.js) - Google Analytics