关于推荐个人观点

liyonghui160com

浏览: 781374 次
性别:
来自: 北京

最近访客更多访客>>

lingxiajiudu

jerry830518

zhutiehan

liang3yibo

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

推荐&统计系统

关于推荐个人观点推荐系统

    回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】

    第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的wcf框架实现了和现在mapreduce一样的功能，分析了用户的日志，一台分发任务，其余计算计算完回传到分发任务的这台计算机，这台计算机合并各台回传数据批量入库，到现在程序还在使用中。而现在就是每天晚上数据部会同步到他们的数据仓库中。也许在现在很多人眼里看来很可笑吧！

    当然推荐的数据量也咩有想想的那么多用mysql和mongodb完全支持，当然不是说没有必要搭建hadoop。

    推荐不是仅仅靠算法，还要结合实际的场景，不同的产品进行推荐，来调整算法。要有各种各样的过滤引擎支持对数据的过滤处理。

    推荐算法还要分品类进行调整，不是一个算法适用于所有品类，图书和3C完全不同的概念。

    推荐是在实践当中不断积累和完善的。

    我也看了那些认为算法很牛逼人物们的博客文章，比如用文本写了几行测试数据自认为会了ItemCF的算法，可是你有没有考虑过，如果商品过亿，评论过亿，订单过亿的时候你的这个例子怎么搬到线上去运行呢？难道你要一下子塞到机器内存，我想机器会疯掉的吧！

    当然理论大家还是要学的，呵呵！

    推荐的应用当中会遇到很多细小的问题，不是算法就能能够解决，根据实际情况建模建立规则去解决问题，才是关键。

写以上应为我看了一篇文章，一遍一遍的读我读了好几遍，转载给大家：

http://www.aszxqw.com/work/2014/06/01/tuijian-xitong-de-nadianshi.html

回想起来，我也算是国内接触推荐系统较早的人之一了，最近和人聊天，觉得不少人对推荐系统有所误解，以为需要多么高大上的算法才能搭建起来的，我只想说我经常说的那句话【不是这样的】，所以有了这篇文章。

第一次接触【推荐系统】是在两年前在某高校的互联网信息处理实验室的时候，那时候，【机器学习】和【大数据】都是新概念，但是差不多半年后，【大数据】的概念就开始风靡全球了，到现在已经被爆炒得面目全非。

那年还因此买了一本项亮的书《推荐系统实践》，那本书和现在的很多热门书籍一样，都是跟着概念热起来的。虽然有一些作者自己的实战经验在里面，但是总体上来说并没有太多值得重复翻开的地方。

几乎所有宣扬【推荐系统】的人，都要拿【啤酒和尿布】，【亚马逊推荐占营收20%】之类的经典例子来说力证推荐系统的牛逼之处。到处宣扬【推荐系统】插上【机器学习】等算法的翅膀，就能让电子商务变得精准无比，能智能的猜出用户想买的东西。
殊不知，其实这两个例子和所谓的【算法】其实关系不大。

1. 啤酒和尿布

首先是【啤酒和尿布】，超市的人员发现买啤酒的男人容易顺手买尿布。这其实是一种数据分析，是根据数据统计加上人工分析得出，是一种以经验来改善销售的行为。和【机器学习】【数据挖掘】等算法的关系不大。刚接触【推荐系统】的时候，【协同过滤算法】大

热，我也曾经迷恋得研究过该算法，以为发现了什么宝贝一样。但是实际上，在工程中【协同过滤】出来的效果往往惨不忍睹，所谓的【算法工程师】每天能做的就是在那调整【协同过滤】算法的相关参数，然后看看第二天的点击率有没有上升。然后调整到最后你会发
现，牛逼哄哄的【协同过滤】其实还不如简简单单的【看了又看】效果来的好，虽然协同过滤算法本质上也是一种【看了又看】的思想。但是所谓的【算法工程师】不会因此停下他们探索的脚步，他们会继续去寻找更高大上的算法来实验，才能显得他们有在为自己的工资付出每天的辛勤劳动。

2. 亚马逊的推荐系统

亚马逊的推荐系统占了营收比，我记得是20%，不知道现在上升了还是下降了。这个说辞会让很多人误以为只要你搞好了推荐系统，你的营收就能上升20%以上一样。其实不然，对于亚马逊来说，为什么推荐能起到这么高的销量，一个很重要的原因在于，【亚马逊的首页点击率高的部分位置划分给了推荐系统的】，从广告学上讲，广告位置的好坏极大的决定了广告的销量。这个很容易理解

当然不可否定的是亚马逊的推荐系统应该是很牛逼的，但是这并不说明他们采用的【推荐算法】非常牛逼。推荐系统我认为其实和搜索系统并无太大差异，我一直认为推荐系统其实只是一个个性化的搜索引擎。之前在【秘密】上很火的有个爆料是：“360搜索的Rank刚开始就是用【机器学习】的算法去做，屎一样的效果，是我把百度的基于规则的算法偷过去之后才变好的。” ，这个爆料出来不少人讽刺【基于规则】，觉得这是在黑百度的算法。其实不是这样的，记得当时阿里搜索挖了一个谷歌搜索的员工，该人在阿里分享的时候就说过：【谷歌的搜索效果比别人好的原因就是规则库牛逼，关于算法使用的都是成熟的人尽皆知的算法，并没什么新奇酷的算法】。可能也是这个原因，谷歌研究院的科学家几乎全是【工程师背景】出身的。
还记得上次【CCF推荐系统前言讲座】，刚开始叫了几个学院派的讲师在那大讲特讲各种酷炫掉渣天的算法，然后淘宝打大数据负责人车品觉上台之后直接来了句【我们实验出各种算法效果不太好，还不如最基本的关联规则效果来的好】直接把前面的学院派专家们打脸打得都肿了。

我心目中的推荐系统

不管是电商，或者是新闻，都有【个性化推荐】和【热门推荐】的取舍。一个商品热门或者点击量高是有其原因的。所以将热门的东西推荐给用户是非常合情合理的，因为既然热门，也侧面说明了很大概率上该用户也会喜欢该商品。而【个性化推荐】本质上是为了解决【长尾】问题，把那些不热门的东西，但是很可能符合某特定用户品味的商品【挖掘】出来，推荐给特定的用户群。

首先，在推荐中，醒目的推荐位应该是【热门推荐】或者【人工推荐】，【人工推荐】是指比如在体育新闻中，巴萨夺冠之类的大新闻是直接让编辑来【人工推荐】即可，就是此新闻一出，马上登上头条，而不是在那磨磨唧唧的计算特征值，计算是相似度，计算是否符合用户兴趣。对于推荐中的【冷启动】，最理想的推荐就是【相关推荐】。说到这里，整个推荐系统的 80% 已经搭建完毕，【热门推荐+人工推荐+相关推荐】，这三者都是【个性化】都没什么关系，也算法关系也不大，但是这三者效果的好坏就决定了整个系统推荐效果好坏的 80% 。好多人连最基本的这三者都没有做好，就开始想一步登天，很可惜，这样的捷径是不存在的。接下来是 20% 的【个性化】的做法，如上所说，个性化是为了解决【长尾】问题，正是因为长尾占商品的 20% ，所以在此我任务【个性化】其实也只有 20% 。

要解决个性化，首先就是要对用户分析，最成熟的办法就是对用户打标签（是否让你想起来社交网络为什么经常让你选用合适的标签描述自己，没错，就是为了分析你）。

其实，给用户打标签，逼格更高的说法叫【用户特征提取】或者【用户行为分析】。说到这两个词，那些所谓的【算法工程师】可能就会开始扯什么高大上的算法，机器学习，自然语言处理，数据挖掘等各种算法。其实在我看来，算法很大情况根本派不上用场，我认为这方面的关键在于【数据统计 + 人工分析】。将用户的浏览记录等记录下来，统计他最常点击的东西，最常去的频道，然后给他打上这些频道或者商品的标签。或者收集更详细的信息，比如年龄，打上【青少年，男人，女人，老人】等标签，根据这些标签进行推荐。
比如当推荐护肤的商品时，就可以偏向于女人，推荐运动产品时，就可以偏向于男人和青少年，推荐保健品时，就可以偏向于老年人。所以，光看年龄这个标签的维度，就可以做很多文章。所以标签库的设计和积累，是非常广泛和重要的，而这方面需要大量依赖于【人工分析】，而不是看论文调算法能做到的。就好比现在的中文分词，拼到最后大家都在比词库的积累，谁的词库好，谁的效果就好，【搜狗】的【拼音输入法】效果好也是因为词库比别人好。

    最后就是根据标签的定向推荐，这个推荐概率是有【权重设置】在里面，就比如刚才对年龄这个维度的权重，是需要给予对应的权重值，如何给定呢？其实就是【拍脑袋】，当然，如果有某些公司已经得出经验值了直接可以拿来用就会更好。但是在拍完脑袋之后需要做的就是观察点击率变化，查Bad Case，然后再对权重进行调整，也就是根据评测和反馈来调整，没有【评测和反馈】，整个系统等于是一个黑盒，谈何优化？在我看来，【推荐系统】本质上首先是一个系统，需要不断的对各种效果进行【评测】，查各种【Bad Case】，而这些都不是看论文可以学到的东西。

总结

    实力派的【算法工程师】往往都是ABC[always be coding]，这样的算法工程师才能根据实际问题建立模型或者建立规则库，是真正能解决问题的人。往往是一些有研究背景，经验丰富的研究员，更加重视工程，因为工程架构上一些恰当合理的设计，效果往往就能远远高过于模型算法优化。
    学院派的【算法工程师】往往是为了算法而算法，而不是为了解决推荐系统的问题去找最适合算法。这也是为什么大公司经常招了一些博士毕业的算法工程师后，不是研究算法而是让他们整天在那看数据报表？【因为发现算法没啥好研究，而且他们的工程能力又太蹩脚，只能让他们在那看看报表找找规律了。】
    【几乎所有所谓的智能推荐算法都是花拳绣腿】

    当一个做推荐系统的部门开始重视【数据清理，数据标柱，效果评测，数据统计，数据分析】这些所谓的脏活累活，这样的推荐系统才会有救。

分享到：

Zookeeper .Net客户端代码 | windows文件同步到linux

2014-06-12 15:36
浏览 2543
评论(2)
分类:互联网
查看更多

2 楼 liyonghui160com 2015-02-13

qindongliang1922 写道

这文章写的很接地气，我们公司也是这样的，楼主应该也是在电商公司做推荐的吧！

哈哈对的，做了有一段时间了，可以多交流

1 楼 qindongliang1922 2015-02-11

这文章写的很接地气，我们公司也是这样的，楼主应该也是在电商公司做推荐的吧！

发表评论

您还没有登录,请您登录后再发表评论

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论