`
liyonghui160com
  • 浏览: 777032 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

关于推荐个人观点

阅读更多
    回想起来,我也做推荐了3年多了,最近公司做了调整招聘了很多算法工程师,以为需要多么高大上的算法才能搭建起来的,从实践中走过来,我只想说【不是这样的】

    第一次接触推荐系统是在四年前入职的时候,那时候,机器学习和大数据都是没有的概念,什么大数据处理开源软件根本不存在,我们用多台计算机web程序记录用户行为,用.net的wcf框架实现了和现在mapreduce一样的功能,分析了用户的日志,一台分发任务,其余计算计算完回传到分发任务的这台计算机,这台计算机合并各台回传数据批量入库,到现在程序还在使用中。而现在就是每天晚上数据部会同步到他们的数据仓库中。也许在现在很多人眼里看来很可笑吧!

    当然推荐的数据量也咩有想想的那么多用mysql和mongodb完全支持,当然不是说没有必要搭建hadoop。

    推荐不是仅仅靠算法,还要结合实际的场景,不同的产品进行推荐,来调整算法。要有各种各样的过滤引擎支持对数据的过滤处理。

    推荐算法还要分品类进行调整,不是一个算法适用于所有品类,图书和3C完全不同的概念。

    推荐是在实践当中不断积累和完善的。

    我也看了那些认为算法很牛逼人物们的博客文章,比如用文本写了几行测试数据自认为会了ItemCF的算法,可是你有没有考虑过,如果商品过亿,评论过亿,订单过亿的时候你的这个例子怎么搬到线上去运行呢?难道你要一下子塞到机器内存,我想机器会疯掉的吧!

    当然理论大家还是要学的,呵呵!

    推荐的应用当中会遇到很多细小的问题,不是算法就能能够解决,根据实际情况建模建立规则去解决问题,才是关键。




写以上应为我看了一篇文章,一遍一遍的读我读了好几遍,转载给大家:

http://www.aszxqw.com/work/2014/06/01/tuijian-xitong-de-nadianshi.html



回想起来,我也算是国内接触推荐系统较早的人之一了,最近和人聊天,觉得不少人对推荐系统有所误解,以为需要多么高大上的算法才能搭建起来的,我只想说我经常说的那句话【不是这样的】,所以有了这篇文章。

第一次接触【推荐系统】是在两年前在某高校的互联网信息处理实验室的时候,那时候,【机器学习】和【大数据】都是新概念,但是差不多半年后,【大数据】的概念就开始风靡全球了,到现在已经被爆炒得面目全非。

那年还因此买了一本项亮的书《推荐系统实践》,那本书和现在的很多热门书籍一样,都是跟着概念热起来的。 虽然有一些作者自己的实战经验在里面,但是总体上来说并没有太多值得重复翻开的地方。

几乎所有宣扬【推荐系统】的人,都要拿【啤酒和尿布】,【亚马逊推荐占营收20%】之类的经典例子来说力证推荐系统的牛逼之处。到处宣扬【推荐系统】插上【机器学习】等算法的翅膀,就能让电子商务变得精准无比,能智能的猜出用户想买的东西。
殊不知,其实这两个例子和所谓的【算法】其实关系不大。

1. 啤酒和尿布

首先是【啤酒和尿布】,超市的人员发现买啤酒的男人容易顺手买尿布。这其实是一种数据分析,是根据数据统计加上人工分析得出,是一种以经验来改善销售的行为。和【机器学习】【数据挖掘】等算法的关系不大。 刚接触【推荐系统】的时候,【协同过滤算法】大

热, 我也曾经迷恋得研究过该算法,以为发现了什么宝贝一样。但是实际上,在工程中【协同过滤】出来的效果往往惨不忍睹,所谓的【算法工程师】每天能做的就是在那调整【协同过滤】算法的相关参数,然后看看第二天的点击率有没有上升。然后调整到最后你会发
现,牛逼哄哄的【协同过滤】其实还不如简简单单的【看了又看】效果来的好,虽然协同过滤算法本质上也是一种【看了又看】的思想。但是所谓的【算法工程师】不会因此停下他们探索的脚步,他们会继续去寻找更高大上的算法来实验,才能显得他们有在为自己的工资付出每天的辛勤劳动。

2. 亚马逊的推荐系统

亚马逊的推荐系统占了营收比,我记得是20%,不知道现在上升了还是下降了。这个说辞会让很多人误以为只要你搞好了推荐系统,你的营收就能上升20%以上一样。其实不然,对于亚马逊来说,为什么推荐能起到这么高的销量,一个很重要的原因在于,【亚马逊的首页点击率高的部分位置划分给了推荐系统的】,从广告学上讲,广告位置的好坏极大的决定了广告的销量。这个很容易理解

当然不可否定的是亚马逊的推荐系统应该是很牛逼的,但是这并不说明他们采用的【推荐算法】非常牛逼。推荐系统我认为其实和搜索系统并无太大差异,我一直认为推荐系统其实只是一个个性化的搜索引擎。之前在【秘密】上很火的有个爆料是:“360搜索的Rank刚开始就是用【机器学习】的算法去做,屎一样的效果,是我把百度的基于规则的算法偷过去之后才变好的。” ,这个爆料出来不少人讽刺【基于规则】,觉得这是在黑百度的算法。 其实不是这样的,记得当时阿里搜索挖了一个谷歌搜索的员工,该人在阿里分享的时候就说过:【谷歌的搜索效果比别人好的原因就是规则库牛逼,关于算法使用的都是成熟的人尽皆知的算法,并没什么新奇酷的算法】。 可能也是这个原因,谷歌研究院的科学家几乎全是【工程师背景】出身的。
还记得上次【CCF推荐系统前言讲座】,刚开始叫了几个学院派的讲师在那大讲特讲各种酷炫掉渣天的算法,然后淘宝打大数据负责人车品觉 上台之后直接来了句【我们实验出各种算法效果不太好,还不如最基本的 关联规则 效果来的好】直接把前面的学院派专家们打脸打得都肿了。


我心目中的推荐系统

不管是电商,或者是新闻,都有【个性化推荐】和【热门推荐】的取舍。一个商品热门或者点击量高是有其原因的。所以将热门的东西推荐给用户是非常合情合理的,因为既然热门,也侧面说明了很大概率上该用户也会喜欢该商品。而【个性化推荐】本质上是为了解决【长尾】问题,把那些不热门的东西,但是很可能符合某特定用户品味的商品【挖掘】出来,推荐给特定的用户群。

首先,在推荐中,醒目的推荐位应该是【热门推荐】或者【人工推荐】,【人工推荐】是指比如在体育新闻中,巴萨夺冠之类的大新闻是直接让编辑来【人工推荐】即可,就是此新闻一出,马上登上头条,而不是在那磨磨唧唧的计算特征值,计算是相似度,计算是否符合用户兴趣。 对于推荐中的【冷启动】,最理想的推荐就是【相关推荐】。说到这里,整个推荐系统的 80% 已经搭建完毕,【热门推荐+人工推荐+相关推荐】,这三者都是【个性化】都没什么关系,也算法关系也不大,但是这三者效果的好坏就决定了整个系统推荐效果好坏的 80% 。好多人连最基本的这三者都没有做好,就开始想一步登天,很可惜,这样的捷径是不存在的。 接下来是 20% 的【个性化】的做法,如上所说,个性化是为了解决【长尾】问题,正是因为长尾占商品的 20% ,所以在此我任务【个性化】其实也只有 20% 。

要解决个性化,首先就是要对用户分析,最成熟的办法就是对用户打标签(是否让你想起来社交网络为什么经常让你选用合适的标签描述自己,没错,就是为了分析你)。

其实,给用户打标签,逼格更高的说法叫【用户特征提取】或者【用户行为分析】。说到这两个词,那些所谓的【算法工程师】可能就会开始扯什么高大上的算法,机器学习,自然语言处理,数据挖掘等各种算法。其实在我看来,算法很大情况根本派不上用场,我认为这方面的关键在于【数据统计 + 人工分析】。将用户的浏览记录等记录下来,统计他最常点击的东西,最常去的频道,然后给他打上这些频道或者商品的标签。或者收集更详细的信息,比如年龄,打上【青少年,男人,女人,老人】等标签,根据这些标签进行推荐。
比如当推荐护肤的商品时,就可以偏向于女人,推荐运动产品时,就可以偏向于男人和青少年,推荐保健品时,就可以偏向于老年人。所以,光看年龄这个标签的维度,就可以做很多文章。所以标签库的设计和积累,是非常广泛和重要的,而这方面需要大量依赖于【人工分析】,而不是看论文调算法能做到的。 就好比现在的中文分词,拼到最后大家都在比词库的积累,谁的词库好,谁的效果就好,【搜狗】的【拼音输入法】效果好也是因为词库比别人好。

    最后就是根据标签的定向推荐,这个推荐概率是有【权重设置】在里面,就比如刚才对年龄这个维度的权重,是需要给予对应的权重值,如何给定呢?其实就是【拍脑袋】,当然,如果有某些公司已经得出经验值了直接可以拿来用就会更好。但是在拍完脑袋之后需要做的就是观察点击率变化,查Bad Case,然后再对权重进行调整,也就是根据评测和反馈来调整,没有【评测和反馈】,整个系统等于是一个黑盒,谈何优化?在我看来,【推荐系统】本质上首先是一个系统,需要不断的对各种效果进行【评测】,查各种【Bad Case】,而这些都不是看论文可以学到的东西。

总结

    实力派的【算法工程师】往往都是ABC[always be coding],这样的算法工程师才能根据实际问题建立模型或者建立规则库,是真正能解决问题的人。往往是一些有研究背景,经验丰富的研究员,更加重视工程,因为工程架构上一些恰当合理的设计,效果往往就能远远高过于模型算法优化。
    学院派的【算法工程师】往往是为了算法而算法,而不是为了解决推荐系统的问题去找最适合算法。这也是为什么大公司经常招了一些博士毕业的算法工程师后,不是研究算法而是让他们整天在那看数据报表?【因为发现算法没啥好研究,而且他们的工程能力又太蹩脚,只能让他们在那看看报表找找规律了。】
    【几乎所有所谓的智能推荐算法都是花拳绣腿】

    当一个做推荐系统的部门开始重视【数据清理,数据标柱,效果评测,数据统计,数据分析】这些所谓的脏活累活,这样的推荐系统才会有救。


分享到:
评论
2 楼 liyonghui160com 2015-02-13  
qindongliang1922 写道
这文章写的很接地气,我们公司也是这样的,楼主应该也是在电商公司做推荐的吧!



哈哈 对的,做了有一段时间了,可以多交流
1 楼 qindongliang1922 2015-02-11  
这文章写的很接地气,我们公司也是这样的,楼主应该也是在电商公司做推荐的吧!

相关推荐

    前端开发学习路径推荐(仅个人观点)

    对于零基础的前端开发学习者,以下是一个清晰的学习路径,结合了参考文章中的关键信息

    推荐信模板1

    推荐信是研究生申请过程中至关重要的一部分,它为招生委员会提供了关于申请人综合素质的第三方视角。在申请上海交通大学研究生的过程中,一封详实而有力的推荐信可以帮助考生凸显其学术成就、个人品质以及潜在的研究...

    推荐信-保研推荐信及个人陈述 (1).doc

    综上所述,在准备保研材料时,不仅需要关注推荐信和个人陈述的撰写,还要全面考虑成绩证明、联系导师的方式以及面试准备等多个方面。只有全方位提升自己的竞争力,才能在激烈的竞争中脱颖而出。

    工程伦理学课堂汇报:个性化推荐技术的伦理学

    此外,过度依赖个性化推荐可能会导致信息茧房现象,即用户只接触到符合自己已有观念的信息,而屏蔽掉其他观点,从而影响其认知多样性。此外,个人信息的泄露可能导致用户面临欺诈、骚扰等风险,对个人隐私和社会安全...

    保研准备资料大礼包(经验汇总+个人陈述+个人简历+联系老师+面试+自我介绍+申请表+提交材料+推荐信).rar

    面试技巧包括准备常见问题、清晰表达观点、展现自信等。 8. **保研经验汇总**:这份汇总集合了前人的经验和教训,涵盖面试技巧、材料准备、联系导师等多个方面,是宝贵的参考资料,可以帮助你避免常见错误,提高...

    推荐系统简介-中英双语

    推荐系统是一种人工智能技术,旨在帮助用户从海量信息中筛选出符合个人口味或兴趣的项目。在当前信息爆炸的时代,推荐系统已经成为在线平台如电商、社交媒体、流媒体服务等不可或缺的一部分,它们通过分析用户的行为...

    个性化网上书籍推荐系统.pdf

    网上书籍推荐系统是电子商务领域中的一种重要工具,旨在提升用户体验,帮助用户在海量书籍中快速找到符合个人兴趣的书籍。随着互联网的普及,网上书店已经成为购书的重要平台,但同时也面临着如何提供更精准、个性化...

    推荐个人的述职报告汇总8篇.docx

    - 文章式标题:可直接描述主题,如“关于2021年度工作业绩与反思的述职报告” 2. **抬头**: - 书面报告:明确主送单位,如“尊敬的公司领导”或“人力资源部” - 口述报告:对听众的称呼,如“各位同事”、...

    大学毕业导师推荐信范文.docx

    推荐信中可以强调被推荐人在课堂讨论中的深刻见解,是否能够引导他人深入思考,是否对待学习认真刻苦,并能够主动关注时事并表达个人观点,这些都是对其成熟思考能力的肯定。 工作能力是直接体现一个人综合素质的...

    推荐个人述职报告模板七篇.docx

    - 使用事实和数据支持你的观点,使报告更具说服力。 - 语言简洁明了,避免过于复杂的词汇和句子结构。 - 积极正面,同时也要诚实地指出自己的不足和改进方向。 - 对未来的规划和目标要有明确的阐述,展现个人对工作...

    推荐个人述职报告模板九篇.docx

    - 数据支撑:尽可能地用数据和具体案例支持自己的观点,增强说服力。 - 积极正面:在讨论问题和困难时,同时提供解决方案或改进措施,展现解决问题的能力和积极的态度。 通过遵循这些撰写要点和原则,个人述职报告...

    推荐个人述职报告七篇.docx

    - **逻辑清晰**:条理清晰地阐述自己的观点和计划,让听众易于理解和接受。 - **感性诉求**:适当运用情感语言,增强演讲的感染力,让听众产生共鸣。 - **结尾呼吁**:在演讲结束时,通过强有力的呼吁来加强印象,...

    关于鲁迅的个人评价具体的有哪些——推荐..doc

    - 鲁迅的作品至今仍具有高度的现实意义,他的观点和批评在近百年后依然准确地揭示了社会问题。 总的来说,鲁迅是一位卓越的文学家和思想家,他的作品不仅展现了高超的艺术表现力,还蕴含着深刻的哲学思考和对社会...

    英语推荐信写作模式.doc

    推荐信的核心在于提供关于推荐对象的详细而积极的信息,包括他们的身份、你们之间的联系、他们的资格以及具体技能。以下是一个标准的推荐信模版,分为几个关键部分: 1. **称呼**: - 如果推荐信是针对特定接收者...

    初中语文作文专题讲练评论劝说推荐类

    - **推荐类题模**:推荐书籍、景点等,要求突出推荐对象的特点和价值,同时分享个人体验。 通过这样的专题讲练,学生可以提高对评论、劝说、推荐类作文的驾驭能力,提升写作水平。在实践中不断积累素材,增强对各类...

    4.面试推荐表(1).zip

    7. **职场发展规划**:可能包含关于个人成长计划、职业目标设定、持续学习和适应行业变化的建议,以帮助求职者规划长远的职业道路。 总之,这份“4.面试推荐表(1)”压缩文件是为求职者提供全面面试准备的工具,旨在...

    留学推荐信的完整格式.doc

    撰写推荐信时,语言应该诚恳、专业,避免过于笼统的赞美,而应提供具体的实例来支撑你的观点。同时,推荐信应当体现申请人的独特性,突出他们在众多申请者中的优势。 总结来说,一封有效的留学推荐信不仅需要符合...

    留学推荐信范文.doc

    - **具体事例**:提供具体的事例来支持推荐人的观点,如xxx在实习期间的成绩和后续被正式录用。 - **结论**:明确表达对申请者的支持,并请求接收学校给予机会。文中提到,“虽然从某种程度上来说,如此优秀的员工...

    英语个人素质常用用语(推荐信必用).doc

    在英语推荐信中,表达个人素质是非常重要的,这直接影响到接收者对申请者的第一印象。以下是一些常用于描述个人素质的英语短语,它们可以帮助你更准确地描绘出申请者的特质: 1. **Mature, dynamic, and honest**:...

Global site tag (gtag.js) - Google Analytics