`
孤独的心
  • 浏览: 9870 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

协同过滤算法

阅读更多
    现在的电子商务或者网站中,各种推荐、评分和广告精准营销功能都是必不可少的。最近项目中需要使用这些,在调研相关的解决办法。 一开始是学习mahout,然后mahout中主要的就是算法,学习过程中感觉自己有必要全面的学习一下相关的知识了,就疯狂的google找一些概论性的讲解恶补知识,然后到处链接才将整个电子商务的一整套推荐流程基本了解清楚了,由于看到的知识都是四处没有目的看到的,怕以后忘记了,就给记下来。
  基本现在使用的算法都是协同过滤算法
  其中协同过滤算法又可以分为:

  以使用者为基础(User-based)的过滤算法:主要是以人的相似度作为对对象的评分加权系数。

  以项目为基础(Item-based)的过滤算法:主要是以项目相似度作为对象评分加权系数。
 
  以模型为基础(Model-based)的过滤算法:其实就是根据以往的资料建立一个模型基础,以后的比对直接使用该模型预测。包括的算法有Latent Semantic Indexing、Bayesian Networks…等

   item-based 主要是为了解决user-based的问题。(用户会越来越多,算法步骤会增加)
但是还是有些问题的:
最典型的有稀疏问题(Sparsity)和冷开始问题(Cold-start),开始时效果较差。此外还有新使用者问题和算法健壮性等问题。
  
   Model-based算法是为了解决Item-based算法在数据太多的时候的实时性问题

   以上的User-based 和 Item-based算法都依赖相似度计算的算法,主要包括:
   Person Correlation Coefficient、Cosine-based Similarity、Adjusted Cosine Similarity。

   后续再写些自己对每个相似度算法的理解吧

以上只是一些理解过后的总结
具体说明网站:http://zh.wikipedia.org/wiki/%E5%8D%94%E5%90%8C%E9%81%8E%E6%BF%BE
http://zh.wikipedia.org/wiki/Slope_one
 
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics