Hadoop应用：You might also know -

icw_zy

浏览: 14550 次

最近访客更多访客>>

fengyuyaoye

鱿鱼须

renshengpan

sdfwds4

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Hadoop应用：You might also know

博客分类：

hadoop

hadoop

You might also know，也就是潜在好友推荐，据我所知是LinkedIn最早推出的，现在已经是一个非常常见的应用了，在qq，微博，微信里面都有类似的功能。虽说这个功能的原理非常简单，但是能第一个想到，还是非常令人钦佩。就像Google赖以发家的PageRank算法，思路都不难，贵在能够首先想到并付诸实施。

算法的大概思路如下：假设 andy 认识 vincent， vincent 又认识 bob，那么 andy 认识 bob 的几率就非常大，如果 andy 还有第二个，第三个朋友也认识 bob，那么 andy 认识 bob 的几率就更大了。简单的说，就是朋友的朋友（qq，微信，微信中的好友），很有可能就是你认识的人。

假设微信要统计所有用户的潜在好友，具体算法如下：

   foreach user in weixin      遍历所有的微信用户
           foreach friend in "user's friend list"    遍历当前用户的好友列表
                     foreach friend2 in "friend's friend list"   遍历当前朋友的朋友列表
                     {
                          如果friend2不在user的好友列表中，对（user， friend2）计数加1，最后计数越大，说明 friend2最有可能是user的朋友
                          if(friend2 not in "user's friend list")
                                    count(user, friend2) ++;         
                     }

假设微信有1亿用户，每个用户有大概100个好友，要完成上面的运行，需要100*100*1亿次循环，这个时候hadoop就派上用场了，每个用户潜在好友的计算是互不干扰的，完全可以把1亿用户分布到多个map中同时计算。

这个应用场景用到的数据量并不大，只是计算量巨大，使用hadoop能很好的解决这个问题，在我看到的资料中，LinkedIn只用到了2个工程师，就完成了这个功能

参考资料：slideshare中关于hadoop的slide

分享到：

git和svn | JQuery Treeview 中 cookie 的使用

2013-02-27 11:01
浏览 990
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hadoop应用：You might also know

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hadoop应用：You might also know

评论

发表评论

相关推荐

在hadoop（1.0.4）中使用pipes需要注意的2个问题

hadoop必备书籍《Hadoop， The Definitive Guide》

最近访客更多访客>>