学习地址: http://my.oschina.net/u/176897/blog/99761
写点自己的理解,大牛请直接略过。
好友推荐里有推荐一些你可能认识的人,其中二度人脉是其中一种。
比如: 何炅和谢娜 在微博上相互关注,那用二度人脉的方法就是找和谢娜相互关注的人(如 张杰,海涛,某人), 这时候[张杰,海涛,某人]就是何炅的二度人脉,排除掉何炅已经相互关注的张杰,剩下[张杰和某人],于是何炅发现忘记关注海涛了,接着互粉了。
在hadoop上计算用户们的二度人脉采用两步:<key,value> <key,[values]>表示
1.
第一个map输入互粉的 <a,b> , <a, c> , <a,d> , <b, c> , <b,d>
reduce阶段: 得到<a, [b, d, c]> <b, [c, d]>
输出(2=二度人脉,1=互粉) <b+d,2> <b+c,2> <c+d, 2> <a+b, 1> <a+d, 1> <a+c, 1>
<c+d, 2> <b+c, 1> <b+d, 1>
2. map输入上一个阶段输出。
reduce阶段:开始累加二度的值,出现是互粉的则为非二度。
<b+d, [2,1]> 其实b和d 已经互粉。
<b+c, [2,1]>
<c+d, [2,2]> c和d是二度人脉,出现值为2,出现的越高表示他们月有可能相互认识。越值得推荐给对方。
按照微博的用户数量估计一下数据量。
1. 1亿的用户,平均有100个互粉用户,则有100亿的数据奔向reduce阶段。
(假设其中有1万的用户,他们有1000个互粉,则reduce输出可能达到1w*1000*1000=100亿的数据量输出,容易发生数据倾斜的情况。)总的有可能会有 1亿*100*100 = 1万亿的输出数据, 存储空间需要20T左右(未压缩),
2. 第二个阶段的数据量由第一个阶段决定。但是第二阶段需要启动更多reduce去算完这1万亿的数据,所以这个阶段会和第一个阶段一样耗时。
希望有跑过这个量级的朋友分享一下经验。
分享到:
相关推荐
- **基于图的社会化推荐算法**:该算法构建于用户的社交图谱和兴趣图谱之上。用户与用户之间的关系以及用户与物品之间的关系被表示为图中的边,边的权重反映了关系的紧密程度。 #### 算法实现细节与优化策略 - **...
在IT领域,尤其是在大数据处理和社交网络分析中,"MapReduce实现二度好友推荐算法"是一种常见的技术应用。MapReduce是Google提出的一种分布式计算模型,主要用于处理和生成大规模数据集。在这个场景下,我们利用...
1. 社交网络用户规模的指数级增长带来了大数据的挑战,数据挖掘变得尤为重要,好友推荐作为其重要应用之一。 2. 分布式计算框架由于其高可扩展性、可并行处理大数据的优势,成为解决大规模推荐问题的重要手段。 3. ...
有关好友推荐的各种算法,是一个人的论文~ 觉得写的还不错
在计算机科学领域,好友推荐算法是社交网络服务中不可或缺的一部分,它主要负责分析用户的行为、兴趣和社交关系,以提供个性化的用户连接建议。好友推荐系统不仅能够增强用户的社交体验,促进用户之间的互动,还能为...
3. **相似度计算**:使用协同过滤或基于内容的推荐算法,MapReduce可以并行计算用户之间的相似度,比如基于共同好友、共同兴趣等。 4. **推荐生成**:最后,根据用户间的相似度,MapReduce可以生成个性化的推荐列表...
推荐系统的核心问题之一是如何准确地把握用户偏好,并且在复杂多变的社交网络环境下,提供更加个性化的推荐服务。 标签系统作为Web2.0时代的产物,为用户提供了表达个人兴趣和偏好的一种简便方式。UGC(User ...
在这样的背景下,研究社交网络中的潜在好友推荐算法显得尤为关键。本文针对当前社交网络服务中好友推荐存在的问题,提出了一种新的算法,旨在提高推荐系统的效率和准确性,增强用户的社交体验。 当前,传统的基于...
基于GNN的社交推荐算法设计和应用 本文档主要介绍基于GNN(Graph Neural Network,图神经网络)的社交推荐算法设计和应用。社交推荐算法是指基于社交网络结构的推荐算法,旨在根据用户之间的社交关系和行为习惯,...
协同过滤是最常用的推荐算法之一,分为基于用户的(User-based)和基于物品的(Item-based)两种类型。前者通过分析用户之间的相似性来预测用户对未评分物品的兴趣,后者则侧重于物品之间的相似性,以此推荐用户可能喜欢...
推荐系统教程_第7周 社交网络好友推荐,图算法,在图数据库Neo4j上的实现.rar
本文介绍了一种基于决策树的学术性社交网络好友推荐算法,该算法旨在解决如何通过智能技术在众多用户中准确、有效地推荐朋友的问题。文章发表于2018年IEEE SmartWorld, Ubiquitous Intelligence & Computing, ...