You might also know,也就是潜在好友推荐,据我所知是LinkedIn最早推出的,现在已经是一个非常常见的应用了,在qq,微博,微信里面都有类似的功能。虽说这个功能的原理非常简单,但是能第一个想到,还是非常令人钦佩。就像Google赖以发家的PageRank算法,思路都不难,贵在能够首先想到并付诸实施。
算法的大概思路如下:假设 andy 认识 vincent, vincent 又认识 bob, 那么 andy 认识 bob 的几率就非常大,如果 andy 还有第二个,第三个朋友也认识 bob, 那么 andy 认识 bob 的几率就更大了。简单的说,就是朋友的朋友(qq,微信,微信中的好友),很有可能就是你认识的人。
假设微信要统计所有用户的潜在好友,具体算法如下:
foreach user in weixin 遍历所有的微信用户 foreach friend in "user's friend list" 遍历当前用户的好友列表 foreach friend2 in "friend's friend list" 遍历当前朋友的朋友列表 { 如果friend2不在user的好友列表中,对(user, friend2)计数加1,最后计数越大,说明 friend2最有可能是user的朋友 if(friend2 not in "user's friend list") count(user, friend2) ++; }
假设微信有1亿用户,每个用户有大概100个好友,要完成上面的运行,需要100*100*1亿次循环,这个时候hadoop就派上用场了,每个用户潜在好友的计算是互不干扰的,完全可以把1亿用户分布到多个map中同时计算。
这个应用场景用到的数据量并不大,只是计算量巨大,使用hadoop能很好的解决这个问题,在我看到的资料中,LinkedIn只用到了2个工程师,就完成了这个功能
参考资料:slideshare中关于hadoop的slide
相关推荐
实战Hadoop 2.0:从云计算到大数据(第二版)
Hadoop安全:大数据平台隐私保护 Hadoop安全:大数据平台隐私保护 Hadoop安全:大数据平台隐私保护
Hadoop实战:Hadoop in Action
Apache Hadoop YARN:Moving beyond MapReduce and Batch Processing with Apach 2 【yarn权威指南】
10. **Hadoop实战**:通过实际项目来应用Hadoop技术,比如日志分析、推荐系统、机器学习等。 这个“Hadoop开发者下载”很可能提供了以上各方面的教程、示例代码、配置文件甚至是一些实用工具,帮助开发者快速上手和...
`Hadoop: The Definitive Guide`中可能会讲解如何创建、读取和操作HDFS上的文件,以及如何配置HDFS参数以优化性能。 MapReduce是Hadoop处理大数据的主要计算模型,它将大规模数据处理任务分解为小的“映射”和...
Hadoop实例:二度人脉与好友推荐,供大家一起共同分享学习。
Kerberos技术就是一种广泛应用的身份验证协议,常用于确保大数据平台如Hadoop的安全性。本资源提供的是Hadoop的大数据安全组件——Kerberos的集成安装包,具体版本为hadoop-3.3.4.tar.gz,这是一款针对Hadoop进行...
"Data Analytics with Hadoop: An Introduction for Data Scientists" ISBN: 1491913703 | 2016 | PDF | 288 pages | 7 MB Ready to use statistical and machine-learning techniques across large data sets? ...
《Hadoop应用开发与案例实战(慕课版)》是一门深入探讨大数据处理技术的课程,主要聚焦在Hadoop平台上进行应用开发的实践操作。这门课通过丰富的PPT课件,旨在帮助学习者理解Hadoop的核心概念,掌握其开发技巧,并...
,Hadoop 技术已经在互联网领域得到了广泛的应用。互联网公司往往需要 存储海量的数据并对其进行处理,而这正是Hadoop 的强项。如Facebook 使用Hadoop 存储 内部的日志拷贝,以及数据挖掘和日志统计;Yahoo !利用...
5. 安装 Hadoop:在每个节点上安装 Hadoop 并配置 NameNode 和 DataNode。 6. 配置集群:根据业务需求调整 Hadoop 参数。 7. 启动集群:启动 NameNode 和 DataNode,检查集群状态。 8. 测试集群:通过运行测试程序...
- **书名**:《Hadoop:The Definitive Guide》(第二版) - **作者**:Tom White - **前言作者**:Doug Cutting - **出版社**:O'Reilly Media, Inc. - **出版日期**:2010年10月 - **版权**:版权所有 © 2011 Tom...
With this digital Early Release edition of Hadoop: The Definitive Guide, you get the entire book bundle in its earliest form – the author’s raw and unedited content – so you can take advantage of ...
The author also helps you know how to write MapReduce programs in Java programming language and run them on Hadoop. You will know how to accomplish various tasks of data analysis in Hadoop by writing...
这个"**Hadoop简单应用案例**"涵盖了Hadoop生态系统中的多个关键组件,包括MapReduce、HDFS、Zookeeper以及Hive,这些都是大数据处理的核心工具。下面将详细讲解这些知识点。 1. **MapReduce**:MapReduce是Hadoop...
资源名称:云计算Hadoop:快速部署Hadoop集群内容简介: 近来云计算越来越热门了,云计算已经被看作IT业的新趋势。云计算可以粗略地定义为使用自己环境之外的某一服务提供的可伸缩计算资源,并按使用量付费。可以...