[文章作者:孙立 链接:http://www.cnblogs.com/sunli/ 更新时间:2010-08-24]
sns系统,微博系统都应用到了feed(每条微博或者sns里的新鲜事等我们称作feed)系统,不管是twitter.com或者国内的新浪微博,人人网等,在各种技术社区,技术大会上都在分享自己的feed架构,也就是推拉模式(timyang上次也分享了新浪微薄的模式)。下面我们就微博的feed推拉(push,pull)模式做一下探讨,并提出新的时间分区拉模式。
众所周知,在微博中,当你发表一篇微博,那么所有关注你的followers(粉丝)都会在一定的时间内收到你的微薄,这有点像群发一封邮件,所有的抄送者都会在一定的时间内收到。到这里,你可能觉得没有什么难度。我们看下下面的截图:
图一:新浪微博姚晨
图二:twitter上冯大辉
新浪微博的姚晨粉丝有2594751,她发表任何一篇微博,都需要2594751个粉丝在一定的时间内收到,twitter的冯大辉发表一篇的话,需要19868个followers收到。
相反,姚晨需要收到他关注的545个人的所有更新,冯大辉需要收到他关注的2525个人的所有更新。到这里,你是不是感觉到有那么一点点小挑战呢?
下面我们看下微博一般的整体结构图:
图三:微博整体结构
图中展示了微博的整体数据流程,先了解下整体的数据结构,没有涉及到followers等的推拉模式处理。下面我们再看下推模式(push):
图四:推模式结构
推模式需要把一篇微博推送给所有关注他的人(推给所有的粉丝),比如姚晨,我们就需要推送给2594751个用户的feeds表中。当然,feeds表可以很好的进行sharding,存储也都是一些数字型的字段,存储空间可能不是很大,用户在查询自己关注的所有人的feed时,速度快,性能非常高,但是推送量会非常大,姚晨发表一篇,就会产生200多万条数据。试想,一个大量用户的微薄系统通过使用推模式,是不是会产生非常惊人的数据呢?
下面看下拉模式(pull)
图五:拉模式
拉模式只需要用户发表微博时,存储一条微博数据到feeds表中(feeds表可以是一个临时表,只保存近期可接受范围的数据).用户每次查询feed时都会去查询feeds表。比如姚晨打开自己的微薄首页,就产生:SELECT id FROM feeds where uid in(following uid list) ORDER BY id DESC LIMIT n(查询最新的n条),缓存到memcached
uidlist=>{data:id list,timeline:上次查询出来的最新的一条数据的时间}
再次刷新:SELECT id FROM feeds where uid in(following uid list) AND timeline>(memcached存储的上次的timeline) ORDER BY id DESC LIMIT n
这种模式实现起来也是比较简单和容易的,只是在查询的时候需要多考虑下缓存的结构。但是feeds表会产生很大的压力,怎么说feeds表也要保存最近十天半个月的数据吧,对于一个大点的系统,这会产生比较大的数据,如果following的人数比较多,数据库的压力就会非常大。而且一般在线的用户,客户端都会定期扫描,又会增加很大的压力,这在查询性能上没有推模式的效率高。
下面我们在对拉模式做一下改进优化
图六:拉模式(pull)-改进(时间分区拉模式)
拉模式的改进主要是在feeds的存储上,使用按照时间进行分区存储。分为最近时间段(比如最近一个小时),近期的,比较长时期等等。我们再来看下查询的流程,比如姚晨登陆微博首页,假设缓存中没有任何数据,那么我们可以查询比较长时期的feeds表,然后进入缓存。下一次查询,通过查询缓存中的数据的 timeline,如果timeline还在最近一个小时内,那么只需要查询最近一个小时的数据的feed表,最近一个小时的feeds表比图四的 feeds表可要小很多,查询起来速度肯定快几个数量级了。
改进模式的重点在于feeds的时间分区存储,根据上次查询的timeline来决定查询应该落在那个表。一般情况下,经常在线的用户,频繁使用的客户端扫描操作,经常登录的用户,都会落在最近的feeds表区间,查询都是比较高效的。只有那些十天,半个月才登录一次的用户需要去查询比较长时间的 feeds大表,一旦查询过了,就又会落在最近时间区域,所以效率也是非常高的。
关于时间的分区,需要根据数据量,用户访问特点进行一个合理的切分。如果数据发表量非常大,可以进行更多的分区。
上面介绍的推模式和拉模式都有各自的特点,个人觉得时间分区拉模式弥补了图四的拉模式的很大的不足,是一个成本比较低廉的解决方案。当然,时间分区拉模式也可以结合推模式,根据某些特点来增加系统的性能。
后记:本文的目的是介绍时间分区拉模式,本人对新浪微博和twitter等的推拉模式的细节并不清楚。
- 大小: 169.5 KB
- 大小: 87.4 KB
- 大小: 106 KB
- 大小: 116 KB
- 大小: 121.3 KB
- 大小: 55.7 KB
分享到:
相关推荐
【Java简单微博系统】是一个基于JavaEE平台开发的社交网络服务(SNS)应用,它提供了丰富的社交媒体功能,包括好友关系管理、粉丝关注、信息发布、帖子转发、评论互动以及内容收藏和搜索等功能。这个系统适合初学者...
记事狗微博系统是一套创新的互动社区系统,其以微博为核心,兼有轻博、SNS和BBS特点,既可用来独立建站也可通过Ucenter和oauth接口与已有网站无缝整合,通过微博评论模块、关注转发机制打通全站的信息流、关系流,可...
朋友圈、微吧、话题、频道、找伙伴、商城、活动、资讯、找人、地图定位、风云榜附近的人等50多个功能板块,全方位覆盖SNS系统所需,让网站、应用建设更快捷,让系统开发更简单。 ThinkSNS全方位提供网站开发|移动端...
记事狗微博源码 V3.0.0beta Build20110916 记事狗微博系统V3.0版本兼有轻博的多图和长文功能、SNS的导航架构优势、BBS的推荐和置顶特点,让发布更简单、查看更方便、互动更便捷,新版还内置API体系和插件机制,让...
路过插件.开源sns必备插件。
记事狗微博系统是一套创新的互动社区系统,其以微博为核心,兼有轻博、SNS和BBS特点,既可用来独立建站也可通过Ucenter和oauth接口与已有网站无缝整合,通过微博评论模块、关注转发机制打通全站的信息流、关系流,可...
总的来说,Feed系统在SNS中扮演着关键角色,它需要处理海量数据,满足不同设备和场景的需求,同时保证在高并发和突发流量下的稳定运行。通过不断优化和创新,Feed系统能够提供更加个性化和及时的用户体验,从而增强...
在容灾建设上,腾讯微博构建了全面的容灾系统,通过运维快速响应机制、开发效率的提升以及数据挖掘技术,保障了系统的稳定性和服务的连续性。核心策略包括高可靠性核心服务的构建、灰度发布流程的实施,以及分布式活...
目前支持:新浪微博、腾讯微博、搜狐微博、网易微博、百度说吧、移动微博、嘀咕、饭否、做啥、人间网、天涯微博、人民微博、新华微博、Google Buzz、豆瓣、凤凰微博、QQ空间、开心网、人人...,共20多家微博及SNS网站...
记事狗是一套创新的互动社区系统,其以微博为核心,兼有轻博、SNS和BBS特点,既可用来独立建站也可通过Ucenter与已有网站无缝整合,通过微博评论模块、关注转发机制打通全站的信息流、关系流,可大幅度提高网站用户...
JEESNS是一款基于JAVA企业级平台研发的社交管理系统,依托企业级JAVA的高效、安全、稳定等优势,开创国内JAVA版开源SNS先河,JEESNS可以用来搭建门户、群组、论坛、微博和问答等知识付费社区平台系统。 JEESNS是将...
微博的本质和SNS(社交网络服务)的关系是一个经常被讨论的话题。从提供的内容来看,我们可以深入理解这两者的差异和联系。 首先,SNS,即Social Network Service,是一种旨在帮助人们建立和扩展人际关系的网络服务...
而在中国,除了新浪官方的微博服务,还有一款名为ThinkSNS的开源社交网络系统,它以强大的功能和高度的可定制性,受到了众多开发者和企业的青睐。本文将对这款仿新浪微博程序——ThinkSNS进行深入探讨。 ThinkSNS,...
开放平台是指允许第三方开发者创建应用程序并与该平台的数据和服务集成的系统。 ##### 6.2 Facebook开放平台 - 面向应用:应用程序可以在平台上拥有自己的地位和权限。 - 接口功能包括但不限于获取用户个人信息、...
【标题】:"T版层次...综上所述,层次分析模型在微博与SNS社交网站的应用,不仅提供了对用户特征的深入洞察,也为平台的发展战略提供了数据支持和理论依据,对于理解社交媒体的用户行为和推动行业发展具有重要价值。
新浪微博作为一个广受欢迎的SNS平台,它的数据挖掘及可视化研究具有很高的学术和实际应用价值。 #### 社团管理系统设计与实现 随着高校学生社团数量的激增和形式的多样化,传统的社团管理方式已经无法满足管理需求...