微博feed系统的推(push)模式和拉(pull)模式和时间分区拉模式架构探讨
[文章作者:孙立 链接:http://www.cnblogs.com/sunli ]
sns系统,微博系统都应用到了feed(每条微博或者sns里的新鲜事等我们称作feed)系统,不管是twitter.com或者国内的新浪微博,人人网等,在各种技术社区,技术大会上都在分享自己的feed架构,也就是推拉模式(timyang上次也分享了新浪微薄的模式)。下面我们就微博的feed推拉(push,pull)模式做一下探讨,并提出新的时间分区拉模式。
众所周知,在微博中,当你发表一篇微博,那么所有关注你的followers(粉丝)都会在一定的时间内收到你的微薄,这有点像群发一封邮件,所有的抄送者都会在一定的时间内收到。到这里,你可能觉得没有什么难度。我们看下下面的截图:
图一:新浪微博姚晨
图二:twitter上冯大辉
新浪微博的姚晨粉丝有2594751,她发表任何一篇微博,都需要2594751个粉丝在一定的时间内收到,twitter的冯大辉发表一篇的话,需要19868个followers收到。
相反,姚晨需要收到他关注的545个人的所有更新,冯大辉需要收到他关注的2525个人的所有更新。到这里,你是不是感觉到有那么一点点小挑战呢?
下面我们看下微博一般的整体结构图:
图三:微博整体结构
图中展示了微博的整体数据流程,先了解下整体的数据结构,没有涉及到followers等的推拉模式处理。下面我们再看下推模式(push):
图四:推模式结构
推模式需要把一篇微博推送给所有关注他的人(推给所有的粉丝),比如姚晨,我们就需要推送给2594751个用户的feeds表中。当然,feeds表可以很好的进行sharding,存储也都是一些数字型的字段,存储空间可能不是很大,用户在查询自己关注的所有人的feed时,速度快,性能非常高,但是推送量会非常大,姚晨发表一篇,就会产生200多万条数据。试想,一个大量用户的微薄系统通过使用推模式,是不是会产生非常惊人的数据呢?
下面看下拉模式(pull)
图五:拉模式
拉模式只需要用户发表微博时,存储一条微博数据到feeds表中(feeds表可以是一个临时表,只保存近期可接受范围的数据).用户每次查询feed时都会去查询feeds表。比如姚晨打开自己的微薄首页,就产生:SELECT id FROM feeds where uid in(following uid list) ORDER BY id DESC LIMIT n(查询最新的n条),缓存到memcached
uidlist=>{data:id list,timeline:上次查询出来的最新的一条数据的时间}
再次刷新:SELECT id FROM feeds where uid in(following uid list) AND timeline>(memcached存储的上次的timeline) ORDER BY id DESC LIMIT n
这种模式实现起来也是比较简单和容易的,只是在查询的时候需要多考虑下缓存的结构。但是feeds表会产生很大的压力,怎么说feeds表也要保存最近十天半个月的数据吧,对于一个大点的系统,这会产生比较大的数据,如果following的人数比较多,数据库的压力就会非常大。而且一般在线的用户,客户端都会定期扫描,又会增加很大的压力,这在查询性能上没有推模式的效率高。
下面我们在对拉模式做一下改进优化
图五:拉模式(pull)-改进(时间分区拉模式)
拉模式的改进主要是在feeds的存储上,使用按照时间进行分区存储。分为最近时间段(比如最近一个小时),近期的,比较长时期等等。我们再来看下查询的流程,比如姚晨登陆微博首页,假设缓存中没有任何数据,那么我们可以查询比较长时期的feeds表,然后进入缓存。下一次查询,通过查询缓存中的数据的timeline,如果timeline还在最近一个小时内,那么只需要查询最近一个小时的数据的feed表,最近一个小时的feeds表比图四的feeds表可要小很多,查询起来速度肯定快几个数量级了。
改进模式的重点在于feeds的时间分区存储,根据上次查询的timeline来决定查询应该落在那个表。一般情况下,经常在线的用户,频繁使用的客户端扫描操作,经常登录的用户,都会落在最近的feeds表区间,查询都是比较高效的。只有那些十天,半个月才登录一次的用户需要去查询比较长时间的feeds大表,一旦查询过了,就又会落在最近时间区域,所以效率也是非常高的。
关于时间的分区,需要根据数据量,用户访问特点进行一个合理的切分。如果数据发表量非常大,可以进行更多的分区。
上面介绍的推模式和拉模式都有各自的特点,个人觉得时间分区拉模式弥补了图四的拉模式的很大的不足,是一个成本比较低廉的解决方案。当然,时间分区拉模式也可以结合推模式,根据某些特点来增加系统的性能。
后记:本文的目的是介绍时间分区拉模式,本人对新浪微博和twitter等的推拉模式的细节并不清楚。
分享到:
相关推荐
【微博Feed系统的推(push)模式和拉(pull)模式及时间分区拉模式架构探讨】 微博Feed系统是社交媒体平台的核心组成部分,它负责展示用户关注的人或事物的最新动态。推模式和拉模式是两种常见的实现方式,各有优缺点,...
综上所述,Facebook的News Feed架构是一个复杂而灵活的系统,它不仅需要处理海量数据,还需要不断适应新的技术和用户需求。通过采用先进的技术手段和策略,Facebook成功地构建了一个高效稳定的新闻推送系统,为全球...
内容概要:本文介绍了一种基于小生境粒子群算法的配电网有功-无功协调优化方法,旨在解决传统粒子群算法易陷入局部最优的问题。文中详细展示了MATLAB代码实现,重点介绍了小生境机制的应用,如动态调整小生境半径、自适应变异概率以及跨小生境信息交换等策略。此外,针对光伏出力波动,提出了滑动时间窗和平滑因子的方法来优化储能调度,确保电压稳定并降低网损。实验结果显示,在33节点测试系统上,网损降低12.7%,电压合格率提高8.3%,收敛速度快且稳定。 适合人群:电力系统研究人员、智能电网开发者、MATLAB编程爱好者。 使用场景及目标:适用于配电网优化调度,特别是含有大量分布式能源接入的场景。主要目标是提高电网运行效率,降低网损,保持电压稳定,优化储能调度。 其他说明:文中提供了详细的代码实现和参数配置建议,便于读者复现实验结果。同时,作者还分享了一些调试经验和技巧,帮助读者更好地理解和应用该算法。
内容概要:本文详细介绍了如何使用Matlab实现K-Means聚类算法,涵盖从数据加载、标准化、聚类执行到结果保存和可视化的完整流程。文中提供了具体的Matlab代码示例,解释了关键参数如聚类个数K的选择方法,以及如何通过肘部法则确定最佳K值。同时,强调了数据标准化的重要性,并给出了处理高维数据和保存结果的最佳实践。此外,还讨论了一些常见的错误及其解决方案,如数据未标准化导致的距离计算偏差等问题。 适合人群:具有一定编程基础并希望通过Matlab实现K-Means聚类算法的研究人员、学生和工程师。 使用场景及目标:适用于需要对数据进行无监督分类的场景,如市场细分、图像压缩、异常检测等。通过学习本文,读者能够掌握K-Means聚类的基本原理和实现方法,从而应用于实际数据分析任务。 其他说明:本文不仅提供完整的代码实现,还附带了许多实用的小技巧,如如何避免局部最优解、如何选择合适的K值、如何处理高维数据等。对于初学者来说,是一份非常有价值的参考资料。
内容概要:本文详细介绍了如何利用MATLAB及其内置的深度学习工具箱,采用一维卷积神经网络(CNN)构建单变量时间序列预测模型的方法。主要内容涵盖数据预处理(如标准化、滑动窗口构造)、模型架构设计(包括卷积层、池化层的选择)、训练参数设定以及结果可视化和性能评估等方面。文中特别强调了针对时间序列特性的优化措施,如调整卷积核大小、引入层标准化等,并提供了具体的代码示例。 适用人群:适用于具有一定MATLAB编程基础和技术背景的数据科学家、机器学习工程师或研究人员,尤其是那些希望探索除LSTM之外的时间序列预测方法的人群。 使用场景及目标:该方法可用于各种具有周期性特点的时间序列数据分析任务,如气象预报、能源消耗预测等领域。主要目标是提供一种高效、易实现的替代方案,在保证预测精度的同时提高模型训练效率。 其他说明:作者指出,虽然CNN在处理长时间依赖方面不如LSTM,但对于某些特定类型的短期时间序列预测任务,CNN能够取得令人满意的结果。此外,文中还分享了一些实践经验,如如何应对常见的预测误差问题,以及进一步提升模型性能的建议。
集体招聘总结.xls
内容概要:本文详细介绍了基于SMIC 0.18μm工艺的简单锁相环(PLL)电路的设计与实现。作者通过搭建一个由五个核心模块组成的PLL结构,帮助新手理解锁相环的工作原理。文中具体讲解了环形VCO、电荷泵、环路滤波器和分频器的设计细节及其优化技巧。例如,环形VCO采用7级电流饥饿型反相器串联,电荷泵使用最小尺寸开关管,环路滤波器为简单的RC网络,分频器则采用了经典÷32结构。此外,文章还分享了一些实用的调试经验和常见问题解决方案,如温度补偿、锁定时间和相位噪声的优化。 适用人群:初学者和有一定模拟电路基础的研发人员。 使用场景及目标:适用于希望深入了解锁相环工作原理和技术细节的学习者。通过动手实践,掌握PLL的基本设计流程和调试技巧,能够独立完成类似项目的初步设计。 其他说明:本文不仅提供了理论指导,还结合了大量的实战经验和具体的代码示例,使读者能够在实践中更好地理解和应用所学知识。
员工离职面谈记录表.doc
1、文件说明: Centos8操作系统tesseract-langpack-chi_tra-4.0.0-6.el8.rpm以及相关依赖,全打包为一个tar.gz压缩包 2、安装指令: #Step1、解压 tar -zxvf tesseract-langpack-chi_tra-4.0.0-6.el8.tar.gz #Step2、进入解压后的目录,执行安装 sudo rpm -ivh *.rpm
内容概要:本文详细介绍了AHC主动海浪补偿器在海洋平台及其相关装备中的应用。AHC作为一种智能‘稳定器’,通过实时监测海浪运动,利用先进的控制算法(如PID控制算法)和机械装置,主动调整平台或装备的位置,以抵消海浪的影响,确保相对稳定的作业环境。文中不仅探讨了控制算法的核心原理,还展示了具体的应用实例,如波浪补偿舷梯的设计与实现。此外,文章还涉及了传感器数据处理、执行机构控制等方面的内容,强调了AHC在保障海上作业安全和提高工作效率方面的重要作用。 适合人群:从事海洋工程、自动化控制领域的研究人员和技术人员,以及对智能控制系统感兴趣的读者。 使用场景及目标:适用于需要在复杂海洋环境中保持稳定性的各种海洋平台和装备。目标是通过理解和应用AHC技术,提高海上作业的安全性和效率。 其他说明:文章提供了多个代码示例,帮助读者更好地理解控制算法的具体实现。同时,文中提到了一些实际应用中的挑战和解决方案,如传感器数据同步、执行机构的响应速度等问题。
981ac-main.zip
内容概要:本文探讨了孤岛微电网二次控制领域的创新技术,重点介绍了下垂控制和动态事件触发机制的应用。下垂控制通过模拟传统同步发电机的外特性,依据功率-频率、电压-无功的下垂关系,实现分布式电源(DG)间的有功和无功功率分配。然而,单纯依靠下垂控制可能导致频率和电压偏差,因此引入了二次控制来消除这些偏差并提高电能质量。文中还提出了一种基于动态事件触发的二次控制策略,该策略只在系统状态变化达到一定程度时进行通信和控制动作,从而减少通信负担,提升系统效率。此外,文章展示了如何通过动态事件触发机制实现有功功率均分以及处理异步通信一致性问题,确保微电网系统的稳定运行。 适用人群:从事微电网研究和技术开发的专业人士,尤其是关注分布式能源系统优化的研究人员和工程师。 使用场景及目标:适用于希望优化孤岛微电网性能的研究项目,旨在通过创新的二次控制技术提高系统的频率和电压稳定性、功率分配均匀性和通信效率。 其他说明:文中提到的相关研究成果已在多篇学术文献中得到验证,感兴趣的读者可以通过参考文献进一步了解技术细节。
【制度】员工档案管理制度 (1).doc
内容概要:本文详细介绍了应用于电镀生产线的西门子S7-300 PLC控制系统的程序设计、硬件配置以及调试过程中积累的实际经验。主要内容涵盖温度控制、条码记录、行车定位、故障排查等方面的技术细节。文中展示了多个关键功能模块的具体实现方法,如PID温度控制、条码数据处理、行车定位判断等,并分享了一些实用的调试技巧和注意事项。此外,还讨论了硬件配置中的重要细节,如模块地址分配、网络拓扑设计等。 适合人群:从事自动化控制领域的工程师和技术人员,尤其是对PLC编程有一定基础的人群。 使用场景及目标:适用于需要深入了解和掌握电镀生产线自动化控制技术的专业人士。目标是帮助读者理解S7-300 PLC在电镀生产线中的具体应用,提高实际项目的开发效率和可靠性。 其他说明:文章不仅提供了详细的程序代码示例,还分享了许多来自一线的真实案例和实践经验,对于解决实际工程中的问题具有很高的参考价值。
员工生日关怀方案
内容概要:本文详细介绍了如何利用Python实现一个智能水泵控制系统,涵盖模式切换、故障自动投入、定时轮换和压力调节四大核心功能。首先,通过设置不同模式(如先停后启或先启后停)来满足特定应用场景的需求。其次,在故障自动投入方面,系统能够检测到水泵故障并迅速切换到备用泵,确保连续供水。再次,为了均衡水泵的工作负荷,系统定期进行定时轮换操作。最后,根据管道内的实时压力情况,系统可以自动调整工作的水泵数量,保持恒定的压力水平。此外,文中还讨论了如何通过配置文件灵活调整系统参数,以及采用PID简化版算法进行压力控制的方法。 适合人群:从事工业自动化领域的工程师和技术人员,尤其是对水泵控制有一定了解并希望深入研究的人士。 使用场景及目标:适用于需要精确控制多台水泵协同工作的工业环境,旨在提高系统的可靠性和效率,延长设备使用寿命,节约能源成本。 其他说明:文中提供了详细的代码示例,帮助读者更好地理解和实施所介绍的技术方案。同时强调了实际应用中的注意事项,如压力传感器的正确安装和预防措施等。
基于51单片机protues仿真的多功能万用表设计(仿真图、源代码、AD原理图、流程图) 数字多用表既可以测量电压,也可以测量电流、电阻,功能齐全,使用便捷。 本选题采用8位8路A/D转换器ADC0808和8051单片机设计一台数字多用表,能进行电压、电流和电阻的测量,测量结果通过LED数码管显示,通过安检进行测量功能转换。电压测量范围0~5V,测量误差约为±0.02V,电流测量范围为1~100mA,测量误差约为±0.5mA,电阻测量范围0~1000Ω,测量误差约为±2Ω。 1、通过按键设置测量模式; 2、电压采用直接测量方式;电流使用差压放大测量;电阻使用恒流源把阻值转换成电压。 预计难易程度:难度适中预计工作量大小:8周 1.熟练掌握单片机设计基本原理;熟悉8051单片机的工作原理; 2.熟练掌握Proteus软件的使用方法; 3.利用Proteus软件仿真实现数字多用表的测量功能。
员工关怀服务建议方案.doc
UniApp 是一个使用 Vue.js 开发所有前端应用的框架,开发者编写一次代码,可发布到 iOS、Android、Web(响应式)、以及各种小程序(微信/支付宝/百度/头条/飞书/QQ/快手/钉钉/淘宝)、快应用等多个平台。它结合了 Web 技术的开发便利性和原生应用的性能优势,是跨平台移动应用开发的热门选择。UniApp 是一个强大的跨平台开发框架,支持多种平台和设备。通过本文的介绍,你已经了解了 UniApp 的基本开发流程、开发技巧、实战案例以及常见问题的解决方案。希望这些内容能帮助你在 UniApp 开发中更加得心应手。