扩展Facebook到5亿用户以及以上
By Robert Johnson Translated By Jametong
今天对Facebook来讲,我们达到了Facebook的一个非常重要的里程碑-5亿的用户数.这对于我们这些从事技术与运维的工程师来讲尤其令人激动,是我们构建了有能力处理如此巨大规模的增长的系统.当我在4年前来到Facebook的时候,我们有700万用户(在当时看似已经是非常的数量了),这一路走来遇到的挑战远远超出我们的想像.
下面是我们处理的部分大数字(the Big Numbers):
- 5个亿的活跃用户数
- 每天1000亿的点击数
- 500亿的图片数
- 2万亿的缓存对象,每秒亿级的请求数
- 每天130TB的日志量
这些年,我们在此页面写了部分关于我们如何处理这么大规模数据的技术方案.今天,我将退后一步,来谈谈一些我们关于扩展(Scaling)的常用方法,以及部分我们用来解决此类扩展性问题的原则.如在Facebook本身一样,这些原则既涉及到技术也涉及到人.实际上,下面将要讨论的原则只有部分是完全技术相关的.在这一天结束的时候,是这些构建此系统并使其运转的人,我们用来扩展这些系统的最佳工具是我们可以处理任何问题的技术与运营团队.我最感到自豪的扩展统计指标是我们的每个工程师可以服务100万的用户,并且这个指标还在稳定地增长.

纵向扩展
它不是万能的,不过,它确实很重要.如果什么东西出现了爆发性的增长,处理它的唯一明智可行的方法就是将其分布到任意多数量的机器上.切记,计算机世界只有三个数字:0,1和n.
例如,考虑这样一种情况,用户数据库无法处理此负载.我们可以将其拆分成两个功能-比如说,账户与概要—并将他们放到不同的数据库中.这可能耗费掉我们一整天的时间,不过,也可能需要花费更多的工作,而且它只能扩展到两倍的容量.一旦完成此项工作,我们还必须开始下一步新的工作,而且下一步的工作会更加困难.相反,我们可以花费部分额外的时间来编写代码,以解决当两个用户不在同一个数据库中的情况.这可能比将代码拆成两半要耗费更多的工作时间,不过它可以在后续的很长时间都给我们带来收益.
注意,这样做并不会提高效率,实际上,它可能让情况变得更糟糕.效率是非常重要的,但是,我们认为它与扩展性(Scaling)是相互独立的项目.
快速响应
如果你查看我们的增长曲线,你将发现不到它有平稳的时候.我们从来就没有坐下来深呼吸、自我恭维一番、并考虑下一步该如何做的时间.每周,我们都会遭遇更大的挑战.
当然,我们对此图的最终走向有不错的注意,但是,每个规模级别上都会有惊喜.我们可用来处理这些惊喜的最佳方式是,拥有可以灵活应对并快速解决问题的技术与运维团队.快速响应也使得我们可以尝试更多的事情,来检验哪个才是在实践中真正可用的.我们发现,保持这种灵活性要远远比任何其他技术决定来的重要.
渐进变更
我们发现,保持快速移动的最好方式是进行大量的小的变更,并衡量做了这些变更后系统的反应.这并不意味着我们不去做大事,它仅仅表示只要有可能,我们都将其拆分成大量的独立的小块.与此相反,很多开发哲学尝试做批量变更.
即使有些东西无法在功能上对其进行拆分,我们也尝试逐步地推出.这可能意味着一次迁移一部分用户或者一部分机器,甚或构建一个与老系统完全并行的系统,并在我们衡量效果的时候缓慢地将流量切换过来.
渐进变更的伟大之处在于,只要有东西与你期望的不一致,你立刻就能发现.与直觉不同,这样做最终让保持系统稳定变更更加容易.
当生产环境有问题时,修复它的最困难的部分可能就是问题定位了.如果只有一个变更的话,问题的定位就简单多了.在传统模型中,当你有几个星期甚至几个月的变更一起生效时,定位具体哪个变更导致了问题可能是个梦魇.
度量一切
只有当你确实有能力监控系统在做什么时,你才可以做大量的小的变更,并监控系统在做什么.在Facebook,我们收集巨量的数据,任一特定的服务器都会输出几十上百个可制作成图表的指标.这不仅仅包含类似于CPU与内存等系统级别的内容,还包含应用级别的统计信息,我们可以据此判断为什么发生这样的事情.
当他们有问题时(真正有趣的问事情只会出现在生产环境),统计信息来自真实的发生问题的生产环境机器这一点非常重要.这些统计必须来自所有的机器,因为大量重要的影响都被平均数隐藏了,只是出现在分布图上,特别是95%或99%的百分位上.
我们构建了多个用来收集、分析这些数据的工具,并已经将它们发布到了开源社区,其中包含Hive与Scribe.
小而独立的团队
当我开始在Facebook工作时,我是图片处理模块团队的两个人之一.这很疯狂,但是,现在我们已经是一个”大”公司了.我们图片处理模块有三个人.我们每个人都了解图片处理模块的所有底细,都可以独立地做相关决定.因此,当需要对图片处理模块做什么变更时,都可以快速而准确地做好此变更.

控制权与责任
如果没有开发与运营团队地无缝合作,以及他们如同事一个团队一样的去解决问题,上述原则都将无法实施.对于这一点,说易行难,但是,我们有一个非常有用的基本原则.
对一件事情负责的人必须对这件事有控制权.
这一点看似非常明显,但实际情况通常不是这样.经典的例子是一个人发布另一个人写的代码.发布代码的人好像对此负责,但实际上是写这个代码的对此有控制权.这就将发布此代码的人置于一个艰难的境地,他们仅有的选择是要么发布此代码,要么对冒险对可能出现的问题承担责任,因此,他们有强烈的动机拒绝发布.另一方面,如果写此代码的人感觉自己并不负责此功能是否有效,这个功能很可能就无法有效工作.
在Facebook,我们每天都会往网站发布代码,是写这些代码的人对此具体负责.看到自己创建的东西被5亿的人使用是令人振奋并震撼人心的.看到它出问题就更加震撼人心了. 关于如果给这5亿的用户带来伟大的软件,我们所知道的最好的方式是让对此事的重要性有深刻理解,对此事有深刻理解并有控制权的人来做正确的决定.
5亿之外
我们非常自豪,我们创建了一个5亿人想要使用的网站,这个5亿人正在使用的网站仍然在工作.但这确实仅仅是一个开始. 我们希望在不远的将来,我们会有另外5个亿的用户,这些原则将帮助我们克服后面将要面对的任何新的挑战.
Bobby, 技术总监, 比他4年前对大数字(Big Numbers)有了完全不同的理解.
相关推荐
内容概要:本文详细介绍了如何利用威纶通触摸屏及其配套软件EasyBuilder Pro构建一个水箱液位控制的PID仿真程序。主要内容涵盖触摸屏界面设计、PID算法实现、通信配置以及仿真模型搭建等方面。文中不仅提供了具体的代码示例,还分享了许多调试经验和优化技巧,如抗积分饱和处理、通信同步设置等。此外,作者还强调了实际应用中的注意事项,例如参数范围限制、突发情况模拟等。 适合人群:从事工业自动化领域的工程师和技术人员,尤其是对PID控制器有一定了解并希望深入掌握其实际应用的人群。 使用场景及目标:适用于需要进行水箱液位控制系统设计、调试和优化的工作环境。主要目标是帮助读者理解和掌握PID控制的基本原理及其在实际工程项目中的具体实现方法。 其他说明:附带完整的工程文件可供下载,便于读者快速上手实践。文中提到的所有代码片段均经过实际验证,确保可靠性和实用性。
内容概要:《2024年中国城市低空经济发展指数报告》由36氪研究院发布,指出低空经济作为新质生产力的代表,已成为中国经济新的增长点。报告从发展环境、资金投入、创新能力、基础支撑和发展成效五个维度构建了综合指数评价体系,评估了全国重点城市的低空经济发展状况。北京和深圳在总指数中名列前茅,分别以91.26和84.53的得分领先,展现出强大的资金投入、创新能力和基础支撑。低空经济主要涉及无人机、eVTOL(电动垂直起降飞行器)和直升机等产品,广泛应用于农业、物流、交通、应急救援等领域。政策支持、市场需求和技术进步共同推动了低空经济的快速发展,预计到2026年市场规模将突破万亿元。 适用人群:对低空经济发展感兴趣的政策制定者、投资者、企业和研究人员。 使用场景及目标:①了解低空经济的定义、分类和发展驱动力;②掌握低空经济的主要应用场景和市场规模预测;③评估各城市在低空经济发展中的表现和潜力;④为政策制定、投资决策和企业发展提供参考依据。 其他说明:报告强调了政策监管、产业生态建设和区域融合错位的重要性,提出了加强法律法规建设、人才储备和基础设施建设等建议。低空经济正加速向网络化、智能化、规模化和集聚化方向发展,各地应找准自身比较优势,实现差异化发展。
内容概要:本文详细介绍了多智能体协同编队控制的技术原理及其Python实现。首先通过生动形象的例子解释了编队控制的核心概念,如一致性算法、虚拟结构法、预测补偿等。接着深入探讨了编队形状的设计方法,包括如何利用虚拟结构法生成特定编队形状,并讨论了通信质量和参数调试的重要性。此外,还涉及了避障策略、动态权重分配以及故障检测等实际应用中的挑战和解决方案。最后,通过具体实例展示了如何将理论应用于实际项目中,如无人机编队表演、自动驾驶车队等。 适用人群:对多智能体系统、编队控制感兴趣的科研人员、工程师及高校师生。 使用场景及目标:适用于研究和开发多智能体协同编队控制系统的场景,旨在帮助读者理解并掌握相关技术和实现方法,提高系统的稳定性和可靠性。 其他说明:文中不仅提供了详细的代码示例,还分享了许多实践经验和技术细节,有助于读者更好地理解和应用这些技术。同时强调了参数调试、通信质量、预测补偿等方面的关键因素对于系统性能的影响。
内容概要:本文详细介绍了名为'MPC_ACC_2020-master'的四旋翼飞行器模型预测跟踪控制器(Matlab实现)。四旋翼飞行器由于其高度非线性和强耦合特性,在复杂环境中难以实现精准控制。模型预测控制(MPC)通过预测未来状态并在每一步进行在线优化,解决了这一难题。文中展示了关键代码片段,解释了系统参数定义、初始化、预测模型构建、成本函数构建、优化求解及控制输入的应用。此外,还探讨了MPC_ACC_2020-master如何通过精心设计的成本函数和优化算法确保四旋翼飞行器状态收敛到设定点。 适合人群:从事飞行器控制领域的研究人员和技术爱好者,尤其是对模型预测控制感兴趣的开发者。 使用场景及目标:适用于四旋翼飞行器的轨迹跟踪任务,旨在提高飞行器在复杂环境下的稳定性与准确性。具体应用场景包括但不限于无人机竞速、自动巡航、物流配送等。 其他说明:尽管该项目主要用于科研目的,但其简洁高效的代码结构也为实际工程应用提供了良好借鉴。同时,项目中存在一些待改进之处,如状态估计部分未考虑真实情况下的噪声干扰,后续版本计划移植到C++并集成进ROS系统。
内容概要:本文探讨了基于MATLAB2020b平台,采用CNN-LSTM模型结合人工大猩猩部队(GTO)算法进行电力负荷预测的方法。首先介绍了CNN-LSTM模型的基本结构及其在处理多变量输入(如历史负荷和气象数据)方面的优势。随后详细解释了如何通过GTO算法优化超参数选择,提高模型预测精度。文中展示了具体的MATLAB代码示例,包括数据预处理、网络层搭建、训练选项设定等方面的内容,并分享了一些实践经验和技术细节。此外,还讨论了模型的实际应用效果,特别是在某省级电网数据上的测试结果。 适合人群:从事电力系统数据分析的研究人员、工程师,以及对深度学习应用于时间序列预测感兴趣的开发者。 使用场景及目标:适用于需要精确预测未来电力负荷的情况,旨在帮助电力公司更好地规划发电计划,优化资源配置,保障电网安全稳定运行。通过本研究可以学习到如何构建高效的CNN-LSTM模型,并掌握利用GTO算法进行超参数优化的具体步骤。 其他说明:文中提到的一些技巧和注意事项有助于避免常见错误,提高模型性能。例如,合理的数据预处理方式、适当的超参数范围设定等都能显著改善最终的预测效果。
数据集一个高质量的医学图像数据集,专门用于脑肿瘤的检测和分类研究以下是关于这个数据集的详细介绍:该数据集包含5249张脑部MRI图像,分为训练集和验证集。每张图像都标注了边界框(Bounding Boxes),并按照脑肿瘤的类型分为四个类别:胶质瘤(Glioma)、脑膜瘤(Meningioma)、无肿瘤(No Tumor)和垂体瘤(Pituitary)。这些图像涵盖了不同的MRI扫描角度,包括矢状面、轴面和冠状面,能够全面覆盖脑部解剖结构,为模型训练提供了丰富多样的数据基础。高质量标注:边界框是通过LabelImg工具手动标注的,标注过程严谨,确保了标注的准确性和可靠性。多角度覆盖:图像从不同的MRI扫描角度拍摄,包括矢状面、轴面和冠状面,能够全面覆盖脑部解剖结构。数据清洗与筛选:数据集在创建过程中经过了彻底的清洗,去除了噪声、错误标注和质量不佳的图像,保证了数据的高质量。该数据集非常适合用于训练和验证深度学习模型,以实现脑肿瘤的检测和分类。它为开发医学图像处理中的计算机视觉应用提供了坚实的基础,能够帮助研究人员和开发人员构建更准确、更可靠的脑肿瘤诊断系统。这个数据集为脑肿瘤检测和分类的研究提供了宝贵的资源,能够帮助研究人员开发出更准确、更高效的诊断工具,从而为脑肿瘤患者的早期诊断和治疗规划提供支持。
内容概要:本文详细介绍了STM32F103的CAN通讯和IAP升级Bootloader的源码实现及其硬件设计。首先,针对CAN通讯部分,文章深入探讨了CAN外设的初始化配置,包括波特率、位时间、过滤器等重要参数的设置方法,并提供了一段完整的初始化代码示例。接着,对于IAP升级Bootloader,文中讲解了通过CAN总线接收HEX文件并写入Flash的具体实现步骤,以及如何安全地从Bootloader跳转到应用程序。此外,文章还附上了原理图和PCB文件,有助于理解和优化硬件设计。最后,作者分享了一些实用的调试技巧和注意事项,如终端电阻的正确使用、CRC校验的应用等。 适合人群:嵌入式系统开发者、硬件工程师、从事STM32开发的技术人员。 使用场景及目标:适用于正在开发STM32相关项目的工程师,尤其是那些需要实现CAN通讯和固件在线升级功能的人群。通过学习本文提供的源码和技术要点,可以帮助他们快速掌握相关技能,提高开发效率。 其他说明:本文不仅提供了详细的代码示例,还包含了丰富的实践经验分享,能够帮助读者更好地理解和解决实际开发中遇到的问题。
工具集语音、监控、摄像头、画笔等功能于一体!清晰语音录入,确保声画同步;监控级画面录制,操作细节无遗漏;摄像头多视角呈现,让内容更生动。录制时,画笔可标注重点,快速传递关键信息。自带视频播放,无需第三方;快捷键操作便捷,录制高效。强大解码器兼容多格式,不同设备随心播放。无论是教学、办公还是创作
内容概要:本文详细介绍了西门子S7-1500 PLC在制药厂洁净空调建筑管理系统(BMS)中的应用案例。重点讨论了硬件配置(1500 CPU + ET200SP分布式IO)、温湿度控制策略(串级PID、分程调节)、以及具体的编程实现(SCL语言)。文中分享了多个技术细节,如PT100温度采集、PID控制算法优化、报警管理和HMI界面设计等。此外,作者还提到了一些调试过程中遇到的问题及其解决方案,如PID_Compact块的手动模式设定值跳变问题、博图V15.1的兼容性问题等。 适合人群:从事工业自动化领域的工程师和技术人员,特别是那些对PLC编程、温湿度控制和洁净空调系统感兴趣的读者。 使用场景及目标:适用于制药厂或其他对温湿度控制要求严格的行业。主要目标是确保洁净空调系统的高效运行,将温湿度波动控制在极小范围内,保障生产环境的安全性和稳定性。 其他说明:本文不仅提供了详细的编程代码和硬件配置指南,还分享了许多实践经验,帮助读者更好地理解和应用相关技术。同时,强调了在实际项目中需要注意的关键点和潜在问题。
2025年6G近场技术白皮书2.0.pdf
少儿编程scratch项目源代码文件案例素材-Frogeon.zip
2025年感知技术十大趋势深度分析报告.pdf
内容概要:本文详细介绍了一种用于解决车间调度问题的遗传算法(Matlab实现),即JSPGA。文章首先介绍了遗传算法的基本概念及其在车间调度问题中的应用场景。接着,作者展示了完整的Matlab源码,包括参数设置、种群初始化、选择、交叉、变异、适应度计算以及结果输出等模块。文中还特别强调了适应度计算方法的选择,采用了最大完工时间的倒数作为适应度值,并通过三维甘特图和迭代曲线直观展示算法性能。此外,文章提供了多个调参技巧和改进方向,帮助读者更好地理解和应用该算法。 适合人群:对遗传算法感兴趣的研究人员、工程师以及希望深入理解车间调度问题求解方法的技术爱好者。 使用场景及目标:适用于需要优化多台机器、多个工件加工顺序与分配的实际工业生产环境。主要目标是通过遗传算法找到最优或近似最优的调度方案,从而减少最大完工时间,提高生产效率。 其他说明:文章不仅提供了详细的理论解释和技术细节,还包括了大量实用的代码片段和图表,使读者能够轻松复现实验结果。同时,作者还分享了一些个人经验和建议,为后续研究提供了有价值的参考。
内容概要:本文深入探讨了永磁同步电机(PMSM)的最大转矩电流比(MTPA)控制算法,并详细介绍了基于Simulink的仿真模型设计。首先,文章阐述了PMSM的数学模型,包括电压方程和磁链方程,这是理解控制算法的基础。接着,解释了矢量控制原理,通过将定子电流分解为励磁电流和转矩电流分量,实现对电机的有效控制。随后,重点讨论了MTPA控制的目标和方法,即在限定电流条件下最大化转矩输出。此外,文章还涉及了前馈补偿、弱磁控制和SVPWM调制等关键技术,提供了具体的实现代码和仿真思路。最后,通过一系列实验验证了各控制策略的效果。 适合人群:从事电机控制系统设计的研究人员和技术人员,尤其是对永磁同步电机和Simulink仿真感兴趣的工程师。 使用场景及目标:适用于希望深入了解PMSM控制算法并在Simulink环境中进行仿真的技术人员。主要目标是掌握MTPA控制的核心原理,学会构建高效的仿真模型,优化电机性能。 其他说明:文中不仅提供了详细的理论推导,还有丰富的代码示例和实践经验,有助于读者快速理解和应用相关技术。同时,强调了实际工程中常见的问题及解决方案,如负载扰动、弱磁控制和SVPWM调制等。
内容概要:本文详细介绍了三机并联的风光储混合系统在Matlab中的仿真方法及其关键技术。首先,针对光伏阵列模型,讨论了其核心二极管方程以及MPPT(最大功率点跟踪)算法的应用,强调了环境参数对输出特性的影响。接着,探讨了永磁同步风机的矢量控制,尤其是转速追踪和MPPT控制策略。对于混合储能系统,则深入讲解了超级电容和蓄电池的充放电策略,以及它们之间的协调机制。此外,还涉及了PQ控制的具体实现,包括双闭环结构的设计和锁相环的优化。最后,提供了仿真过程中常见的问题及解决方案,如求解器选择、参数敏感性和系统稳定性等。 适合人群:从事电力电子、新能源系统设计与仿真的工程师和技术人员,以及相关专业的研究生。 使用场景及目标:适用于希望深入了解风光储混合系统工作原理的研究人员,旨在帮助他们掌握Matlab仿真技巧,提高系统设计和优化的能力。 其他说明:文中不仅提供了详细的理论推导和代码示例,还分享了许多实践经验,有助于读者更好地理解和应用所学知识。
本书由国际发展研究中心(IDRC)和东南亚研究院(ISEAS)联合出版,旨在探讨亚洲背景下电子商务的发展与实践。IDRC自1970年起,致力于通过科学技术解决发展中国家的社会、经济和环境问题。书中详细介绍了IDRC的ICT4D项目,以及如何通过项目如Acacia、泛亚网络和泛美项目,在非洲、亚洲和拉丁美洲推动信息通信技术(ICTs)的影响力。特别强调了IDRC在弥合数字鸿沟方面所作出的贡献,如美洲连通性研究所和非洲连通性项目。ISEAS作为东南亚区域研究中心,专注于研究该地区的发展趋势,其出版物广泛传播东南亚的研究成果。本书还收录了电子商务在亚洲不同国家的具体案例研究,包括小型工匠和开发组织的电子商务行动研究、通过互联网直接营销手工艺品、电子营销人员的创新方法以及越南电子商务发展的政策影响。
2025工业5G终端设备发展报告.pdf
内容概要:本文档《Java经典面试笔试题及答案.docx》涵盖了广泛的Java基础知识和技术要点,通过一系列面试题的形式,深入浅出地讲解了Java的核心概念。文档内容包括但不限于:变量的声明与定义、对象序列化、值传递与引用传递、接口与抽象类的区别、继承的意义、方法重载的优势、集合框架的结构、异常处理机制、线程同步、泛型的应用、多态的概念、输入输出流的使用、JVM的工作原理等。此外,还涉及了诸如线程、GUI事件处理、类与接口的设计原则等高级主题。文档不仅解释了各个知识点的基本概念,还提供了实际应用场景中的注意事项和最佳实践。 适合人群:具备一定Java编程基础的学习者或开发者,特别是准备参加Java相关岗位面试的求职者。 使用场景及目标:①帮助读者巩固Java基础知识,提升对Java核心技术的理解;②为面试做准备,提供常见面试题及其详细解答;③指导开发者在实际项目中应用Java的最佳实践,优化代码质量和性能。 其他说明:文档内容详实,涵盖了Java开发中的多个方面,从基础语法到高级特性均有涉及。建议读者在学习过程中结合实际编程练习,加深对各个知识点的理解和掌握。同时,对于复杂的概念和技术,可以通过查阅官方文档或参考书籍进一步学习。
内容概要:本文详细介绍了如何利用MATLAB将预训练的深度学习模型(如ResNet50、YOLOv2和LaneNet)转化为高效的C++代码,并部署到嵌入式系统中。首先,通过ResNet50展示了图像分类任务的代码生成流程,强调了输入图像的预处理和归一化步骤。接着,YOLOv2用于车辆检测,讨论了anchor box的可视化及其优化方法,特别是在Jetson Nano平台上实现了显著的速度提升。最后,LaneNet应用于车道线识别,探讨了实例分割和聚类算法的实现细节,以及如何通过OpenMP和CUDA进行性能优化。文中还提供了多个实用技巧,如选择合适的编译器版本、处理自定义层和支持动态输入等。 适合人群:具有一定MATLAB和深度学习基础的研发人员,尤其是关注嵌入式系统和高性能计算的应用开发者。 使用场景及目标:适用于希望将深度学习模型高效部署到嵌入式设备的研究人员和工程师。主要目标是提高模型推理速度、降低内存占用,并确保代码的可移植性和易维护性。 其他说明:文中不仅提供了详细的代码示例和技术细节,还分享了许多实践经验,帮助读者避免常见的陷阱。此外,还提到了一些高级优化技巧,如SIMD指令集应用和内存管理策略,进一步提升了生成代码的性能。
内容概要:本文详细介绍了如何利用MATLAB进行综合能源系统的优化建模,特别是将需求响应和碳交易机制融入其中。首先,文章展示了购能成本计算、燃气锅炉成本以及需求响应(包括价格型和替代型)的具体实现方法。接着,深入探讨了碳交易机制的实现,如碳配额分配、实际碳排放计算及其成本核算。此外,文章还提供了四个典型场景的实现方法,通过调整不同的边界条件来模拟各种实际情况。最后,讨论了一些常见的编程技巧和注意事项,如使用YALMIP工具箱、CPLEX求解器的配置等。 适用人群:适用于从事综合能源系统研究和技术开发的专业人士,尤其是那些对MATLAB编程有一定基础的研究人员和工程师。 使用场景及目标:①帮助研究人员理解和实现综合能源系统的优化模型;②探索需求响应和碳交易机制对能源系统调度的影响;③提供实用的编程技巧和优化建议,提高模型的准确性和求解效率。 其他说明:文中提供的代码片段和编程技巧对于实际工程项目具有很高的参考价值,能够显著提升模型的灵活性和实用性。同时,文章还提到了一些潜在的改进方向,如引入更多类型的能源转换设备和优化算法。