【转】揭秘Facebook背后的那些软件
2011-07-08 23:04
对于Facebook这样超大规模的网站,很多传统的解决方案根本不适用。Facebook工程师们面临的巨大挑战是保证一个近5亿活跃用户的网站一直稳定可靠地运行。他们是如何做到的呢,这篇文章将介绍一下他们所使用的软件和技术。
Facebook飞速发展面临的挑战
在进入讨论细节之前,先看下面的一些数据,也许让你对Facebook所面临的巨大挑战有一些直观的认识:
Facebook每月有5700亿页面浏览量
(据Google Ad Planner)。Facebook的照片量比其他所有图片网站加起来的还要多(包括Flickr等网站)。每个月超过30亿张照片
被上传。Facebook的系统每秒要处理120万张照片
。这还不包括CDN处理的照片。每月有超过25亿条内容
(状态更新,评论等)被共享。Facebook有超过30,000台服务器
(这是去年的数据!) Facebook飞速发展所依赖的软件
在某些程度上说,Facebook仍然是LAMP的站点,但为了能容纳很多其他的元素与服务,Facebook不得不对它们进行改进与扩展,并修改现行的一些做法。
例如:
Facebook
仍使用PHP,但为它建立了一个编译器,将PHP代码编译为在Web服务器上执行的本地代码,从而提高性能。Facebook使用Linux,但针对自己
的需求对Linux进行了优化,特别是网络吞吐量方面。Facebook使用MySQL,但主要是作为一个Key-value的持久性存储系统,而将连接
查询和逻辑操作放在Web服务器上进行,因为在那里更容易进行优化。
另外还有自已开发的系统,如Haystack,一个高度可扩展的对象存储系统,用来存储Facebook上巨量的照片。还有Scribe,一个可以运行在Facebook这种超大规模网站上的日志系统。
好,让我们来看看全球最大的社交网站所使用的软件吧。
Memcached
Memcached
是
当今互联网上最著名的软件之一。它是一个分布式的内存缓存系统,Facebook(包含其他很多网站)用它作为Web服务器和MySQL服务器之间的缓存
层(因为数据库访问相对比较慢)。多年来,Facebook已经对Memcached和它的周边软件进行了很多优化,比如对network
stack的优化。
Facebook每时每刻都有数10TB的数据缓存在数千台Memcached服务器上。它可能是世界上最大的Memcached服务器集群了。
HipHop for PHP

PHP作为一种脚本语言,和本地代码相比是运行缓慢的。HipHop
可以将PHP转换成C++代码,然后再进行编译,这样可以获得更好的性能。由于Facebook严重依赖PHP,所以通过HipHop可以让Web服务器的性能得到提高。
一个工程师小团队在Facebook(一开始只有三人)花了18个月时间开发HipHop,现在已经投入正式使用。
Haystack

Haystack
是Facebook的高性能图片存取系统(严格来说,是一个对象存储系统,因此它并不仅限于存储照片)。它工作繁忙;要管理超过200亿张上传的照片,并且每一片照片被保存为四种不同的分辨率,因此有超过800亿张照片。
它不仅要能处理上亿的照片,而且性能也是至关重要的。正如我们前面提到的,Facebook每秒钟要处理约120万张照片,而且不包括CDN上的,这是一个惊人的数字。
BigPipe

BigPipe
是Facebook开发的的动态网页处理系统。为了获得最佳性能,Facebook用它来按分块处理每个网页(称为“pagelets”)。
例如,聊天窗口,新闻Feed等是通过分块分开进行传输的。这些pagelets可以并行工作,不仅可以提高性能,而且即使其中一部分失效或中断,也不影响用户的正常访问。
Cassandra

Cassandra
是一个可以避免单点故障的分布式存储系统。它是NoSQL运动的一个典范,并已开放源代码(它甚至成为一个Apache项目)。Facebook在收件箱搜索中使用它。
除了Facebook,其他网站也在使用它,例如Digg。
Scribe
Scribe
是一个灵活的日志系统,Facebook在内部大量使用它。它能够处理Facebook这样超大规模的日志记录,并且能自动处理新生成的日志记录类别(Facebook有数百个日志类别)。
Hadoop and Hive

Hadoop
是一个开源的map-reduce实现,它可以轻松处理海量数据。Facebook用它来进行数据分析(我们都知道Facebook有巨量的数据)。Hive
起
源于Facebook,它使得针对Hadoop进行SQL查询成为可能,从而非程序员也可以方便地使用。(注:
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为
MapReduce任务运行。 )
Hadoop和Hive都是开源的(Apache项目),并且被一些大的网站使用,例如雅虎和Twitter。
Thrift
Facebook在不同的服务中,使用不同的语言。PHP用于前端,Erlang用于聊天,Java和C++也用在一些地方(也许还有其他语言)。Thrift
是一个内部开发的跨语言框架,它把不同的语言绑定在一起,让它们之间相互“交流”。这样,Facebook就可以很方便地进行跨语言开发。
Facebook已将Thrift开源,支持的语言会越来越多。
Varnish

Varnish
是一个HTTP加速器,不仅可以作为一个负载均衡器,而且可以快速地对内容进行缓存。
Facebook使用Varnish来处理照片和个人资料图片,每天要处理数十亿的要求。像Facebook使用的其他软件一样,Varnish也是开源的。
保证Facebook平稳运行的其他因素
上面我们介绍了支撑着Facebook网站系统的一些软件。但是,处理如此庞大的系统是一项复杂的任务,下面我们将列出保证Facebook平稳运行的一些其他方面的东西。
逐步发布和暗启动
Facebook有一个叫“Gatekeeper”的系统,可以针对不同的用户运行不同的代码。它让Facebook可以逐步地发布新功能,进行A/B测试,只为Facebook员工激活某些特性。
Gatekeeper也可以让Facebook实现“暗启动”,在一些功能正式投入使用之前,先激活这些功能中的某些特性(用户不会察觉,因为UI上并
没有体现,所以称之为暗启动)。 这可以当作现实世界的压力测试,帮助在正式发布前发现存在的瓶颈和其他问题。暗启动通常是在正式发动前两个星期。
Profiling
Facebook会仔细监控系统运行情况,有趣的是还会监控每一个PHP函数在生产环境中的性能,使用的是开源工具XHProf
。
通过逐步
禁用不重要的功能来提升性能
如果Facebook运行时出现性能问题,有一个方法就是逐步地禁用不太重要的功能,以增强Facebook核心功能的性能。
没有提及的方面
我们没有提及硬件方面,但这也是Facebook能达到如此规模的重要环节。例如,和其他大型网站一样,Facebook利用CDN来处理静态内容。Facebook在美国西部的俄勒冈州还有一个巨大的数据中心
,可以随时根据需要增加服务器。
Facebook的开源情节
谈到Facebook,我们不能不提及Facebook是多么喜欢开源,或者可以这么说,Facebook是“爱”着开源的。
Facebook不仅使用(也贡献于)已有的开源软件,比如Linux,Memcached,MySQL,Hadoop等等,而且把自己内部开发的软件开源。比如:HipHop, Cassandra, Thrift 和 Scribe。
Facebook还开源了由FriendFeed团队开发的高性能Web服务器框架Tornado(FriendFeed 2009年8月被Facebook收购)。
Facebook所用到的开源软件清单,可以在http://facebook.com/opensource找到。
飞速发展带来
的更多挑战
Facebook以令人难以置信的速度在发展,它的用户数的增长几乎是指数级的,现在已经接近5亿活跃用户,谁也不知道年底这个数字会达到多少,看起来每6个月就增加1亿的用户。
Facebook甚至有一个专门的“growth team”,该小组不断地研究如何让人们更多地使用并融入Facebook。
如此快速的发展,比如页面浏览、图片上传,状态信息等用户与网站之间以及用户与用户之间的各种交互内容的增长,将会产生各种各样的性能瓶颈,带来各种各样的挑战。
这是Facebook要面对的现实。Facebook工程师们必须不停地尝试并找到新方法来解决网站飞速发展中遇到的各种问题,比如Facebook的照片存储系统已经被完全重写了好几次。
我们就等着看facebook工程师们还会带来啥好东东吧,相信一定会很有趣。毕竟,他们在攀登一座我们大多数人只能在梦中见到的大山,建设一个用户比大部分国家人口都多的网站。要干这样的事情,你总得有点创造力。(注:最后一段很难翻译,感谢半含朝雨的翻译支持)
英文原文:Exploring the software behind Facebook, the world’s largest site
翻译:博客园
部分翻译文字参考自:http://blog.jobbole.com/entr.php/73
转自:http://news.cnblogs.com/n/68453/
分享到:
相关推荐
《架构之美》内容包括:facebook的架构如何建立在以数据为中心的应用生态系统之上。xen的创新架构对操作系统未来的影响。kde项目的社群过程如何让软件的架构从粗略的草图成为漂亮的系统。蔓延的特征如何让gnu emacs...
内容概要:本文详细介绍了8轴插补运动控制系统的实现,重点探讨了双DMA技术的应用,实现了高频率脉冲输出(最高可达500kHz)。文中首先解释了双DMA的工作原理及其相对于传统脉冲输出方式的优势,即减少CPU负载并提高数据传输速率。接着阐述了8轴插补算法的设计思想,包括基于时间分割的方法来确定各轴在特定时间段内的脉冲数。此外,还讨论了加减速控制策略,尤其是S型加减速算法的应用,以确保运动的平顺性。最后,文章展示了具体的代码实现细节,涵盖DMA配置、插补算法、加减速控制等方面。 适合人群:从事运动控制系统开发的技术人员,尤其是对嵌入式系统有一定了解的研发人员。 使用场景及目标:适用于需要高精度、高频脉冲输出的工业应用场景,如工业机器人、3D打印、激光切割等。目标是帮助开发者理解和掌握8轴插补运动控制的关键技术和实现方法,从而应用于实际项目中。 其他说明:文中提供的代码示例主要基于STM32系列单片机,但相关概念和技术可以迁移至其他平台。同时,强调了硬件细节处理的重要性,如RC滤波电路的应用,以应对实际工程中的常见问题。
2303040222橡胶232熊文栋(苯乙烯悬浮聚合)副本.pdf
内容概要:本文详细介绍了音乐喷泉的设计与制作过程,涵盖了从原理图绘制到具体代码实现的各个方面。首先介绍了Altium Designer这款强大的电子设计软件,接着展示了如何利用现有文件进行设计,包括水泵控制、灯光效果和音乐解析三大核心模块的具体实现方法。文中提供了多个代码片段,如单片机控制喷头升降、PWM调速控制水泵以及灯光效果同步音乐节奏等。同时,强调了在实际制作过程中需要注意的问题,如焊接温度、布线规划、元件选择等。此外,还分享了一些实用技巧和经验教训,帮助读者更好地理解和应用相关知识。 适合人群:对电子设计感兴趣的爱好者、初学者以及有一定基础的电子工程师。 使用场景及目标:适用于希望深入了解音乐喷泉工作原理和技术实现的人群,目标是掌握如何使用Altium Designer完成音乐喷泉的电路设计,并能够编写相应的控制代码。 其他说明:文章不仅提供了详细的理论讲解,还包括了许多实战经验和技巧,有助于读者在实践中少走弯路。
内容概要:本文详细介绍了汽车主动悬架系统的工作原理及其参数仿真的方法。首先解释了主动悬架的基本概念,即它可以根据车辆行驶状态和路面情况进行实时调整,提高行车安全性和舒适度。接着展示了如何利用简化的单自由度模型进行参数设置并进行仿真,具体涉及到了动力学方程、状态空间模型以及PID控制器的设计。此外还提到了更高级别的LQR控制器的应用,并强调了实际应用中需要注意的问题,如执行器响应延迟、物理限制等。文中通过实例演示了被动悬架与主动悬架在面对相同路面输入时的不同表现,突出了主动控制系统的优势。同时,针对传感器噪声处理、卡尔曼滤波器的使用、PWM信号生成等方面进行了深入探讨,揭示了主动悬架背后的复杂技术和工程挑战。 适用人群:对汽车工程特别是悬架系统感兴趣的研究人员和技术爱好者。 使用场景及目标:帮助读者理解主动悬架的工作机制,掌握基本的建模和仿真技能,为进一步开展相关领域的研究提供理论支持和技术指导。 其他说明:文中不仅提供了详细的数学推导和代码片段,还分享了许多实践经验,使读者能够全面地了解主动悬架系统的各个方面。
(3)请修改代码,解决临界区问题。解决后,无论如何运行,counter值均输出0
少儿编程scratch项目源代码文件案例素材-Mc v2.zip
内容概要:本文详细介绍了将Carsim与Simulink联合用于十四自由度车辆动力学模型的构建与验证过程。文中首先概述了整车架构的模块化分解方法,接着深入探讨了各个子系统的具体实现细节,如转向系统、轮胎模型、悬架子系统以及PI驾驶员控制器的设计与调优。针对联合仿真过程中遇到的关键问题,如采样率同步、参数调优、模型验证等进行了详细的讨论,并提供了具体的解决方案和技术技巧。通过对多种典型工况(如阶跃转向、正弦油门、双移线等)的仿真测试,验证了所建立模型的有效性和准确性。 适合人群:从事车辆动力学研究、汽车仿真领域的工程师和技术人员,尤其是那些希望深入了解Carsim与Simulink联合仿真的从业者。 使用场景及目标:适用于需要进行复杂车辆动力学仿真和模型验证的研究机构或企业。主要目标是提高仿真精度,缩短开发周期,确保模型能够准确反映实际车辆行为。此外,还可以作为教学材料帮助学生掌握先进的车辆建模技术和仿真工具。 其他说明:文中不仅分享了大量的实战经验和技巧,还附带了完整的源代码和详细的调试记录,对于想要深入理解和应用这一技术的人来说非常有价值。
内容概要:本文探讨了基于雨流计数法的源-荷-储双层协同优化配置,旨在提高能源系统的效率和经济性。文中介绍了双层优化架构,即外层优化储能系统的功率和容量,内层优化储能系统的充放电曲线并评估其寿命。通过Python代码示例展示了具体的实现过程,包括外层和内层优化的具体步骤以及雨流计数法的应用。此外,文章还讨论了常见的调试问题及解决方案,强调了内外层变量之间的相互影响。 适合人群:从事能源系统优化的研究人员和技术人员,尤其是对储能系统优化感兴趣的读者。 使用场景及目标:适用于需要进行源-荷-储系统优化的实际工程项目,如光伏电站、风力发电站等。目标是通过合理的储能配置,延长储能系统的使用寿命,降低成本,提高经济效益。 其他说明:文章提供了详细的代码示例和理论解释,帮助读者更好地理解和应用这一优化方法。同时提醒读者,在实际应用中需要注意数据的准确性以及参数的选择。
很多盗版PCI卡都在用的雕刻机控制程序
内容概要:本文详细介绍了三机并联的风光储混合系统在Matlab中的仿真方法及其关键技术。首先,针对光伏阵列模型,讨论了其核心二极管方程以及MPPT(最大功率点跟踪)算法的应用,强调了环境参数对输出特性的影响。接着,探讨了永磁同步风机的矢量控制,尤其是转速追踪和MPPT控制策略。对于混合储能系统,则深入讲解了超级电容和蓄电池的充放电策略,以及它们之间的协调机制。此外,还涉及了PQ控制的具体实现,包括双闭环结构的设计和锁相环的优化。最后,提供了仿真过程中常见的问题及解决方案,如求解器选择、参数敏感性和系统稳定性等。 适合人群:从事电力电子、新能源系统设计与仿真的工程师和技术人员,以及相关专业的研究生。 使用场景及目标:适用于希望深入了解风光储混合系统工作原理的研究人员,旨在帮助他们掌握Matlab仿真技巧,提高系统设计和优化的能力。 其他说明:文中不仅提供了详细的理论推导和代码示例,还分享了许多实践经验,有助于读者更好地理解和应用所学知识。
内容概要:本文详细介绍了基于NGSIM数据对Wiedemann99跟驰模型进行参数标定的过程。作者使用Matlab编写代码,实现了数据读取与预处理、Wiedemann99模型定义、拟合优度函数(RMSPE)计算以及改进粒子群算法(IPSO)。通过这些步骤,成功地对标定了Wiedemann99模型的关键参数,并对其进行了性能评估。文中不仅展示了具体的代码实现细节,还探讨了参数选择、算法改进等方面的经验教训。 适合人群:从事交通工程、智能交通系统研究的专业人士,尤其是那些对车辆跟驰行为建模感兴趣的科研工作者和技术开发者。 使用场景及目标:适用于需要精确模拟车辆跟驰行为的研究项目,如交通流量仿真、自动驾驶测试等。目标是提高模型的准确性和可靠性,以便更好地理解和预测真实的道路交通状况。 其他说明:文章提供了详细的代码片段和理论背景介绍,有助于读者深入理解整个标定流程。同时,作者分享了一些实用的小技巧,如参数敏感度分析、适应度函数设计等,对于相关领域的研究人员具有较高的参考价值。
内容概要:本文为中国信息通信研究院发布的《2024年大模型落地路线图研究报告》,旨在梳理大模型应用落地的共性需求和关键要素,为大模型赋能各行业提供参考。报告重点介绍了大模型应用落地的四个重要阶段——现状诊断、能力建设、应用部署、运营管理,归纳了八个关键步骤,包括能力分析、需求挖掘、方案设计、研发测试、应用开发、效能评估、运维监测和运营管理。报告详细分析了大模型在基础设施、数据资源、算法模型、应用服务、安全可信五个层面应重点关注的发展要素和亟待解决的问题。此外,报告还探讨了大模型在金融、工业、教育、医疗、政务等行业的具体应用场景及其带来的降本增效、提质增效等优势。最后,报告展望了大模型的发展趋势,强调了架构优化、行业数字化转型和可信发展的必要性。 适合人群:具备一定技术背景,特别是从事人工智能、大数据、云计算等领域工作的研发人员、管理人员和技术决策者。 使用场景及目标:①帮助企业和机构评估自身大模型应用的基础条件,明确业务转型需求;②指导大模型建设方案的设计和实施,确保技术选型的科学性和合理性;③提供应用部署和效能评估的具体方法,确保大模型在实际应用中的稳定性和高效性;④建立健全大模型的运营管理体系,保障业务的高效稳定开展。 其他说明:报告强调了大模型在推动各行业数字化转型中的重要作用,提出了未来大模型发展的重点方向,如架构优化、技术应用和可信发展。报告还呼吁社会各界共同关注大模型的安全可信问题,确保其与人类价值观的对齐,推动大模型的健康发展。
少儿编程scratch项目源代码文件案例素材-Scratch泡泡龙.zip
软考初级程序员是中国计算机技术与软件专业技术资格(水平)考试中的一个重要级别,主要面向打算进入IT行业的初学者或初级程序员。这个级别的考试旨在测试考生的基础编程能力、计算机基础知识以及解决问题的能力。历年真题是备考的重要参考资料,可以帮助考生了解考试的题型、难度以及考点。 在"软考初级程序员09-18年真题及答案解析"的压缩包中,包含了从2009年至2018年上半年的所有程序员考试真题。这些真题涵盖了多个方面,包括但不限于: 1. **基础编程语言**:如C语言、Java、Python等,主要考察基本语法、数据类型、控制结构、函数使用等方面。 2. **数据结构与算法**:如数组、链表、栈、队列、树、图等,以及排序算法(冒泡、选择、插入、快速、归并等)和查找算法(线性查找、二分查找等)。 3. **计算机系统知识**:包括计算机组成原理、操作系统、网络基础知识,例如CPU结构、内存管理、进程与线程、网络协议等。 4. **数据库基础**:SQL语言的基本操作,如增删改查、子查询、联接操作、索引等。 5. **软件工程与项目管理**:软件生命周期、需求分析、设计原则、测试方法、版本控制等。 6. **法律法规与职业道德**:涉及知识产权、合同法、信息安全与隐私保护等。 每份真题后的答案解析部分,是对题目答案的详细解释,通常包括解题思路、关键步骤以及知识点的扩展。通过阅读解析,考生不仅能知道自己答案的正确与否,还能深入理解相关知识点,提高自己的分析和解决问题的能力。 在准备软考初级程序员考试时,考生应充分利用这些真题资源,进行模拟练习,掌握各类题目的解答技巧。同时,考生还需要广泛阅读教材,补充相关知识,提高对理论的理解。此外,多做编程实践,提高实际编程能力,也是非常重要的。 总结来说,这个压缩包是备考软考初级程序员的宝贵资料,它能帮助考生熟悉考试形式,了解重
内容概要:本文详细介绍了如何在Zynq扩展口上使用FPGA和W5500实现稳定的TCP网络通信。作者通过一系列实验和技术手段,解决了多个实际问题,最终实现了零丢包的数据回环处理。主要内容包括:硬件搭建(SPI接口配置)、数据回环处理(双时钟域流水线)、压力测试(信号抓波形和防抖处理)、多路复用扩展以及上位机测试脚本的编写。文中提供了大量Verilog代码片段,展示了具体实现细节。 适合人群:具备一定FPGA开发经验的工程师,尤其是对TCP/IP协议栈感兴趣的嵌入式系统开发者。 使用场景及目标:适用于需要高性能、低延迟网络通信的应用场景,如工业控制系统、实时数据采集等。目标是帮助读者掌握在FPGA上实现高效TCP通信的方法和技术。 其他说明:文章不仅提供了详细的代码实现,还分享了许多实践经验,如SPI时钟优化、CS信号防抖、FIFO深度选择等。此外,作者还讨论了未来可能的改进方向,如UDP组播和QoS优先级控制。
内容概要:本文探讨了在汽车动力学研究和自动驾驶领域中,使用无迹扩展卡尔曼滤波(UKF/EKF)在Matlab/Simulink环境中对路面附着系数进行估计的方法。文中介绍了选择Matlab/Simulink的原因及其强大功能,详细解析了7自由度整车模型的构建,以及UKF和EKF的具体实现方式。UKF通过非线性处理和sigma点传播概率分布,适用于复杂工况;EKF则通过线性化处理,更适合计算资源有限的场景。两者在不同路面条件下表现出各自的优劣,如UKF在突变路面下表现更好,而EKF在不变路面上效率更高。此外,还讨论了调参技巧、工程实现细节及实际测试结果。 适用人群:从事汽车动力学研究、自动驾驶技术研发的专业人士,尤其是对非线性滤波算法感兴趣的研究人员和技术开发者。 使用场景及目标:①用于车辆稳定性控制系统中,提高行驶安全性;②优化滤波算法性能,平衡精度与实时性;③为复杂工况下的路面附着系数估计提供解决方案。 其他说明:文章不仅提供了理论分析,还包括大量代码示例和实践经验分享,有助于读者深入理解和实际应用。
内容概要:本文详细介绍了如何使用三菱PLC(以FX3U为例)和显控触摸屏实现定长送料系统的三种核心功能:点动、相对定位和绝对定位。文章从硬件连接开始,逐步讲解了每种功能的具体实现方法,包括梯形图编程、参数设置以及触摸屏交互设计。特别强调了伺服和步进电机的应用,并提供了调试技巧和注意事项,确保系统稳定可靠。 适合人群:从事工业自动化领域的工程师和技术人员,尤其是那些需要掌握PLC编程和伺服/步进电机控制的人群。 使用场景及目标:适用于各类需要精确控制物料输送的生产设备,如包装机、裁切设备等。目标是帮助工程师快速搭建稳定的定长送料系统,提高生产效率和产品质量。 其他说明:文中还分享了一些实战经验,如软限位设置、急停回路设计、电子齿轮比计算等,有助于解决实际应用中的常见问题。
内容概要:本文详细介绍了一个基于51单片机的音乐盒项目,涵盖从原理到实践的全过程。首先解释了音乐产生的基本原理,即通过控制I/O口输出不同频率的方波驱动蜂鸣器发声。接着介绍了原理图设计,重点描述了51单片机与其他组件如蜂鸣器、按键等的连接方式。然后讲解了Protues仿真工具的应用,强调其在硬件电路搭建前进行验证的重要性。最后深入剖析了程序源码,包括音符频率表、节拍编码、延时函数、播放音符和音乐的函数以及主函数的具体实现。 适合人群:对单片机开发感兴趣的初学者或有一定经验的研发人员。 使用场景及目标:适用于希望深入了解51单片机工作原理及其应用的人群,特别是那些想要亲手制作一个能够播放多首曲目的音乐盒爱好者。通过该项目的学习,不仅可以掌握单片机的基本编程技能,还可以提高解决实际问题的能力。 其他说明:文中提供了详细的代码注释和技术细节,帮助读者更好地理解和实现项目。此外,还分享了一些实用的小贴士,如如何避免常见错误、优化性能等。
子查询练习题,多练习总没有坏处,不知道凑没凑够十一个字