xiaogui9317170

浏览: 224806 次
性别:
来自: 上海

最近访客更多访客>>

liyudays

_无极键圣

liumingwei2009

webeasymail

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Facebook 海量数据处理

博客分类：

架构设计

Facebook memcached lighttpd MySQL SNS

Facebook 海量数据处理

作者: Fenng | 可以转载, 转载时务必以超链接形式标明文章原始出处和作者信息及版权声明
网址: http://www.dbanotes.net/arch/facebook_photos_arch.html

对着眼前黑色支撑的天空 /  我突然只有沉默了
我驾着最后一班船离开 / 才发现所有的灯塔都消失了
这是如此触目惊心的 / 因为失去了方向我已停止了
就象一个半山腰的攀登者 / 凭着那一点勇气和激情来到这儿
如此上下都不着地地喘息着 / 闭上眼睛疼痛的感觉溶化了 
--达达乐队《黄金时代》

好几个地方看到这个 Facebook - Needle in a Haystack: Efficient Storage of Billions of Photos ，是 Facebook 的 Jason Sobel 做的一个 PPT，揭示了不少比较有参考价值的信息。【也别错过我过去的这篇Facebook 的PHP性能与扩展性】

图片规模

作为世界上最大的 SNS 站点之一，Facebook 图片有多少? 65 亿张原始图片，每张图片存为 4-5 个不同尺寸，这样总计图片文件有 300 亿左右，总容量 540T，天! 峰值的时候每秒钟请求 47.5 万个图片 (当然多数通过 CDN ) ，每周上传 1 亿张图片。

图片存储

前一段时间说 Facebook 服务器超过 10000 台，现在打开不止了吧，Facebook 融到的大把银子都用来买硬件了。图片是存储在 Netapp NAS上的，采用 NFS 方式。

图片写入

尽管这么大的量，似乎图片写入并不是问题。如上图，是直接通过 NFS 写的。

图片读取

CDN 和 Cachr 承担了大部分访问压力。尽管 Netapp 设备不便宜，但基本上不承担多大的访问压力，否则吃不消。CDN 针对 Profile 图象的命中率有 99.8%，普通图片也有 92% 的命中率。命中丢失的部分采由 Netapp 承担。

图中的 Cachr 这个组件，应该是用来消息通知(基于调整过的 evhttp的嘛)，Memcached 作为后端存储。Web 图片服务器是 Lighttpd，用于 FHC (文件处理 Cache)，后端也是 Memcached。Facebook 的 Memcached 服务器数量差不多世界上最大了，人家连 MYSQL 服务器还有两千台呢。

Haystacks --大海捞针

这么大的数据量如何进行索引? 如何快速定位文件? 这是通过 Haystacks 来做到的。Haystacks 是用户层抽象机制，简单的说就是把图片元数据的进行有效的存储管理。传统的方式可能是通过 DB 来做，Facebook 是通过文件系统来完成的。通过 GET / POST 进行读/写操作，应该说，这倒也是个比较有趣的思路，如果感兴趣的话，看一下 GET / POST 请求的方法或许能给我们点启发。

总体来看，Facebook 的图片处理还是采用成本偏高的方法来做的。技术含量貌似并不大。不清楚是否对图片作 Tweak，比如不影响图片质量的情况下减小图片尺寸。

分享到：

Amazon Architecture | Scalability Best Practices: Lessons from ...

2008-11-24 15:54
浏览 1867
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Facebook 海量数据处理

Facebook 海量数据处理

图片规模

图片存储

图片写入

图片读取

Haystacks --大海捞针

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Facebook 海量数据处理

Facebook 海量数据处理

图片规模

图片存储

图片写入

图片读取

Haystacks --大海捞针

评论

发表评论

相关推荐

大型网站架构不得不考虑的10个问题

规划 SOA 参考架构

架构师书单

架构师之路

应用架构选型讨论

系统构架设计应考虑的因素

负载均衡－－大型在线系统实现的关键（服务器集群架构的设计与选择）

LinkedIn Architecture

eBay Architecture

LiveJournal Architecture

Google Architecture

YouTube Architecture

Flickr Architecture

Digg Architecture

37signals Architecture

Scaling Twitter: Making Twitter 10000 Percent Fast

Amazon Architecture

Scalability Best Practices: Lessons from eBay

Yapache-Yahoo! Apache 的秘密

Notes from Scaling MySQL - Up or Out

最近访客更多访客>>