<!--wordstart-->
【IT168 专稿】8月29日,2010年系统架构师大会在北京永泰福朋.喜来登大酒店拉开帷幕。本次大会主题是:“企业IT应用最佳实践”,是由IT168联合旗下三大技术社区ChinaUnix、ITPUB、IXPUB主办的继2009年第一届系统架构师大会之后偏重技术经验分享和案例剖析的又一次技术盛宴。据悉,本次技术大会邀请了37位各行各业、国内最顶级的技术专家分享来自企业技术一线的系统架构最佳实践经验。
淘宝网技术委员会,淘宝网核心工程师章文嵩淘宝网技术委员会,淘宝网核心工程师章文嵩
在8月27日下午,存储与架构分论坛上,淘宝网技术委员会,淘宝网核心工程师章文嵩向我们详细介绍了淘宝网图片处理与存储系统的架构。章文嵩博士的演讲日程包括了淘宝的整个系统架构、淘宝图片存储系统架构,淘宝网独立开发的TFS集群文件系统,前端CDN系统以及淘宝网在节能服务器方面的应用和探索。
本文侧重介绍淘宝网图片处理与访问系统前端的CDN系统架构,有关淘宝网图片存储与处理系统架构的介绍请参考:揭秘淘宝286亿海量图片存储与处理架构
从商用系统到自主研发
实际上,淘宝网对CDN系统的要求还是十分严格的,CDN服务的图片规模包括大约250T容量的原图和大约250T容量的缩略图总和;约286亿左右的图片数,平均图片大小是17.45K;8K以下图片占图片数总量的61%,占存储容量的11%
CDN的部署规模达到22个节点,部署在网民相当密集的中心城市(7月初),每个节点目前处理能力在10G或以上,CDN部署的总处理能力已到220G以上,目前承载淘宝流量高峰时119G,含一些集团子公司的流量。
淘宝网现有的CDN系统也完全是淘宝自己开发的,最早淘宝也应用过一段商用的CDN产品,选择Netscaler的CDN系统来解决海量小图片访问和读取的问题。使用一段时间后,认为市场普遍的商用产品存在一些性能瓶颈、功能欠缺,并且性能不稳定。面对淘宝网背后如此巨大的图片存储规模,商用系统在整个系统的规模、性能、可用性和可管理性都无法达到要求。
目前淘宝网自主开发的CDN系统,采用了全新的优化架构,包括CDN监控平台、全局流量调度系统支持基于节点负载状态调度和基于链路状态调度、CDN实时图片删除、CDN访问日志过滤系统、配置管理平台。
新旧CDN架构平台对比
淘宝网老架构的CDN平台应用Netscaler产品
图为淘宝网应用Netscaler产品的老架构的CDN平台,背后管理500TB容量,前端缓存空间约1TB左右,命中率较低,因此需要强大的调度策略。
淘宝网最新的CDN系统架构
上图为最新的CDN系统架构,全部由淘宝网自己开发,前面介绍过CDN系统的服务规模,包括约250T容量的原图+ 250T容量的缩略图,总计500TB图片存储容量;约286亿左右的图片数,平均图片大小是17.45K;8K以下图片占图片数总量的61%,占存储容量的11%,实际上带给CDN系统极大的挑战。
CDN部署规模达到22个节点,部署在网民相当密集(具体访问量)的中心城市(7月初),每个节点目前处理能力在10G或以上,部署的总处理能力已到220G以上,目前承载淘宝流量高峰时119G(含一些集团子公司的)。
新旧两代CDN架构的对比
上图是淘宝网对新旧2代CDN架构进行对比,新的CDN系统在流量分布均匀性上有了较大改进,所有的频道统一调度到128台squid,而不是将squid按频道分组,可提高命中率2%以上;扩展能力也有了较大提升,在一个VIP上新架构可以扩展到近100G的流量(当然要用万兆网卡);灵活性也有了较大提高,一致性Hash调度方法使得增加和删除服务器非常方便,只有1/(n+1)的对象需要迁移新的CDN架构。除了在可维护性商稍微弱一点,其余的指标全面超出商用的产品。
Squid节点的改进和优化
新的CDN在squid节点上也进行了一些改进和优化,包括:
在COSS存储系统基础上实现了TCOSS,FIFO加上按一定比例保留热点对象,支持1T大小的文件
Squid内存优化,一台Squid服务器若有一千万对象, 大约节省1250M内存,更多的内存可以用作memory cache。
用sendfile来发送缓存在硬盘上的对象,加上page cache,充分利用操作系统的特性
针对SSD硬盘,可以采用DIRECT_IO方式访问,将内存省给SAS/SATA硬盘做page cache
在Squid服务器上使用SSD+SAS+SATA混合存储,实现了类似GDSF算法,图片随着热点变化而迁移。
根据淘宝网的资料数据,SSD的存储成本大约是20¥每GB左右,SAS硬盘的存储成本约在 5-6¥每GB,SATA盘的每GB成本不到1¥。随着对应用性能的要求提升,应用SSD是未来的趋势,针对不同硬盘的存取特性进行优化是十分必要的。
目前在squid节点中的热点迁移采用了两种策略,一种是根据文件大小来定义迁移到哪种磁盘上去。例如较大的文件存放在SATA磁盘,中等大小的文件放在SAS磁盘上,较小的文件存放在SSD磁盘。下图是淘宝网进行自动分层迁移后的性能测试结果,测试环境包括1块SSD硬盘+4块SAS硬盘+SATA硬盘。访问负载状况如下:
第一种迁移策略按文件大小决定存储的磁盘类型,上图中:黑色为SATA,绿色为SSD,红色为SAS,4块SAS硬盘上的访问量总和超过SSD硬盘上的访问量
另外一种策略则是根据访问热度来决定,最热的文件存放在SSD盘,较热的存放在SAS盘,最冷的文件存放在SATA盘。下图是淘宝网同样在1块SSD硬盘+4块SAS硬盘+SATA硬盘下的测试结果,访问负载状况如下:
第二种迁移策略按访问的热度来进行迁移,其中:黑色为SATA,绿色为SSD,红色为SAS;SSD硬盘上的访问量是4块SAS硬盘上访问量之和的5倍以上,SAS和SATA的硬盘利用率低了很多。
节点的运行状况
淘宝网列出了两个代表性节点的运行性能状况。
节点一由32台DELL R710服务器构成,逻辑结构包括2LVS+32Haproxy+64Squid构成,于12月21日上线运行。
以下是该节点的运营状况:
节点二由30台DELL PowerEdge 2950服务器构成,逻辑结构包括:2LVS + 30Haproxy + 60 Squid,于2010年5月上线运行。以下是该节点的理论运行状况:
淘宝CDN的发展方向
淘宝网未来的CDN发展方向针对研发、运维和CDN建设有不同的要求。
从CDN的研发和运维上,未来淘宝CDN将:
–针对教育网的CDN解决方案,广大校园用户将能体会到更高的访问速度和性能
–动态页面加速,节点间应用级路由
–持续提高节点性能(应用软件、操作系统等)
–优化GTM全局调度系统
–持续提高CDN系统可运维性,完善CDN内容管理系统
此外,淘宝CDN建设的思路也有一些调整和改变,建设思路正在转向“部署更多的小节点,尽可能离用户近一些”的方向,同时会更加强调定制化和快速部署 。
<!--wordend--><!-- 分页-->
分享到:
相关推荐
4. **支持大规模并发访问**:视频CDN架构能够轻松应对突发性的高并发访问需求,确保在任何情况下都能为用户提供高质量的服务体验。 ### 三、视频CDN架构的关键组件 1. **边缘节点**:边缘节点是CDN的核心组成部分...
为了应对如此庞大的图片存储需求和快速的图片访问速度,淘宝构建了一套高效的图片存储与CDN(内容分发网络)系统。本文将深入探讨这个系统的关键技术和设计原则。 首先,海量图片的存储问题是一个挑战。淘宝采用了...
CDN(内容分发网络)是一种分布式网络服务,旨在提高互联网内容的访问速度和可用性。在“T级带宽的超大规模CDN架构”中,我们探讨的是一个能够处理TB级流量的复杂系统设计,这涉及到众多的技术层面和组件。 首先,...
### Taobao 海量图片存储与 CDN 系统解析 #### 一、系统全貌 在淘宝这样的电商平台中,图片的高效存储与快速分发至关重要。本次分享将围绕Taobao的图片存储与CDN系统展开,详细介绍其架构设计与关键技术。 #### ...
p2p视频点播系统基于cdn架构
CDN网络架构,内容分发器的网络架构图,点播业务的网络架构图 CDN网络架构,内容分发器的网络架构图,点播业务的网络架构图 CDN网络架构,内容分发器的网络架构图,点播业务的网络架构图 CDN网络架构,内容分发器的网络...
超大规模的CDN(内容分发网络)架构是现代互联网基础设施的重要组成部分,它在处理T级带宽流量时起着至关重要的作用。CDN的主要目标是通过在全球范围内分布式存储和智能路由,为用户提供快速、可靠且低延迟的网络...
这背后反映的是淘宝平台上存储着海量的商品图片,总计超过286亿个文件,其中每张图片平均大小约为17.45KB,小于8KB的小文件占比达到了61%,却只占总存储容量的11%。 面对如此庞大的图片存储需求,特别是对于高并发...
### CDN运营支撑平台架构实践 #### 一、引言 随着信息技术的发展,互联网已经成为人们生活中不可或缺的一部分。在这样的背景下,内容分发网络(Content Delivery Network, CDN)作为一种提高互联网服务质量的技术...
平台化CDN基础架构——ATS缓存系统:深入解析与展望 随着互联网的快速发展,内容分发网络(CDN)已成为保障用户体验、提升网站性能的关键技术。尤其在光纤时代,用户带宽大幅提升,移动设备普及,以及UGC(用户生成...
CDN运营支撑平台架构实践文档主要探讨了云架构的发展趋势,互联网商业架构的变化,以及CDN(内容分发网络)在云架构中的应用和架构原理。以下是从文档中提炼出的详细知识点: 1. 云计算的发展趋势: - 云计算经历...
《亿级流量网站架构核心技术》是一本深入探讨大型网站架构设计与优化的专业书籍,适合对高并发、高性能、高可用性有追求的技术人员阅读。在亿级用户量的背景下,如何构建稳定、高效的互联网服务是本书的核心内容。...
【淘宝网技术架构】是关于中国最大的电子商务平台淘宝网背后的技术支撑体系的深入解析。这篇博文链接虽然没有提供具体内容,但通常会涵盖一系列关键领域的知识,包括但不限于分布式系统、数据库管理、缓存策略、负载...
它针对的是处理极高访问量的互联网平台所面临的技术挑战,旨在帮助读者理解并掌握支撑亿级用户流量背后的架构设计理念和实践方法。 一、高并发处理 亿级流量意味着每秒有成千上万的用户同时访问,因此,网站架构...
在处理CDN的架构上,淘宝使用了DNS服务器和GSLB来平衡请求,通过CDN节点和LB设备来处理cache未命中情况。同时,淘宝的技术架构使用了多级数据库集群技术,例如Oracle的RAC、SAN低端存储和分域名的Denali集群。此外,...