今天,eBay这家炙手可热的拍卖/购物网站,下大以每周增加10T空间的速度扩充着其存储。与Xerox和Google相仿的是,eBay自身已经成了一种专属词汇,用来表达该公司所从事的事情(今天,eBay这个词代表了拍卖和购物的意思)。即使从流量、受欢迎程度和盈利能力等方面评估,这家互联网站也与Google、Amazon、Yahoo、eHarmoney、Digg.com和社交网站MySpace.com、FaceBook.com不相上下。
作为一家世界上最大的拍卖网站,eBay的一些内部数据已经让人震惊:
l 站点平均每天有超过10亿次的页面浏览;
l 每秒客户通过此站点定购价值大约为1700美元的商品;
l 每天有260亿次的SQL查询;
l 每两分钟就有一个钻石珠宝卖出;
l 每分钟就有一辆车卖出;
l 每一秒钟就有一个发动机零部件卖出;
l 每一刻钟有6亿份清单生成,而且目前已经拥有2亿零4百万注册用户。
此外,尤为惊人的一点是:130万人所有的日常生活消费是在eBay中进行的。
如果这些数字没有给你产生直观的感受,我们可以做一个对比。在1930年代,美国罗斯福时期的两大行政工作机构,民间资源保护队(Civilian Conservation Corps)和民用工程总署(Civil Works Administration),曾雇用了总计650万的工人。eBay现在处理的交易量,大约等于当时这些工人一同完成的劳动量。当然,这其中还包括遍布全球7*24小时的Web页面浏览以及货币交易——中间几乎没有间断(同时代表对650万工人的管理)。经统计,eBay站点的可靠性已经达到每日99.94%,这个数据说明每天大概会有50秒的服务间断。此前曾有人于1999年7月间做过统计,当时站点的平均每天间断时间为43分钟。
eBay如何在技术上取得这样的成功?其研究实验室的杰出工程师Paul StrongStrong介绍了先前从未在媒体上曝光过的eBay存储策略:
l 存储工程师团队使用2petabytes(IP=1,000T)的裸数据存储空间作为日常运行站点存储数据的基本空间,而且现在每周都会以新增加10个Terabytes的存储空间的速度来保证新增交易的需要。使用传统的网络计算系统来搭建这个站点,此系统有大约170台Win2000/Win2003服务器。
l 大约170台Linux(RHES3)服务器。
l 三台Solaris服务器:用来构建和部署eBay.com并移交QA;编译Java和C++代码;完善、优化并压缩XSL、JS和HTML。
l 构建站点耗时:过去是10小时;现在仅用30分钟。
l 在过去的2年半里,共产生过2百万个构建版本。
经过构建的成品应用会被部署到大约15,000个服务器的系统之中。另外,eBay用了很多不同系列的产品来武装其存储系统,这包括Brocade的交换机、IBM的软件架构Tivoli、NetApp的NAS(网络连接存储)硬件以及日立的大型阵列数据系统(系统95%的构成),当然,系统也运行Oracle数据库。
eBay为其大多数的数据库维护了四份备份,其主要数据中心散布在美国本土,在世界各地都有相应代理。
eBay站点的结构如下:
l 高度的分布式。
l 拍卖站点是基于Java构建的,搜索的基础部件是基于C++。
l 有上百位一起工作的开发人员。
为了与业务增长保持同样的步伐,eBay有如下应用:
l 集中式的应用程序日志;它是一个用于记录细致的应用程序信息的可扩展平台。
l 全球一体化的账务:实时整合进一个第三方的账务。
l 企业事务流:让消息队列可靠与高效的统一技术。系统中使用了怀旧式样来提升用户体验。
l 稳定的多点传关架构:支持海量数据的分布式分析,并且保证搜索架构能跟上公司成长的步伐。
当开始处理网络负载有关问题时,Strong说,“世界时区给我们提供了一种天然的“负载平衡器”美国最忙的时候,欧洲(第二大使用eBay的地区)的人们正在沉睡,反之亦然,虽然偶尔也会出现阻塞,但两大洲间的天然分割对我们是有好处的。”
分享到:
相关推荐
元数据是指关于数据的数据,它可以帮助理解和管理海量的数据资源。有效的元数据管理可以提高数据的质量、可访问性和安全性,从而提升整个数据分析流程的效率。eBay通过建立元数据仓库来实现对各种数据源的统一管理,...
通过采用 DAL 抽象层,eBay 能够高效地处理海量数据,同时保持系统的可扩展性和可靠性。本文详细介绍了 DAL 的各个方面,包括其结构、功能和服务。此外,还讨论了为何需要 DAL 以及它如何帮助解决大型分布式系统中的...
1. **大数据处理架构**:eBay的技术平台必须具备处理海量交易数据的能力,这涉及到分布式计算、数据库管理和数据存储等多个层面。例如,它可能使用Hadoop或Spark等大数据处理框架来实现数据的高效分析和挖掘。 2. *...
为了处理海量的交易数据,eBay还采用了大数据处理框架,如Hadoop和Spark,进行离线分析和实时流处理。这些工具用于挖掘用户行为模式、预测市场趋势、以及进行欺诈检测。 在前端,eBay使用了CDN(Content Delivery ...
Ebay架构特点主要体现在其高可扩展性、高性能和高可用性上,这些特性使得Ebay平台能够处理全球海量的在线交易。在2009年HPTS(High Performance Transaction Systems)会议上,Ebay分享了他们的系统架构设计,以下是...
在eBay这样的全球性电子商务平台,每天都会产生海量的交易、用户行为和市场数据。传统的数据处理方式无法应对如此规模的数据量,因此,eBay选择了Hadoop作为其大数据解决方案的核心。Hadoop的分布式架构允许eBay处理...
面对海量数据,eBay使用数据库集群来存储和管理用户信息、商品详情、交易记录等。可能包含主从复制、分区(sharding)、读写分离等策略,以确保数据的一致性、可用性和可扩展性。 4. **缓存服务** 为了减少数据库...
为了应对海量数据和高并发访问的需求,eBay采取了一系列策略来构建其可扩展架构: 1. **分区一切**:数据库、应用程序层和搜索引擎均被分区,以实现负载均衡和性能优化。 2. **无状态偏好**:应用程序层不保留会话...
在eBay的场景下,Hadoop被用来处理海量的邮件数据,这些数据既包括成员之间的通信(M2M),也涵盖成员与eBay之间的交互,以及eBay向成员发送的信息。每天有数百万次的邮件交流发生,这些邮件分布在eBay的系统内以及...
2. **海量数据管理**:管理超过10亿张照片,存储超过2PB的数据,比美国国会图书馆的容量大200多倍。 3. **极高的交易量**:每秒交易价值超过1590美元的商品,平均每天页面浏览量超过10亿次,任意时刻大约有1亿零5...
数据库层面,eBay拥有上百个逻辑数据库分布在不同物理主机上,根据数据类型进行独立管理和扩展。 2. 水平切分:无状态设计使得应用层的水平扩展变得简单,通过负载均衡器将请求分发至多台应用服务器。数据库层面,...
1. **数据分区**:为了处理海量数据,eBay采用了数据分区策略,将数据库、应用层、搜索引擎等进行分区,这有助于负载均衡和故障隔离,提高了系统的整体稳定性和响应速度。 2. **无状态偏好**:eBay的架构设计避免在...
分布式数据库实践是现代大数据处理的关键技术之一,尤其在面对如eBay Marketing Feeds这样处理海量数据的场景下,其架构的演变与优化至关重要。在这个专题中,我们将深入探讨eBay如何应对十亿级别的数据挑战,并尝试...
尤其当涉及到如eBay这样的大型电子商务平台时,Python爬虫的应用可以极大地帮助企业和研究者收集和分析海量的商品信息、价格动态、用户评价等数据,从而为市场分析、竞争情报、自动化购物等提供数据支持。...
3. **大数据分析**:eBay收集并分析海量的用户行为数据,用于个性化推荐、预测市场趋势、优化定价策略等。这需要强大的数据处理和分析工具,如Hadoop、Spark等。 4. **机器学习与人工智能**:AI在eBay中用于自动...
作为全球领先的在线交易平台,eBay 需要处理海量的数据交换和服务请求,这促使它在早期就探索并实施了 SOA 架构来优化其业务流程和技术体系。 **发展历程:** - **初期阶段**:eBay 在很早的时候就开始暴露 API 和...
eBay架构的核心在于其强大的可扩展性和高可用性,以应对海量用户和交易的挑战。以下是一些可能涵盖的关键知识点: 1. **分层架构**:eBay系统通常采用分层架构,包括表示层、业务逻辑层和数据访问层。这种设计使得...
1. **大数据分析挑战**:为了应对海量数据处理的挑战,亿贝采用了多种数据集成和处理工具,如Ab Initio、UC4 Pipeline等,确保数据能够在各个系统之间高效流转。 2. **数据平台**:包括Relational Data、...
例如,如何处理和整合来自不同源头、格式各异的数据,如何实现实时或近乎实时的数据分析,以及如何提高数据的价值密度,从海量数据中挖掘出有价值的信息。 大数据的应用广泛,从商业智能、市场营销到医疗健康、智慧...