`

eBay 的数据量

阅读更多

eBay 的数据量

网址:

 

作为电子商务领头羊的 eBay 公司,数据量究竟有多大? 很多朋友可能都会对这个很感兴趣。在这一篇
Web 2.0: How High-Volume eBay Manages Its Storage (从+1 GB/1 min 得到的线索) 报道中,eBay 的存储主管 Paul Strong 对数据量做了一些介绍,管中窥豹,这些数据也给我们一个参考。

站点处理能力

  • 平均每天的 PV 超过 10 亿 ;
  • 每秒钟交易大约 1700 美元的商品 ;
  • 每分钟卖出一辆车A ;
  • 每秒钟卖出一件汽车饰品或者配件 ;
  • 每两分钟卖出一件钻石首饰 ;
  • 6 亿商品,2 亿多注册用户; 超过 130 万人把在 eBay 上做生意看作是生活的一部分。

在这样高的压力下,可靠性 达到了 99.94%,也就是说每年 5 个小时多一点的服务不可用。从业界消息来看,核心业务的可用性要比这个高。

数据存储工程组控制着 eBay 的 2PB (1Petabyte=1000Terabytes) 可用空间。这是一个什么概念,对比一下 Google 的存储 就知道了。每周就要分配 10T 数据出去,稍微算一下,一分钟大约使用 1G 的数据空间。

计算能力

eBay 使用一套传统的网格计算系统。该系统的一些特征数据:

  • 170 台 Win2000/Win2003 服务器;
  • 170 台 Linux (RHES3) 服务器;
  • 三个 Solaris 服务器: 为 QA 构建与部署 eBay.com; 编译优化 Java / C++ 以及其他 Web 元素 ;
  • Build 整个站点的时间:过去是 10 个小时,现在是 30 分钟;
  • 在过去的2年半, 有 200 万次 Build,很可怕的数字。

存储硬件

每个供货商都必须通过严格的测试才有被选中的可能,这些厂家或产品如下:

  • 交换机: Brocade
  • 网管软件:IBM Tivoli
  • NAS: Netapp (占总数据量的 5%,2P*0.05, 大约 100 T)
  • 阵列存储:HDS (95%,这一份投资可不小,HDS 不便宜, EMC 在 eBay 是出局者) 负载均衡与 Failover: Resonate ;


搜索功能: Thunderstone indexing system ;
数据库软件:Oracle 。大多数 DB 都有 4 份拷贝。数据库使用的服务器 Sun E10000。另外据我所知, eBay 购买了 Quest SharePlex 全球 Licence 用于数据复制.

应用服务器


应用服务器有哪些特点呢?

  • 使用单一的两层架构(这一点有点疑问,看来是自己写的应用服务器)

  • 330 万行的 C++ ISAPI DLL (二进制文件有 150M)

  • 数百名工程师进行开发

  • 每个类的方法已经接近编译器的限制

非常有意思,根据eWeek 的该篇文档,昨天还有上面这段划掉的内容,今天上去发现已经修改了:

架构

  • 高分布式
  • 拍卖站点是基于 Java 的,搜索的架构是用 C++ 写的
  • 数百名工程师进行开发,所有的工作都在同样的代码环境下进行

可能是被采访者看到 eWeek 这篇报道,联系了采访者进行了更正。我还有点奇怪原来"两层"架构的说法。

其他信息

  • 集中化存储应用程序日志;
  • 全局计费:实时的与第三方应用集成(就是eBay 自己的 PayPal 吧?)
  • 业务事件流:使用统一的高效可靠消息队列. 并且使用 Cookie-cutter 模式用于优化用户体验(这似乎是大型电子商务站点普遍使用的用于提高用户体验的手法)。

后记

零散作了一点流水帐。作为一个 DBA , 或许有一天也有机会面对这样的数据量。到那一天,再回头看这一篇电子垃圾。

更新:更详细信息请参考:Web 2.0: How High-Volume eBay Manages Its Storage 。可能处于 Cache 的问题,好几个人看到的原文内容有差异

分享到:
评论

相关推荐

    eBay数据仓库实践:元数据管理及应用

    ### eBay数据仓库实践:元数据管理及应用 #### 一、eBay的诞生与成长 eBay成立于1995年,由皮埃尔·奥米迪亚(Pierre Omidyar)创立,最初源于一个简单的想法——拍卖一个坏掉的激光指示器。这一简单尝试迅速发展...

    Python爬虫抓取Ebay页面

    通过爬虫可以收集大量的商品信息,为数据分析提供有力的支持。 #### 技术栈 1. **Python**: 一种高级编程语言,具有丰富的第三方库支持。 2. **BeautifulSoup**: 一个可以从HTML或XML文件中提取数据的Python库。 3...

    大数据Spark技术将eBay的数据仓库移至Apache Spark-Spark作为eBay的核心ETL平台共17页.pdf

    通过扩展能力,eBay旨在拥有更多的数据处理能力,进行更复杂的数据分析,以及应对数据量的持续增长。增加灵活性意味着eBay可以降低系统部署和运维的复杂性,以支持更多种类的数据应用和更灵活的数据访问。优化成本/...

    Ebay的架构发展

    随着用户基数的不断增长,单一数据库的性能逐渐成为瓶颈,Ebay开始转向分布式数据库,以支持更大的数据量和更高的访问量。 随后,Ebay开始采用微服务架构来进一步提升系统的可扩展性和灵活性。微服务架构通过将大的...

    Ebay分布式数据库实现

    在当今高度数字化的世界中,电子商务巨头如eBay需要处理大量的数据,这些数据不仅数量庞大而且分布广泛。为了有效地管理这些数据,eBay设计并实施了一套分布式数据库系统,即Data Access Layer(DAL)。本篇文章将...

    eBay架构

    数据库层面,eBay使用了分布式数据库技术,如MySQL集群和NoSQL数据库(如MongoDB),以应对大数据量和高并发的挑战。数据分区和复制策略被广泛应用,以保证数据的一致性和可用性。 在缓存层,eBay利用高性能的缓存...

    eBay小爬虫

    这意味着商家无需手动逐一复制商品信息,大大提升了效率,减少了工作量,特别是对于那些拥有大量商品的大型店铺而言,这是一个非常实用的工具。 【知识点详解】 1. **网络爬虫**:网络爬虫是一种自动化程序,它可以...

    \"Hadoop在ebay中的使用历程\"分享总结

    传统的数据处理方式无法应对如此规模的数据量,因此,eBay选择了Hadoop作为其大数据解决方案的核心。Hadoop的分布式架构允许eBay处理PB级别的数据,这使得公司能够快速响应市场变化,提供个性化的用户体验,以及进行...

    Ebay API技术开发白皮书

    ### Ebay API技术开发白皮书知识点详解 #### 一、简介 ...- **Knowledge Base**:官方知识库,包含大量关于API使用的解答,链接:[http://developer.ebay.com/DevZone/support/knowledgebase/AnswerID:1415]...

    eBay 成功 成功 成功

    这可以通过采用自动化工具来实现,比如使用列表管理软件来简化商品上架流程,或者利用数据分析工具来监控销售数据和市场趋势。同时,优化库存管理系统也能大大减少处理订单的时间,从而更快地完成交易。高效的工作...

    ebay架构原则,架构演变历史及ebay的自动化

    eBay在自动化方面投入巨大,特别是在机器学习和数据处理领域。其自动化策略主要体现在以下几个方面: 1. **搜索算法优化**:通过机器学习改进搜索算法,提高搜索结果的相关性和准确性,提供更个性化的用户体验。 2....

    Ebay架构特点(HPTS 2009)

    在数据库层面,Ebay可能采用了主从复制、分区和分片等策略来应对大数据量。主从复制保证了数据的一致性,而分区和分片则通过将数据分散到多个数据库实例上,提高了查询效率。 六、异步处理 对于耗时的操作,如订单...

    eBay大数据基本架构的未来 共23页.pdf

    据IDC报告,2005年全球数据量为130艾字节,而到2020年,这个数字预计将增长300倍,达到每年人均5,200吉字节的数据量。 面对如此爆炸性的数据增长,eBay的大数据架构需要具备高度的扩展性和适应性。一方面,公司处理...

    The big data system for eBay Paid Social Ads_黄毅铭@eBay.pdf

    系统架构方面,黄毅铭提到的大数据系统规模巨大,处理的数据量约为40TB,这需要一套强大的大数据解决方案。他提到了Feeds的Lambda架构,这是一种能够处理批量数据和实时数据的混合架构,旨在确保数据的一致性和可用...

    Laravel开发-laravel-ebay

    在传统的开发模式下,与eBay API的交互可能需要处理大量的配置和请求细节,这无疑增加了开发的复杂性。通过这个包装器,开发者可以专注于业务逻辑,而不必过于关心底层通信的实现。 这个包的核心功能包括但不限于:...

    批量寻找ebay目录编号的软件

    3. 智能推荐:如果一个标题可以匹配多个目录,软件可能会运用机器学习算法,根据以往的成功案例和数据,提供最有可能带来销售的目录编号推荐。 4. 自动化操作:批量处理功能使得用户可以一次性处理多个商品,极大地...

    The eBay Architecture

    3. **极高的交易量**:每秒交易价值超过1590美元的商品,平均每天页面浏览量超过10亿次,任意时刻大约有1亿零5百万个在线列表。 4. **高频率的API调用**:每月处理30亿次API调用。 5. **动态环境下的软件开发**:每...

    eBay技术平台:掌控十亿级交易数据(Tony Ng).zip

    9. **性能优化**:为了处理大量并发请求,eBay可能通过缓存策略、数据库优化、CDN服务等手段提高系统性能,减少延迟。 10. **数据分析与商业智能**:eBay通过大数据分析,洞察消费者行为,优化营销策略,提升用户...

    ebay architecture principle

    为了减少系统的响应时间并提高吞吐量,eBay采用了异步通信机制。这种方式允许服务之间相互独立地工作,减少了等待时间,提高了系统的整体效率。 **实施方法:** - **消息队列:** 使用消息队列(如Kafka)来处理...

    eBay大中华区外贸电商报告

    3. **移动商务的发展**:eBay和PayPal的移动应用程序下载量超过一亿次,预示着移动支付将成为未来的重要趋势。 4. **全球化视野**:鼓励大中华区商家积极拓展新兴市场,通过了解不同地区的消费习惯和商业法规来优化...

Global site tag (gtag.js) - Google Analytics