揭秘eBay架构与存储 -

weifengaa

浏览: 7305 次
性别:
来自: 上海

最近访客更多访客>>

InJavaWeTrust

woodding2008

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

揭秘eBay架构与存储

博客分类：

架构

网络应用搜索引擎 Perl 设计模式应用服务器

eBayd Web领域树立了一个典范。从一系列的数据当中都可以看到，这样一个超大规模的网站，其数据和计算量对技术的要求非常之高。为了能保证全球两亿多用户的正常访问，除了要有优良的技术架构作为支撑外，每天产生的海量数据也需要精心保存。作何一个开发人员和信息管理人员面对这样艰巨的任务都如履薄冰。为此本刊组织了两篇eBay的技术文章，以飨读者。

扩展：不仅仅关于架构

文/Frank Sommers 译者/靳黎明

在2006 SD论坛中，两位eBay的架构师发表演讲，总体阐述了两个主题：eBay的架构是如何处理每天十亿次的页面访问请求，以及该架构是如何从当初的Perl脚本演化到目前的运行在8个数据中心的1万5千个应用程序例。该演讲所得出一个结论就是，扩展仅仅是架构中的问题。

eBay系统架构的演化

在2006 SD论坛中，Randy Shoup和Dan Pritchett都结合eBay发表了关于eBay架构的演讲。Pritchett随后在他的Blog中发布了一个演讲幻灯片——标题为eBay的架构。

意料之中，他在演讲中提到了一些令人惊叹的统计数字，具体如下：

l         2亿1千2百万注册用户

l         每天10亿次的访问量

l         每天260亿次的SQL查询和更新

l         超过2千万亿的数据量

l         每秒价值1590美元的货物交易

l         超过10亿张的图片存储

l         7种不同的语言

l         99.94%的系统可用性

与开发过程和特性相关的其他统计数据，如下：

l         每季度网站新增300多项新特性

l         每两周发布超过十万行的代码

根据他的演讲，尽管eBay的架构已经达到了如此大的规模，但是，eBay期望能够在短短几年内实现它的目标——处理通信量高达十倍的额外增长。另外一个架构目标是，能够处理峰值载荷，并且在非常负载或者系统瘫痪的情况下能够使组件安全地停止工作而不致受损。

根据演讲的内容，目前，eBay的系统架构正朝着第四个版本努力。当然，演讲中最吸引人的技术部分也主要是关于这个版本的各种技术信息，例如，演讲者所讲述的是扩展应用程序层的第一步：摒弃大部分的J2EE特性。取而代之的是，他们注意到“eBay采用Servlets 和一个重写的连接池进行扩展。”

根据演讲的介绍，关于应用程序层扩展的另一吸引人的方面是，在应用程序层完全不保存会话状态信息。取而代之的是，“在cookie或者scratch数据库中保存过渡状态。”为了实现数据存取，eBay使用内部开发的Java O/R映射解决方案。

在扩展该网站的搜索方面，演讲者注意到一个与众不同的需求，而这是Google这样的通用Web搜索引擎所不会遇到的问题，即：eBay的用户期望能够在搜索结果中立即查询出他们对数据所做出的变动。同样地，拍卖者确切地知道他们所期望的搜索结果——举个例子，他们刚刚列出的项目必须出现在所有相关的搜索结果中。显而易见，在最新版eBay搜索的重架构出现之前，仅仅是更新一次搜索的索引也需要9个小时。

演讲者说到了很多类似的具有挑战性的问题，同时也深入探讨了问题的解决方案。然而对我而言，演讲中令我最感兴趣的话题是，关于eBay架构本身是如何演化的介绍。关于这个话题，我们需要对第一版本的架构进行一些思考，例如：

l         1995年的一个周末Pierre Omidyar构建了第一版本的架构

l         每个项目是一个单独的文件，由Perl脚本生成

l         没有搜索，只能够按照类别进行浏览

l         系统硬件是由能够在Fry商店购买的商品零件所组装的

从1995年到1997年9月，eBay一直使用这个架构。演讲提到，那时，eBay已经是一个比较有名的网站了，而且它的架构也达到了5万项的最高值。

接下来的几次迭代使得eBay的架构进入了3层架构的阶段，最初是在微软的IIS服务器上，然后转移到Java中。最终的几个版本表明，需要摒弃J2EE的很多特性，以高度化定制的架构来满足eBay的独特需求。

关于eBay所经历的这四个主要的架构版本，一种观点是，这四种版本是一场进化。然而，另外一种观点是，这四个版本形成了一个完整的圆圈：刚开始时，采用设计定制的解决方案，最终又转回到定制解决方案上来。

根据对各个不同架构阶段的介绍，我非常希望了解，eBay的架构师在解决表现层扩展这一迫切问题上达到了哪种程度，他们希望在系统中实现可扩展性以此来处理将来的负载，那么这一目标的实现又达到了何种程度。即使是为将来考虑，那么，架构师需要预测未来某些假设的时间点处系统的可扩展性，他们的这一能力又达到了何种程度呢？

关于这些预测的一个问题是，即使目前的操作系统中保存的大量数据都是可供使用的，系统的使用模式也会发生改变的——举个例子，用户可能开始喜欢视频而不是简单的图片，或者语音电话作为系统交互的一部分。根据演讲的内容，这些使用模式的变化完全可以很快地到来，尤其是当平均架构生命周期变成了大约2-3年。例如，两三年前，听说过YouTube的人很少，但是，在该公司短短的两三年生命周期中，数百万的用户已经习惯于网络视频了。

实现扩展：组织能力+架构

   我认为最后争论的这个问题是这次eBay演讲主要信息之所在。对我来说，关于eBay架构的变革，最惊人的方面不仅仅是每一个架构时期所采用的解决方案技术的卓越，还有这个事实——eBay能够通过对系统进行不断的改进来迎接所遇到的各种挑战，所有阶段的努力使得这个网站长久不衰。

有趣的是，它建议你几乎可以从任何一种架构开始做起——甚至是使用Perl或者Rails或者JSP页面——当你需要扩展你的应用程序时，只要你知道如何转移到下一步，并且有能力实现。反过来，它也建议，可扩展性的关键并不完全是每个架构阶段之间如何进行扩展，而是一个公司或者一个组织如何把应用程序从一个架构阶段推进到下一阶段。这表明，扩展像技术问题一样是个人或者组织的问题。

当然，这并没有什么令人惊讶的，因为，与架构设计一样，扩展也总是可以实现的。（eBay演讲的最后一部分就讲解了扩展的可操作性这个主题——例如，它解释了1万5千个应用程序实例是如何通过八个数据中心进行管理的。）然而，如果从更宽广的视角来看待扩展的话，其中两个普遍存在的扩展方式可能在实际中是没有用处的。

一个方式是，从开始就过于强调可扩展性的设计。大多数开发人员都知道架构的扩展无法从一开始就确定，但是，在某些情况下，架构师仍然宁愿花费过多的精力来试图设计一个能够长期满足应用程序需求的架构。Pierre Omidyar基本上不同意这个观点，这就是为什么他会选择在他的初始版本中使用Perl脚本以及每个项目一个文件的机制，而不采用一劳永逸的方式。

第二个主张可扩展性无用的观点认为，可扩展性和性能一样纯粹是事后考虑的，而且反对在应用程序开发的初始阶段就考虑可扩展性。XP倡导者有些时候利用这一观点辩护，因为他们更热衷于快速地写代码，而不是考虑以后这些代码将如何进行扩展以处理将来的应用程序工作负载。

实际上，这两种观点都是没有太大用处的。更加现实的观点是，第三种观点，把扩展作为组织上甚至是业务层上的能力的一部分。预测将来的工作负载是非常困难的，我们需要认识到这一点，那么，如果可以预测的话，这个观点将主要用于这种架构——处理近期进行的扩展，同时允许对特性进行快速部署，以使应用程序的实际用户能够为支持将来的架构更新生成业务合理性。然而，远远不同于把扩展作为组织甚至业务能力开始，发展到能够处理系统的架构变化。这看起来正是2006 SD论坛上eBay架构师所做演讲的观点之所在。
那么在你的项目中，你什么时候开始考虑实现扩展性呢？

分享到：

eBay是如何管理海量数据的

2009-12-21 10:25
浏览 1936
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

揭秘EBAY架构与存储: 关于ebay的存储及架构内容的一些介绍，从最初的版本，到现在到支持上亿用户，上亿次请求的发展过程。

外加热强制循环蒸发器装配图（CAD).rar: 外加热强制循环蒸发器装配图（CAD).rar

数控车床纵向进给系统设计.zip: 数控车床纵向进给系统设计.zip

vault_side_off_ominous.png: j

爬虫 bangumi名称和评论数: 爬虫 bangumi名称和评论数

基于SpringBoot的垃圾分类回收系统(源码+数据库+万字文档)526: 基于SpringBoot的垃圾分类回收系统，系统包含两种角色：管理员、用户主要功能如下。【用户功能】首页：浏览垃圾分类回收系统信息。个人中心：管理个人信息，查看历史记录和订单状态。运输管理：查看运输信息，垃圾回收的时间和地点。公告管理：阅读系统发布的相关通知和公告。垃圾回收管理：查看垃圾回收的信息，回收类型和进度。垃圾出库申请管理：提交和查看垃圾出库申请的状态。【管理员功能】首页：查看垃圾分类回收系统。个人中心：管理个人信息。管理员管理：审核和管理注册管理员用户的信息。用户管理：审核和管理注册用户的信息。运输管理：监管和管理系统中的运输信息。公告管理：发布、编辑和删除系统的通知和公告。垃圾回收管理：监管和管理垃圾回收的信息。垃圾出库申请管理：审批和管理用户提交的垃圾出库申请。基础数据管理：管理系统的基础数据，运输类型、公告类型和垃圾回收类型。二、项目技术编程语言：Java 数据库：MySQL 项目管理工具：Maven 前端技术：Vue 后端技术：SpringBoot 三、运行环境操作系统：Windows、macOS都可以 JDK版本：JDK1.8以上都可以开发工具：IDEA、Ecplise、Myecplise都可以数据库: MySQL5.7以上都可以 Maven：任意版本都可以

这篇文章是台湾大学（NTU）计算机科学与信息工程系（CSIE）2021年秋季学期算法设计与分析课程的第一份作业（Homework#1）的具体要求和题目描述以下是主要内容的总结：: 内容概要：本文档是台湾大学计算机科学与信息工程系2021年秋季学期《算法设计与分析》课程的第一次作业（Homework#1）。作业包含四道编程题和三道手写题，旨在考察学生对算法设计和分析的理解与应用能力。编程题涉及汉诺塔、数组计算、矩形点对、糖果分配等问题；手写题涵盖渐近符号证明、递归方程求解、幽灵腿游戏优化、不公平的卢卡斯问题等。文档详细描述了每个问题的具体要求、输入输出格式、测试用例以及评分标准。此外，还提供了编程技巧和注意事项，如避免延迟提交、正确引用资料、处理大输入文件等。适合人群：具备一定编程基础的本科生或研究生，特别是修读过或正在修读算法设计与分析相关课程的学生。使用场景及目标：①帮助学生巩固课堂所学的算法理论知识；②通过实际编程练习提高解决复杂问题的能力；③为后续更深入的学习和研究打下坚实的基础。其他说明：此作业强调团队合作和个人独立思考相结合的重要性，鼓励学生在讨论后用自己的语言表达解决方案，并注明参考资料。对于编程题，特别提醒学生注意输入文件可能较大，建议采取适当的优化措施以确保程序运行效率。

基于SpringBoot的铁路订票管理系统(源码+数据库+万字文档+ppt)528: 基于SpringBoot的铁路订票管理系统，系统包含两种角色：管理员、用户主要功能如下。【用户功能】首页：浏览铁路订票管理系统的主要信息。火车信息：查看火车的相关信息，包括车次、出发地、目的地和票价等。公告资讯：阅读系统发布的相关通知和资讯。后台管理：进行系统首页、个人中心、车票预订管理、车票退票管理等操作。个人中心：管理个人信息，查看订单历史记录等。【管理员功能】首页：查看铁路订票管理系统。个人中心：修改密码、管理个人信息。用户管理：审核和管理注册用户的信息。火车类型管理：管理系统中的火车类型信息。火车信息管理：监管和管理系统中的火车信息，添加、编辑、删除等。车票预订管理：处理用户的车票预订请求。车票退票管理：处理用户的车票退票请求。系统管理：管理系统的基本设置，公告资讯、关于我们、系统简介和轮播图管理。二、项目技术编程语言：Java 数据库：MySQL 项目管理工具：Maven 前端技术：Vue 后端技术：SpringBoot 三、运行环境操作系统：Windows、macOS都可以 JDK版本：JDK1.8以上都可以开发工具：IDEA、Ecplise、Myecplise都可以数据库: MySQL5.7以上都可以 Maven：任意版本都可以

塑料架注射模具设计.rar: 塑料架注射模具设计.rar

基于json文件数据驱动的的接口测试框架.zip: 基于json文件数据驱动的的接口测试框架

铁丝缠绕包装机设计-缠绕盘设计.rar: 铁丝缠绕包装机设计-缠绕盘设计.rar

Linux操作系统及常用命令详解.zip: linux

圆柱体相贯线焊接专机工作台设计.rar: 圆柱体相贯线焊接专机工作台设计.rar

硬币分拣机设计.rar: 硬币分拣机设计.rar

【机器学习与数据挖掘】行业级机器学习软件开发经验与教训：从LIBSVM和LIBLINEAR看算法部署及软件设计挑战: 内容概要：本文探讨了开发行业级机器学习和数据挖掘软件的经验与教训，指出当前研究界与工业界之间的脱节问题。作者分享了开发LIBSVM和LIBLINEAR的经验，强调了用户需求的重要性。大多数用户并非机器学习专家，期望简单易用的工具来获得良好结果。文章还详细介绍了支持向量机（SVM）的实际应用案例，包括数据预处理（如特征缩放）、参数选择等步骤，并提出了为初学者设计的简易流程。此外，作者讨论了在设计机器学习软件时应考虑的功能选择、选项数量、性能优化与数值稳定性等问题，强调了软件开发与实验代码的区别以及鼓励研究人员参与高质量软件开发的重要性。适合人群：对机器学习软件开发感兴趣的科研人员、工程师及从业者，尤其是那些希望了解如何将学术研究成果转化为实际可用工具的人士。使用场景及目标：①帮助非机器学习专家的用户更好地理解和使用机器学习方法；②指导开发者在设计机器学习软件时考虑用户需求、功能选择、性能优化等方面的问题；③促进学术界与工业界之间的合作，推动高质量机器学习软件的发展。其他说明：本文不仅提供了具体的开发经验和技巧，还呼吁建立激励机制，鼓励更多研究人员投入到机器学习软件的开发中，以解决当前存在的研究与应用脱节的问题。

pandas学习代码，jypyter格式: 一天入门pandas代码

joblib-0.12.0-py2.py3-none-any.whl: 该资源为joblib-0.12.0-py2.py3-none-any.whl，欢迎下载使用哦！

深度学习基于PyTorch==2.6.0和Transformers==4.48.0的XTuner环境配置：AI模型开发与优化依赖库列表: 内容概要：本文档《xtuner_requirements.txt》列出了用于支持特定项目（可能是机器学习或深度学习项目）运行所需的所有Python包及其版本。其中不仅包括常见的数据处理和科学计算库如numpy、pandas，还包括了与深度学习密切相关的库如torch、transformers等。值得注意的是，文档中还特别指定了NVIDIA CUDA相关组件的具体版本，确保了GPU加速环境的一致性和兼容性。此外，文档中也包含了从GitHub直接安装的xtuner库，明确了具体的提交哈希值，保证了代码来源的精确性。适合人群：对机器学习、深度学习领域有一定了解并需要搭建相应开发环境的研发人员，尤其是那些希望复现特定实验结果或基于已有模型进行二次开发的研究者和技术爱好者。使用场景及目标：①帮助开发者快速搭建完整的开发环境，确保所有依赖项正确无误；②为研究人员提供一个稳定的实验平台，以便于重复实验和验证结果；③作为项目协作的基础，确保团队成员之间的环境一致性，减少因环境差异带来的问题。阅读建议：由于该文档主要为技术性依赖列表，在阅读时应重点关注所需安装的库及其版本号，特别是CUDA相关组件和自定义库（如xtuner）的安装方式。对于非技术人员而言，可能需要额外查阅相关资料来理解各库的作用。同时，在实际操作过程中，建议按照文档中的顺序逐一安装依赖，避免版本冲突等问题的发生。

vault_side_on_ominous.png: j

液氮带控制点工艺流程图.rar: 液氮带控制点工艺流程图.rar

最近访客 更多访客>>