`
jianchen
  • 浏览: 344834 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

淘宝伏威的访谈

阅读更多


之前在百技有听过伏威的课程,当时印象很深刻是他的笑声,那是相当的impressive。从他的身上,感觉到管理与技术很好的融合。听了infoq上的访谈,对淘宝的系统,以及认识上果然比我们要深刻的多啊。以下是我听完后的大概记录。讲的还是蛮不错的。对双十一,淘宝的应对措施做了阐述,对于我们以后遇到这种高访问量的情况,很有指导意义。


其实到现在为止距离淘宝双十一事件已经过去蛮多天了,但在整个技术圈里 面大家还是津津乐道。我这次在采访之前在和一些网友做沟通的时候,他们也提出了非常多非常有意思的问题,包括一些高并发的,一些压力测试的等等,那我希望 也代表这些网友和你做一个交流。那第一个问题就是,在那么大的访问量,淘宝的技术团队是如何做到一个高并发处理的?  

答:CDN ,将资源放在离用户最近的位置。 Node balance 如何去做均衡处理。对用户的登陆状态的记录,因为每次处理请求的机器可能不同。

应用集群与后端的服务集群之间如何均衡处理访问请求。

核心服务与数据库,分布式缓存等

做到水平扩容,可以通过加机器的方式进行扩展。

从前台到后端,每一个地方都有优化的地方。

 

一个比较具体的问题就是像高并发访问页面数据,如果说实时更新的话,它应该是如何去做到实时的同步?

答:大部分系统存储的源和访问的源是相同的。

不过做了读写分离,存储的源与访问的源是不同的,存在一个数据集群同步的操作,有一个时间延迟,当然对前端用户而言,是感觉不到的。数据库层面的读写分离,一个可以用由应用去做,写两份数据,或者通过消息做异步的复制。另外可以通过数据库日志进行分析,发现变更的数据,就将其同步到另外一个数据集群里。

 

那我们来谈一谈就是一些关于压力集成测试的问题,很多网友他想了解一下在淘宝双十一事件之前,淘宝的整个技术支撑团队,有没有对网站做一些比较大的压力集成测试?

答:没有。因为很难。由于淘宝的系统耦合性很低,无法做到完全复制一个淘宝,模拟出大量的用户请求进行模拟测试。思路是对每个系统独立性能测试,对核心系统寻找性能的短板,发现短板进行解决。性能测试团队建立了性能测试模型,可以做到压测出数据库的与 JVM 的问题。当然这种压测需要设备,成本,人力投入还是蛮大的。硬件要是一样的,系统部署也要是一样的。还有一个模式,是在交易非高峰期,进行引流量到某台机器,进行压测,这样可以最接近访问实际情况,但在这么做有一定的风险,很有可能导致某些用户访问出现问题,所以不要追求数据的极限,觉得可以接受,就可以了。

 

经过这个压力测试,包括对数据库,对 JVM ,包括对操作系统,可能都会它们的缺陷给找出来, 那么你们会针对这些缺陷会调整它们的系统参数吗?

这些参数会进行调整。参数调整与性能压测会持续的循环。不会再双十一那天进行参数的调优,这说明平时的工作没有做好,这个一定是之前的工作就要做到位的。

 

 

其实在双十一事件之前,你们也做了很多的预案,当然对访问量也做了一些 预估,有些人就想了解一下,如何对访问量做预估,能够让它的准确性更高。因为你准确性更高的话,这样你才能准备更多的机器包括一些存储设备来应付这样的情况?  

答:当天的流量很难预估的,很难预估到会员的购物热情。我们可以做到是,根据历史数据,知道系统的压力和配比情况,系统压力增长 50% 的话,需要预留的机器,当压力增长 100% ,又需要预留多少机器。这个是可以提前有所准备的。

那么大的访问量有运用到一些像虚拟化技术或者云计算技术这样的一些技术 吗?

所有的应用都是运行在虚拟机上,就是在实体机会被分割成 3 4 台虚拟机,在这个上面部署应用。云的方面,随时划分机器,动态分配资源,目前还做不到,目前是通过加机器做到水平扩容,这也是努力的方向 .

 

那面对这么高的访问量,淘宝技术团队是怎么来监控各个关键点压力的?就是如果说某一个节点上 出现压力或者故障,如何去比较平滑的去切换处理?  

答:

1, 淘宝有一个监控中心 , 对系统的流量 , 访问情况 , 压力 , 进行监控 . 会设置预警点。

2, 每个系统的支撑团队要有自己系统的监控机制,做到心中有数,允许团队自己构建监控机制。

3, 当系统发生风险的时候,要及时反馈,汇报给 leader ,配合进行改造。

4,  水平的且流量还是会做的,当时工作在平时,最好有所准备。

5,  服务降级。

 

我听过一些传言说,如果说这个交易再持续那么几分钟,那整个的系统可能就会出现问题,有没有 这么回事?

时间不是问题,当支撑过去的时候, 3 分钟, 3 小时, 3 天时没有差别的。真正会有影响的是流量如何再增长 10% 或者 20% ,就有可能挂掉,淘宝的周边系统,比如银行,支付宝,旺旺,会可能出现问题。不过双 11 庆幸的是流量在预留的范围内撑住了。明年就可能会做 4 倍, 5 倍的考虑。

 

整个实践来讲还是比较平滑的。那我们想了解一下,作为整个淘宝研发团队 的负责人之一,在未来淘宝在做一些技术改造的时候,它应该沿着一种什么样的方向去走,有没有什么样的一种思路?  

答:1,希望保持交易的稳定,可水平扩容。提供额外的服务,支持业务多样化。

2,这些核心系统可以做剥离,做到可插拔。当然这个是与 SOA 的可插拔有区别的。  

3,单打独斗的时代结束了,技术需要做到更全面的评估,看到更广的范围。比如 UIC 对后台的存储, DBA 的合作,网络的合作。之前有过 R      EVIEW,UIC 应用服务器与缓存服务器之间的路由遇到瓶颈了,所以对网络拓扑都要考虑。不同的团队有不同的方向,但是在整体上做到。

 

那总结一下就是核心系统要比较精巧,外围系统可以稍微复杂一点。但是另外就是非常讲究一个 整体性的一个往前推进。

分享到:
评论

相关推荐

    blog:伏威的Blog

    #伏威的Blog代码 Blog构建于 详细的构建说明,请参考,其特点是静态BLog,可以快速的跑在树莓派上,并且可以同步到github,同时生成两个镜像站点。 本站点的编辑器使用的是,同样来至于hugozhu的推荐。

    威的思维理论对学习策略的启示.pdf

    【杜威的思维理论与学习策略】 杜威的思维理论是教育领域中具有深远影响的理论之一,他提出思维可以分为五个步骤:暗示、感觉的问题、假设、推理、检验假设。这一理论对于理解和构建有效学习策略具有重要意义。...

    Cocos2D-iPhone开发教程(最全,最威的)

    Cocos2D-iPhone是一款基于Objective-C的2D游戏开发框架,它被广泛应用于iOS平台上的游戏和图形应用开发。这个“Cocos2D-iPhone开发教程”是为初学者和有一定经验的开发者设计的,提供了详尽的指导,帮助你快速掌握...

    荧光光谱法测定杀虫剂抗蚜威的残留量 (2010年)

    基溴化胺( CTMAB)能使其荧光有一定程度的增敏,且荧光强度与抗蚜威的浓度呈良好的线性关系,据此建立了测 定食品中抗蚜威残留量的简便、灵敏的荧光光度法。该法抗蚜威浓度线性范围为0.006~0 .14μg . mL-1,检出限 为...

    HPLC-MS/MS法快速测定果蔬中的杀线威和涕灭威残留 (2006年)

    杀线威、涕灭威的检测限分别为.0.4ng、0.1ng;方法的回收率为85.8%~92.7%。方法的灵敏度高,选择性好,不需要特殊的净化,缩短了整个样品的分析时间,用于蔬菜和水果中的灭多威、涕灭威的测定,获得满意的效果。

    电梯的微机控制系统

    电梯的微机控制系统

    川教版七年级下册第六学习主题第1课从“开皇之治”到“贞观之治”课件(42张).ppt

    4. **唐朝的建立**:隋末农民起义频发,其中李密的瓦岗军、窦建德的河北起义军和杜伏威的江淮起义军最为著名。隋朝的崩溃为唐朝的建立创造了条件,唐高祖李渊在618年在长安建立唐朝,标志着一个新的历史时期开始。 ...

    interbus4.0

    ### 相关知识点 #### CORBA概述 - **CORBA**(Common Object Request Broker Architecture,通用对象请求代理系统)是一种面向分布式计算环境的标准,旨在使不同计算机上的软件组件能够通过网络进行通信,无论它们...

    纳芯威国产音频功放芯片大全.rar

    1. 高效率:纳芯威的音频功放芯片通常具有较高的转换效率,能在低电压下工作,节省能源,尤其适合移动设备。 2. 高保真音质:设计时注重低失真和宽频带,确保输出声音接近原始音频信号,提供优质的听觉体验。 3. ...

    数据威-2020年618电商大促洞察分析—母婴亲子专场-2020.7-72页精品报告2020.pdf

    报告还详细介绍了数据威的六大核心产品,这些产品旨在为品牌商提供全方位的数据支持。这些产品包括行业分析、品牌分析、店铺分析、宝贝分析、营销组合分析和钻展分析等模块。其中,特别提到了品牌直播间的KOL管家,...

    MM_FS_CNJ_0062 出口粮谷中仲丁威残留量检验方法

    美食该如何制作?食品安全以什么为标准?用什么来检测食品成分?这么一份MM_FS_CNJ_0062 出口粮谷中仲丁...该文档为MM_FS_CNJ_0062 出口粮谷中仲丁威残留量检验方法,是一份很不错的参考资料,具有较高参考价值,感...

    2020年618大促全域数据解读:母婴专场精品报告2020.pdf

    报告详细介绍了数据威的大数据存储和处理能力,每天处理超过4TB的数据,电商数据条目超过2亿条,数据覆盖了中国95%以上的电商市场,包括天猫、淘宝、京东、考拉、苏宁、国美等主流电商平台。数据威为1000+家品牌电商...

    保利威&视频号直播联合解决方案.pdf

    保利威的直播全流程SOP帮助用户规避了直播过程中可能出现的问题,提高了直播的专业性和顺畅度。这意味着企业或个人无需过多考虑技术问题,可以将精力集中在内容创作和观众互动上。保利威的专业服务能够帮助用户优化...

    城市设计资料-简阅 卢济威.rar

    卢济威的资料可能讨论了如何运用信息技术来提升城市管理效能,如物联网、大数据和人工智能在公共服务、交通管理和能源优化等方面的运用。 10. 总体规划与详细设计:城市设计既有宏观的总体规划,也有微观的详细设计...

    GMTC2018-《美团客户端基于响应式的架构实践》-臧成威1

    在GMTC2018大会上,美团iOS高级技术专家臧成威的演讲《美团客户端基于响应式的架构实践》为业界提供了一个值得参考的案例。通过臧成威的分享,我们可以了解到声明式编程在现代软件架构中的重要性,以及响应式编程...

    1995-2020经济自由度指数

    威的经济自由度评价指标之一,在一个指标上分数越高,政府对经济的干涉水平越高,因此 经济自由度越低。各个指标累加后的平均值可以计算出总体系数。美国传统基金会的观点是 ,具有较多经济自由度的国家或地区与那些...

    小学语文S六年级下船长概要PPT学习教案.pptx

    本文将围绕这一课文,深入探讨其主要内容、人物特质以及教学意义,旨在帮助学生深入理解维克多·雨果这位19世纪法国伟大作家笔下的人物精神,并通过船长哈尔威的形象,启发学生对勇气、责任和人性的深刻思考。...

    新领导要立威,往往收拾的是这六类员工,你在其中吗.docx

    总的来说,新领导在树立权威的过程中,需要审慎选择立威的对象和方式,确保管理措施既能够维护团队的执行力和效率,又能够促进团队成员之间的合作与信任,最终形成一个稳定且向心力强的工作团队。

    流动注射化学发光法测定水中的甲萘威 (2008年)

    在酸性介质中硫酸铈与甲萘威作用,有微弱的发光现象,基于罗丹明 B对该发光反应有明显的增敏效果,结合流动注射技术建立了一种测定甲萘威的简便快捷灵敏的方法. 该方法的检出限为 5.6×10 - 9 mol/L,线性范围是2.0×10 ...

    生产政治的劳动过程理论——评布若威《制造同意》.docx

    迈克·布若威的著作《制造同意》为我们提供了一个理论框架,用以探讨和理解这一议题。本文将重点分析生产政治的劳动过程理论,以及布若威是如何在《制造同意》一书中对这一理论进行阐述的。 马克思的劳动过程理论...

Global site tag (gtag.js) - Google Analytics