`
rq2_79
  • 浏览: 240288 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

淘宝分布式数据处理实践

阅读更多

近日,由中科院计算所主办的“Hadoop 中国2010云计算大会”在北京召开,今年已是第四届举办。包括百度、淘宝和中移动在内的诸多企业都展示了基于Hadoop的应用。在本次大会上淘宝数据平台及产品部基础研发组周敏介绍了淘宝对Hadoop的功能扩展和改造,分布式数据仓库的构思,并着重介绍了对Hive实践以及改造。以下是周敏在本次大会的ppt节选。 

淘宝数据图

淘宝望目前有会员2亿左右,日均UV高达4000万,日交易量高达数亿元,每天产生大量的数据,所以部署了一个大规模的Hadoop集群,此集群规模为:

 1.总容量为9.3PB,利用率77.09%。

2.共有1100台机器。

3.Master:8CPU,48GB内存,SAS Raid。

4.Slave节点异构:

               8CPU/8CPU(HT)

               16G/24G内存

              1T*12/2T*6/1T*6 SATA JBOD

              12/20 slots

             

5.约18000道作业/天,扫描数据:约500TB/天用户数474人,用户组38个

其中,从两方面介绍了Slave的规模:

1.Slave机器异构

6T机器磁盘利用率较高

 Rebalance

单机速度控制:10M/s

每天9:00-23:30运行

2.Slave故障率

每周10-20次硬盘规章

 每周1-2次主板或其他故障

 

以下为淘宝基于Hadoop版本介绍

1.基于0.19.1

2.大量Patch,主要来自官方社区0.19.2,0.20,0.21等,少部分自己开发

3.Hadoop客户端和服务端代码开发分离,云梯管理员只负责服务端升级,并保持版本向下兼容。

在Hadoop功能方面的扩展有几个方面:

1.安全性

   密码认证

  扩展ACL,用户访问其他组的数据

2.Scheduler

   基于FairScheduler的改造

   slots动态调整

   各个组使用自己的资源

3.Slave单磁盘容错

   DataNode坏掉一块磁盘不需要停止,减少数据分发

  TaskTracker坏掉一块磁盘后不对作业造成影响

  周敏还介绍了淘宝在Master节点容灾的解决方案及将来在这方面的工作计划:

1.   3个Master+1个Standby节点

   配置文件一致,上传至SVN

2.    JobTracker无元数据,JobHistory每天备份七天前的历史文件

3.    NameNode和SecondaryNameNode

 Check point 1天做一次(晚上8点之后),降低NameNode启动时间

  Fsimage和edits同时通过NFS写到SNN上,元数据保存两份

4.Standby在NN或JT机时启用

周敏表示,在这方面还有很多工作要做:

1.JobTracker单点问题

  调度效率低下导致集群利用率不足

2.NameNode HA

  AvatarNode

3.Namenode内存瓶颈

Heap Size 40G,CMS gc之后23G

分布式NameNode ,Dynameic Partition Tree

4.Hadoop升级

5.OSD及CRUSH算法

由于数据量比较大,有些记录格式有错,使得自己编写MapReduce Job生成的数据总是少了一些,基于Hive很多的有点,所以项目就用Hive来写:

在使用Hive时的经验图

淘宝对Hive的使用时对一下几方面进行了改造:

1.UDFs

2.建立/删除临时函数

3.多线程Thrift server

4.GBK支持

5.完全JDBC

6.Multi Distinct Aggregation支持

7.认证与权限

8.bug fix

 

 

  淘宝将来在Hive方面的工作图

分享到:
评论

相关推荐

    分布式消息中间件实践_倪炜(著)

    分布式消息中间件是现代软件架构中的重要组成部分,特别是在微服务和大数据处理场景中,它们扮演着数据通信的关键角色。本书《分布式消息中间件实践_倪炜(著)》深入探讨了四种主流的消息队列(Message Queue,MQ)...

    分布式系统工程实践_taobao

    理解这些基础硬件知识有助于优化分布式系统的性能,并能更有效地处理大规模数据。 ##### 2.2 性能估算 性能估算是评估分布式系统效能的重要手段。这部分涵盖了如何估计系统的吞吐量、响应时间和可扩展性等方面。...

    分布式数据层理解

    **淘宝分布式数据层**的相关资料可能详细介绍了淘宝在实现分布式数据层时所面临的挑战、解决方案以及实践经验。这些资料可能涵盖淘宝如何设计和实施分片策略,如何处理大数据量下的事务处理,以及如何通过Cobar等...

    阿里分布式数据库服务实践

    2. **应对大数据量**:面对中国13亿用户及全球50亿用户,单机数据库难以支撑如此大规模的数据处理需求。 3. ** Scaleout 和 Scaleup**:DRDS支持多机水平扩展,通过廉价数据库阵列满足用户需求,优势在于低成本、...

    TFS淘宝分布式核心存储引擎

    本文将深入解析TFS的核心概念、设计原理以及应用实践,为读者提供一个全面了解淘宝分布式核心存储引擎的视角。 TFS的设计目标是为大规模在线服务提供高吞吐量、低延迟的数据访问。作为一个专门为大规模互联网应用...

    淘宝分布式并行计算四合一框架Fourinone

    《淘宝分布式并行计算四合一框架Fourinone》 ...阅读《淘宝分布式并行计算四合一框架Fourinone.pdf》文件,可以深入理解其设计理念、实现原理以及具体应用案例,对于理解和实践分布式系统有着极高的价值。

    [网盘]大型分布式网站架构设计与实践.pdf

    大型分布式网站架构设计与实践.pdf <br/>《大型分布式网站架构设计与实践》主要介绍了大型分布式网站架构所涉及的一些技术细节,包括SOA架构的实现、互联网安全架构、构建分布式网站所依赖的基础设施、系统稳定...

    分布式Java应用:基础与实践.pdf

    作者将理论知识与自己在淘宝网担任系统架构师期间的实践经验相结合,提供了大量代码、数据和图表,增强了书籍的实用性和指导性。尽管存在可以改进的空间,例如对并发设计和算法设计的深入介绍,分布式应用安全问题的...

    陈吉平:高可用分布式数据库系统架构实践

    - **云计算与平台服务**:借鉴Amazon等公司的成功经验,探索利用云服务提供的基础设施,如S3、Ec2和SimpleDB等,以构建更加灵活高效的数据处理平台。 - **无数据库持久层**:未来可能会出现更多无需传统数据库的持久...

    淘宝数据仓库架构实践

    在淘宝数据仓库中,元数据平台的架构设计不仅需要支持复杂的数据处理任务,还要能够承载大数据量的元数据信息。架构应包含以下几个关键组成部分: - 元数据系统:它是元数据平台的核心,管理和维护着整个数据仓库的...

    大数据云计算技术 淘宝网Hadoop与数据分析 taobao数据团队(共30页).ppt

    本篇将深入探讨Hadoop这一大数据处理框架在淘宝网中的应用,以及其在数据分析领域的实践。 一、Hadoop基本概念 Hadoop是Apache基金会开发的一个开源项目,主要用于大规模数据集的分布式计算。其主要包含两个核心...

    分布式消息引擎Apache RocketMQ最佳实践

    ### 分布式消息引擎Apache RocketMQ最佳实践 #### 一、分布式消息与流处理领域 在分布式计算领域中,消息传递是一种重要的通信机制。通过消息系统可以实现不同服务之间的解耦,提高系统的可扩展性和可靠性。Apache...

    淘宝嘉年华分布式资料共享

    - **提高数据处理能力**:面对淘宝嘉年华期间的高并发访问需求,确保系统能够稳定地支持每秒数千次事务处理(TPS)以及数万次查询(QPS)。 - **降低成本**:在满足性能需求的前提下,尽可能控制硬件投入成本。 - **增强...

Global site tag (gtag.js) - Google Analytics