`
runfeel
  • 浏览: 935523 次
文章分类
社区版块
存档分类
最新评论

[Hadoop] 实际应用场景之 - 阿里

 
阅读更多

Hadoop在淘宝和支付宝的应用从09年开始,用于对海量数据的离线处理,例如对日志的分析,也涉及内容部分,结构化数据等。使用Hadoop主要基于可扩展性的考虑,规模从当初的3-4百节点增长到今天单一集群3000节点以上,2-3个集群,支付宝的集群规模也达700台,使用Hbase,个人消费记录,key-value型。

阿里对Hadoop的源码做了如下修改:

  • 改进Namenode单点问题
  • 增加安全性
  • 改善Hbase的稳定性
  • 改进反哺Hadoop社区
阿里数据处理的整体架构图如下:

架构分为五层,分别是数据源、计算层、存储层、查询层和产品层。
  • 数据源:这里有淘宝主站的用户、店铺、商品和交易等数据库,还有用户的浏览、搜索等行为日志等。这一系列的数据是数据产品最原始的生命力所在。
  • 计算层:在数据源层实时产生的数据,通过淘宝主研发的数据传输组件DataX、DbSync和Timetunnel准实时地传输到Hadoop集群“云梯”,是计算层的主要组成部分。在“云梯”上,每天有大约40000个作业对1.5PB的原始数据按照产品需求进行不同的MapReduce计算。一些对实效性要求很高的数据采用“云梯”来计算效率比较低,为此做了流式数据的实时计算平台,称之为“银河”。“银河”也是一个分布式系统,它接收来自TimeTunnel的实时消息,在内存中做实时计算,并把计算结果在尽可能短的时间内刷新到NoSQL存储设备中,供前端产品调用。
  • 存储层:针对前端产品设计了专门的存储层。在这一层,有基于MySQL的分布式关系型数据库集群MyFOX和基于HBase的NoSQL存储集群Prom。
MyFOX的结构图如下:

Prom(即普罗米修斯)结构图如下:

  • 查询层(glider)

  • 产品层:数据魔方、量子恒道等

分享到:
评论

相关推荐

    高级软件人才培训专家-Hadoop课程资料-1-第一章 - Hello大数据&分布式

    - Hadoop在实际应用场景中的例子。 5. **Hadoop生态系统** - Hadoop生态系统的组成部分及其功能。 - 其他相关工具和技术(如Spark、Hive等)与Hadoop的集成使用。 6. **大数据技术栈** - 大数据处理技术栈的...

    hadoop开发案例hadoop视频教程-GreenplumHadoop大数据应用案例剖析21.docx

    - **大数据处理**: Hadoop能够有效地处理PB级别的数据,适用于日志分析、推荐系统、搜索引擎等大数据应用场景。 - **高性能查询**: Greenplum的MPP架构使其能够实现高性能的并行查询,特别适用于需要快速获取分析...

    Hadoop应用案例.pptx

    本文将通过对阿里巴巴、百度、腾讯和中国移动四家公司的 Hadoop 应用案例进行分析,了解 Hadoop 在这些公司中的应用场景和技术架构。 阿里巴巴的 Hadoop 应用案例 阿里巴巴的 Hadoop 集群规模庞大,截至 2012 年...

    阿里Hadoop集群架构及服务体系

    通过阅读《阿里Hadoop集群架构及服务体系.pdf》这份文档,读者可以更深入地了解阿里巴巴是如何利用Hadoop构建起强大的数据处理能力,以及在实际应用中遇到的问题和解决方案。对于想进入大数据领域的开发者和运维人员...

    hadoop开发者第一期

    ### Hadoop 开发者第一期知识点总结 #### Hadoop简介 - **定义**:Hadoop是Apache...随着技术的不断发展,Hadoop的应用场景也在不断扩展,对于想要从事大数据领域的开发者来说,掌握Hadoop及相关技术变得越来越重要。

    大数据之路选择Hadoop还是MaxCompute?Hadoop开源与MaxCompute对比材料

    ### 大数据之路选择Hadoop还是MaxCompute? #### 一、Hadoop与MaxCompute概述 ##### 1.1 Hadoop介绍与发展历程 Hadoop是由Apache软件基金会开发的一个开源分布式计算平台,采用Java语言编写,旨在支持大规模数据...

    大数据时代:高性能Hadoop集群与应用案例

    通过合理配置高性能Hadoop集群,并结合实际应用场景,可以极大地提高数据分析的效率和质量。未来,随着数据科学的发展,Hadoop将在更多领域发挥重要作用。 以上介绍了Hadoop的基本概念、集群配置流程以及一些具体的...

    hadoop-0.20_程式设计.pdf

    - **部分内容**:文档介绍了Hadoop 0.20版本中MapReduce的基本概念、设计动机、架构以及实际应用案例。 ### 大数据处理挑战 文档中提到了大数据处理与小数据集上的计算相比面临的根本性不同挑战: - **数据规模**...

    hadoop介绍

    - **Yahoo**:使用Hadoop处理搜索日志和其他大数据应用场景。 - **Google**:虽然Google本身不直接使用Hadoop,但Hadoop的设计理念受到了Google的启发。 - **暴风影音**:使用Hadoop进行视频推荐算法的研发。 #### ...

    大数据和人工智能计算-阿里王绍翾.pdf

    #### 一、大数据计算类型及应用场景 **1. 批计算(Batch Computing)** - **定义**: 批计算是指对大量静态数据进行处理的过程,通常涉及历史数据的处理。 - **特点**: 数据集在处理过程中保持不变,而查询需求可能...

    大规模游戏社交网络节点相似性算法及其应用-10-5 阿里云 EMR StarRocks 介绍.zip

    在大规模游戏社交网络中,节点相似性算法是分析和理解用户行为、构建个性化推荐...在实际应用中,根据具体的业务需求和数据特性,选择合适的节点相似性算法,并合理利用EMR和StarRocks的优势,是实现这一目标的关键。

    Hadoop开发者入门专刊

    ### Hadoop基础知识详解 #### Hadoop概述 Hadoop是一个开源软件框架,主要用于处理大规模数据集的分布式存储和处理。...通过深入理解Hadoop的工作原理和应用场景,可以更好地利用这一强大的工具来解决实际问题。

    [阿里巴巴]-阿里技术参考图册

    5. **实战应用**:可能结合阿里巴巴的实际业务场景,展示算法在大数据处理、推荐系统、搜索引擎优化等方面的应用。 **研发篇** "AliTech101_RD.pdf"则聚焦于软件研发过程,可能包含以下几个主题: 1. **敏捷开发**...

    canal-阿里增量日志解析组件-1.1.5

    在本篇文章中,我们将深入探讨Canal的基本原理、功能特性以及实际应用。 Canal的设计初衷是为了满足企业对于数据库变更数据的实时捕获需求,尤其是在大数据处理场景下,如数据仓库构建、实时数据分析等。它能够模拟...

    Hadoop-中文教程

    Hadoop在中国的应用场景广泛,从互联网巨头到中小企业,都在积极地利用Hadoop解决大数据问题。随着中国互联网行业的迅猛发展,海量数据的存储与分析成为刚需,Hadoop凭借其优秀的性能和可扩展性,在社交网络、电商、...

    初识Hadoop.docx

    - **阿里巴巴**:阿里巴巴集团是国内最早大规模采用Hadoop技术的企业之一,主要用于电商数据处理、用户行为分析等场景。 - **腾讯**:腾讯也在社交网络数据处理方面广泛使用了Hadoop技术。 **国外应用** - **...

    阿里大数据之路:阿里巴巴大数据实践-339页.zip

    书中会详细介绍这两个平台的功能、特性和实际应用案例。 4. **数据仓库与数据湖**:阿里巴巴构建了复杂的数据仓库体系,结合数据湖理念,实现数据的统一管理和高效利用。这部分会阐述数据仓库的设计原则、数据模型...

    阿里云-阿里云数据中台2021产品年鉴:激活每一份数据,创造全新的价值-2021-125页

    阿里云数据中台2021产品年鉴不仅展示了数据中台的核心理念和技术优势,还深入介绍了其在多个行业中的实际应用案例。随着数字化转型的加速推进,数据中台将成为企业构建核心竞争力的关键所在。通过有效利用数据中台,...

    帮你顺利掌握Hadoop技术

    ### 帮你顺利掌握Hadoop技术 #### Hadoop概览 Hadoop是大数据处理领域的一个重要框架,它...Hadoop作为大数据领域的关键技术之一,其应用场景日益广泛,掌握Hadoop不仅能提升个人技能,还能为职业发展开辟更多可能性。

Global site tag (gtag.js) - Google Analytics