`
eric_weitm
  • 浏览: 243740 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

大数据数据仓库 《大数据之路:阿里巴巴大数据实践》 读书笔记

 
阅读更多

一、基本概念

    1、数据仓库:是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。

    其中最核心的是集成。

    2、ETL:抽取 转换 加载 把数据从不同的oltp系统中集成到数据仓库中的过程

    3、数据模型:仓库里的数据怎么组织?(数据结构)目前业界的事实标准是 维度模型

    4、大数据:大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。 

        简单说:能够支持全量数据分析的一系列技术

 

二、阿里的大数据体系架构

    1、采集和同步

    2、数据仓库(onedata) 

    3、数据服务(简单 实时 推送) 解决怎么提供成果的问题 

    4、应用

 

三、数据服务的架构变化的过程:

    1、一个功能一个接口

    2、多个功能合并到一个接口(openapi)

    3、统一使用sql来执行(内部有执行引擎)

    4、支持个性化、实时、定时等别的需求

 

四、大数据环境下的数据仓库

    1、数据仓库仍然是使用数据的前提

    2、对比传统ETL,大数据环境下的技术 包括 map reduce, spark,storm,hbase,hive等,个人理解:数据仓库是目标,

    大数据是技术实现方式

 

五、传统BI与大数据下的数据仓库对比

    1、BI数据一般是线上数据,结构化,主要作离线统计分析

    2、大数据仓库:有复杂的计算和调度,同时支持离线和实时操作,在ETL和分析时使用的都是分布式的技术

 

六、大数据仓库环境下的职位建议

    1、ETL工程师(写hive sql、mapreduce 任务、流计算任务 等), 主要是执行层面

    2、数据建模(建立数据仓库),主要是设计层面

    3、数据分析、数据挖掘、机器学习(在仓库上面写算法、做模型)

    4、大数据平台技术工程师、架构师(搭建和运维整套的大数据平台)

 

分享到:
评论

相关推荐

    阿里大数据之路——关键总结版.pdf

    阿里大数据之路的总结主要涵盖了大数据开发的关键技术和架构,包括数据的采集、存储、处理和分析等方面。以下是对这些内容的详细解析: 1. 数据采集 数据采集是大数据流程的第一步,涉及对Web和APP产生的数据进行...

    阿里大数据之路.xmind

    该资源包含了《大数据之路-阿里巴巴大数据》这本书的整体思维导图,并且按照自己从业经验进行归纳整理,囊括了:数据采集,数据计算,数据模型,数据管理,数据生命周期的相关知识点

    完整图文版 阿里巴巴数据产品平台 大数据与云计算技术系列教程 Hadoop之Hive学习笔记(共63页).rar

    《阿里巴巴数据产品平台 大数据与云计算技术系列教程:Hadoop之Hive学习笔记》是一部深入探讨Hadoop生态中Hive技术的专业教程。这本笔记共计63页,旨在为读者提供一个全面、系统的学习Hive的平台,帮助读者理解和...

    hive学习笔记(阿里巴巴)

    hive学习笔记,大数据,数据仓库纪要.

    阿里巴巴Hive学习笔记.docx

    《阿里巴巴Hive学习笔记》是基于阿里巴巴内部分享的资料,主要涵盖了Hive的基本结构、与Hadoop的关系、元数据库管理以及基本操作等方面,为初学者提供了深入理解Hive的全面指南。 1. **Hive结构** - **Hive架构**...

    数据中台笔记.docx

    其理念源于阿里巴巴集团,旨在解决数据分散、重复建设、利用率低等问题,通过构建统一的数据服务,提升企业的数据资产价值。 历史上的数据中台体系经历了从传统数据仓库到数据驱动的数据湖,再到现在的数据中台阶段...

    快递物流研究笔记之一:商流加持的物流巨头:菜鸟VS京东物流.pdf

    菜鸟网络作为基于阿里巴巴零售平台的社会物流整合者,其核心策略是整合快递公司、路线运输企业,并利用大数据支持,实现阿里生态系统内商流与物流的协同。菜鸟网络不仅补上了阿里履约网络的关键一环,也降低了物流...

    快递物流系列研究笔记之七:菜鸟的物流江湖.zip

    在本篇研究笔记中,我们将深入探讨“菜鸟的物流江湖”,了解这个互联网巨头阿里巴巴旗下物流平台如何在快递物流行业中扮演着重要角色。菜鸟网络自2013年成立以来,通过技术创新与资源整合,改变了传统物流行业的运作...

    快递物流研究笔记之一:商流加持的物流巨头:菜鸟VS京东物流.zip

    - 菜鸟网络成立于2013年,是阿里巴巴集团的重要组成部分,旨在通过大数据和云计算技术打造全球智能物流骨干网。 - 菜鸟的主要策略是搭建开放平台,连接众多物流公司,实现资源优化配置,提高整体物流效率。 - ...

    互联网大厂面试类.zip

    标题 "互联网大厂面试类.zip" 提供了一个概括性的主题,即这个压缩包包含的资料是关于互联网大厂(如阿里巴巴、百度、蚂蚁金服等)面试准备的。描述中的 "互联网大厂面试类" 也进一步确认了这一点,表明这些材料可能...

    20210202-西南证券-交通运输行业快递物流研究笔记之一:商流加持的物流巨头,菜鸟VS京东物流.pdf

    菜鸟网络是阿里巴巴为了满足消费者多样化的运送需求、整合商家线上线下供应链,并解决物流效率瓶颈而成立的战略性业务单元。其社会物流仓储资源整合能力广泛,通过自建物流园区及加盟仓储联盟,菜鸟实现了对社会化...

    快递物流系列研究笔记之八:京东物流的星辰大海.zip

    一方面,市场竞争日益激烈,阿里巴巴旗下的菜鸟网络、顺丰速运等竞争对手都在不断提升服务质量和技术实力。另一方面,随着电商业务的扩展,如何保持物流效率和服务质量的同时,控制成本并实现盈利,是京东物流需要...

    数据科学竞赛代码,包括天池,kaggle。以及一些学习资源.zip

    天池是由阿里巴巴主办的数据科学竞赛平台,旨在推动大数据技术和应用的发展,提供真实业务场景下的数据问题,让参赛者通过解决这些问题提升自己的实战能力。Kaggle则是Google旗下的一个全球性数据科学和机器学习竞赛...

    ETL解决方案大PK:Apache NiFi、DataX、Kettle哪个更适合你?

    DataX是由阿里巴巴集团开源的一款高性能数据同步工具,它主要针对批量数据的迁移和同步场景,支持多种数据源和目标存储系统。 **2. DataX的特点:** - **灵活的数据处理**:支持广泛的数据源类型,如MySQL、HDFS、...

    rocketmq代码示例及Linux编译安装说明

    RocketMQ是阿里巴巴开源的一款分布式消息中间件,广泛应用于大数据领域,提供高可用、高可靠的消息传输服务。在本文中,我们将深入探讨RocketMQ的核心概念,以及如何在Linux环境下进行编译安装,并通过代码示例来...

Global site tag (gtag.js) - Google Analytics