`
eric_weitm
  • 浏览: 242667 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

大数据、数据仓库和ETL

 
阅读更多

一、背景 

    大量原来线下的业务电子化之后,产生了很多的数据,这些数据除了能够支撑业务正常运转,也能够使分析人员针对整个企业的运转情况进行分析。比如,本周与上周相比销量增加还是减少了?原因是什么? 产品的库存周期长了还是短了?哪些产品需要及时补充库存?哪些供应商提供的商品,成本低、质量好、及时供货、客户比较喜欢?哪些地方的支出变多了?用户对我的产品满意吗?客户发生了哪些变化?需要招人吗?招什么样的人? 上面这些问题分别涉及 销售、库存、采购、会计、客户、HR等各个层面。

    二、业务型系统与分析型系统的区别 OLTP  VS OLAP

    OLTP:代表具体的操作,是对原来线下操作的模拟。

    OLAP:关注整体的分析和决策。BI之前叫作决策支撑系统。

    三、数据仓库是什么

    OLAP关注分析,需要更宏观的数据视野(大量的细节会使人看不清楚),需要做跨系统的数据整合。业务型的数据专注于具体的操作,不适合做分析。数据仓库的核心是把所有系统的数据进行集成,保证数据的一致性,并且要能反映出业务系统的变化(支持敏捷开发,增量开发)。这是一个艰巨的任务,比如同一个东西一个表叫id,一个表叫seq,业务里存1行,仓库里可能需要2行。

    四、数据模型是什么?(数据结构)

        数据仓库里的数据怎么存储?(关系模型还是数据立方体?文件还是图片?)彼此间的关系怎么定义?怎么样反应业务系统里的变化?怎么样使存储上省空间?怎么样使查询更快?怎么样方便的出报表?怎么样实现增量开发和敏捷开发(避免返工)?怎么样定义跨多个业务系统的数据?……

    五、ETL 是什么

        把数据模型定义的结构,具体实现的过程。在大数据出现之前,业务系统和仓库都是结构化的数据,对应的ETL的接口主要是sql。大数据时代,ETL的具体实现技术是类似于 map reduce的任务,hivesql等。

 

    六、数据部门需要做的事情

        1、搭建好能够支撑离线分析和实时分析的整体技术架构平台。具体的会涉及到 数据埋点、数据同步、分布式作业调度和计算、消息队列、流式计算、对外提供服务的方式等

        2、具体数据模型的设计和实现(ETL和数据仓库)

        3、针对具体应用的报表

        4、使用机器学习等技术实现的模型

 

    七、大数据部门的人员角色划分

        1、计算机技术人员 熟悉数据埋点、抓取、消息队列、hdfs spark storm hbase hive 等分布式技术的人员

        2、数据建模人员  分析业务,设计数据仓库的模型,通过第一类人的技术实现仓库的构建

        3、数据挖掘/分析人员  具体的设计模型、报表等

 

    八、业界事实标准

        1、数据模型--kimball的维度模型。简单概括:1》 使用企业数据仓库总线做数据仓库总体架构设计。2》 将世界描述为相对静态的实体(维度表)和实体之间的交互(事实表)3》 事实表代表维度的关联关系 4》用一致性维度实现数据的集成和敏捷开发 5》 用持久性代理键标记实体

        2、大数据仓库相关的技术体系

            hdfs HBase hive ElasticSearch Flume Kafka storm Spark 

 

    总结:大数据仓库是数据仓库的延伸。数据仓库的目标是数据集成和反应数据变化的过程,大数据相关的技术是为了数据仓库服务的。具体的分析和应用基于数据仓库展开。即 大数据技术->仓库--》分析应用

分享到:
评论

相关推荐

    大数据技术 数据仓库设计与开发技术 ETL构建数据仓库五步法 共9页.pdf

    大数据技术中的ETL构建数据仓库五步法 大数据技术中的数据仓库设计与开发技术是...ETL构建数据仓库五步法是大数据技术中的一个非常重要的技术,它可以帮助企业建立一个高效的数据仓库,提高数据分析和商业智能的能力。

    大数据数据仓库商业智能平台设计与实现.pdf

    本文介绍了一种大数据数据仓库商业智能平台的设计与实现过程,该平台利用Spark等大数据技术,结合ETL(提取、转换、加载)组件,以及Apache Kylin的Cube预计算思想,为管理层提供实时有效的决策信息,促进企业的数字...

    大数据技术-大数据数据仓库.docx

    大数据数据仓库是现代企业应对海量数据存储、管理和分析的关键技术。数据仓库(Data Warehouse,DW)是专为数据分析而构建的系统,它从多个源头整合数据,提供对决策支持系统(Decision Support System,DDS)的数据...

    大数据数据仓库建立和离线数据分析.zip

    大数据数据仓库的构建与离线数据分析是现代企业中至关重要的技术实践,它们为企业提供了海量数据的存储、管理和分析能力,从而驱动业务洞察和决策优化。数据仓库是一个专门设计用于高效查询和分析的历史数据集合,而...

    浅析大数据数据仓库ppt

    数据仓库是现代企业信息化建设中的关键组成...综上所述,大数据数据仓库是企业获取洞察力、提升决策效率的关键工具。通过理解其基本概念、架构和管理策略,企业能够更好地构建和利用数据仓库,实现数据驱动的业务增长。

    大数据技术-大数据数据仓库.pdf

    大数据数据仓库是现代企业管理和决策支持的关键组成部分,它主要解决从海量数据中提取有价值信息的问题。数据仓库(Data Warehouse,DW)是一个专门设计用于高效分析和决策支持的系统,它将来自不同业务源的数据整合...

    大数据中台、数据仓库、大数据平台、数据治理经验总结

    数据仓库的建设通常包括数据抽取(ETL)、数据清洗、数据加载和数据建模等步骤,确保数据质量高且适用于业务洞察。 大数据平台则是一个综合性的技术框架,集成了多种工具和算法,以处理和管理大规模数据。常见的...

    数据仓库和ETL

    数据仓库和ETL是信息技术领域中的关键组成部分,它们在企业数据管理和分析中起着至关重要的作用。数据仓库是一个集中的、...随着技术的发展,ETL和数据仓库的设计与实施将继续进化,以适应更复杂的数据环境和分析需求。

    大数据技术 数据仓库设计与开发技术 数据仓库建模与ETL实践技巧 共8页.pdf

    大数据技术中的数据仓库设计与开发技术是指利用数据仓库技术对大量数据进行处理、存储和分析,以便于企业更好地进行数据分析和决策。数据仓库设计与开发技术是大数据技术的重要组成部分,它们都是为了便于多维分析和...

    110页大数据ETL技术方案.docx

    ETL技术是数据仓库和商业智能系统的核心组件。 在大数据时代,ETL技术变得更加复杂和重要。随着数据量的增加,传统的ETL技术已经无法满足实际需求。因此,出现了一些新的ETL技术和工具,如Kettle、Sqoop、OratoMPP...

    大数据ETL技术介绍.pptx

    大数据ETL技术的应用场景非常广泛,例如数据仓库、商业智能、数据挖掘、数据分析等。它能够帮助企业从大量数据中挖掘出有价值的信息,提高企业的竞争力和决策能力。 大数据ETL技术是大数据处理和分析的关键步骤,...

    数据仓库与ETL的实现过程

    数据仓库与ETL(Extract, Transform, Load)是企业信息化建设中的关键组成部分,它们主要用于处理和分析大量的业务数据。在本篇文章中,我们将深入探讨这两个概念及其实施过程,同时也会涉及相关的工具和技术。 ...

    大数据ETL技术方案

    ### 大数据ETL技术方案知识点总结 ...综上所述,大数据ETL技术方案不仅涵盖了ETL的基本概念和技术分类,还深入探讨了具体工具的使用方法及其应用场景,为从事数据仓库建设和维护的技术人员提供了宝贵的参考。

    主要介绍大数据数据仓库的理论知识,hadoop和hive相关知识

    大数据数据仓库是用于存储、管理和分析大规模数据集的系统。随着信息技术的发展,企业需要处理的数据量日益增大,传统的关系型数据库难以满足需求。大数据数据仓库通过采用分布式存储和处理技术,能够高效地处理PB级...

    大数据开发 etl.zip

    3. 加载(Load):经过转换后的数据被加载到目标系统,如数据仓库、数据湖或大数据平台。在大数据环境下,HDFS(Hadoop Distributed File System)、HBase、Cassandra等分布式存储系统常用于存储大量非结构化和半...

    数据仓库ETL工具箱

    数据仓库ETL工具箱是构建和管理数据仓库过程中的核心组成部分。ETL是Extract, Transform, Load的缩写,分别代表数据抽取、转换和加载这三个关键步骤。在本资料包中,我们有多个章节深入探讨了这个主题,包括第二章、...

    大数据技术-大数据数据仓库 (2).pdf

    总的来说,大数据数据仓库是企业数据管理和决策支持的关键工具,通过高效的数据集成、存储和分析,助力企业在海量信息中挖掘价值,驱动业务增长。在实际应用中,数据仓库的设计和优化是一项复杂的工作,需要考虑到...

    清华大学精品大数据之数据清洗课程PPT课件(38页)含习题 第3章 数据清洗ETL基本技术方法.pptx

    数据仓库的常见需求包括数据源的备份、交易记录的完整性、规则文档化和数据安全。 总体而言,ETL流程是一个动态且持续优化的过程,随着业务需求和数据源的变化,ETL设计也需要不断迭代和改进。清华大学的课程不仅...

Global site tag (gtag.js) - Google Analytics