Java视线论坛 -> Java技术讨论区 -> Java企业应用
<span class=\"postbody\">dlee
-----------------------------------------------------------------------------------------
<span class=\"postbody\">《数据仓库》(Building the Data Warehouse),W.H.Inmon 著,机械工业出版社出版。
数据仓库是数据挖掘和 OLAP 的基础,是实现一对一服务的必经之路,是目前对于企业最有战略价值的技术。
w.H.Inmon 就是“数据仓库之父”。
<span class=\"postbody\"><span class=\"postbody\">呵呵,我也是刚刚开始转向这个方面。因为有一个机会要做一个真正的数据仓库项目,算是赶鸭子上架了。现在正在恶补数据仓库、OLAP 方面的知识。一些概念还是有些模糊,等过一段时间积累了一些经验后再做比较系统的介绍。数据仓库不是某种具体的技术,而是一个完整的体系结构,确实不是一两句话甚至一两篇文章能够描述清楚的。
我的想法是,一个好的 Java 程序员研究清楚某方面的技术,比如 Hibernate 是不成问题的。但是如果研究清楚了数据仓库、数据挖掘要达到的目的以及设计和实现的方法,那么思考的层面就接近于企业的商务人员甚至管理者了。技术的最终目的还是要解决企业所面临的问题。软件企业的核心竞争力也正在于能否为企业量身定制,提供全面综合的解决方案。
关于 <span style=\"COLOR: #ffa34f\">OLTP 与 OLAP 的区别,我来节选一段《数据挖掘》第2章“数据仓库和数据挖掘的 OLAP 技术”中的描述:
2.1.1 操作数据库系统与数据仓库的区别
由于大多数人都熟悉商用关系数据库系统,将数据仓库与之比较,就容易理解什么是数据仓库。
联机操作数据库系统的主要任务是执行联机事务和查询处理。这种系统称为<span style=\"FONT-WEIGHT: bold\">联机事务处理(<span style=\"COLOR: #ffa34f\">OLTP)系统。它们涵盖了一个组织的大部分日常操作,如购买、库存、制造、银行、工资、注册、记帐等。另一方面,数据仓库系统在数据分析和决策方面为用户或“知识工人”提供服务。这种系统可以用不同的格式组织和提供数据,以便满足不同用户的形形色色需求。这种系统称为<span style=\"FONT-WEIGHT: bold\">联机分析处理(OLAP)系统。
<span style=\"COLOR: #ffa34f\">OLTP 和 OLAP 的主要区别概述如下。
<span style=\"FONT-WEIGHT: bold\">用户和系统的面向性:<span style=\"COLOR: #ffa34f\">OLTP 是<span style=\"FONT-STYLE: italic\">面向顾客的,用于办事员、客户和信息技术专业人员的事务和查询处理。OLAP 是<span style=\"FONT-STYLE: italic\">面向市场的,用于知识工人(包括经理、主管和分析人员)的数据分析。
<span style=\"FONT-WEIGHT: bold\">数据内容:<span style=\"COLOR: #ffa34f\">OLTP 系统管理当前数据。通常,这种数据太琐碎,难以用于决策。OLAP 系统管理大量历史数据,提供汇总和聚集机制,并在不同的粒度级别上存储和管理信息。这些特点使得数据容易用于见多识广的决策。
<span style=\"FONT-WEIGHT: bold\">数据库设计:通常,<span style=\"COLOR: #ffa34f\">OLTP 系统采用实体-联系(ER)模型和面向应用的数据库设计。而 OLAP 系统通常采用<span style=\"FONT-STYLE: italic\">星型或<span style=\"FONT-STYLE: italic\">雪花模型和面向主题的数据库设计。
<span style=\"FONT-WEIGHT: bold\">视图:<span style=\"COLOR: #ffa34f\">OLTP 系统主要关注一个企业或部门内部的当前数据,而不涉及历史数据或不同组织的数据。相比之下,由于组织的变化,OLAP 系统常常跨越数据库模式的多个版本。
OLAP 系统也处理来自于不同组织的信息,由多个数据存储集成的信息。由于数据量巨大,OLAP 数据也存放在多个存储介质上。
<span style=\"FONT-WEIGHT: bold\">访问模式:<span style=\"COLOR: #ffa34f\">OLTP 系统的访问主要由短的原子事务组成。这种系统需要并行控制和恢复机制。然而,对 OLAP 系统的访问大部分是只读操作(由于大部分数据仓库存放历史数据,而不是当前数据),尽管许多可能是复杂的查询。
<span style=\"COLOR: #ffa34f\">OLTP 和 OLAP 的其它区别包括数据库大小、操作的频繁程度、性能度量等。这些都概括在表2-1中。
<span class=\"postbody\"><span class=\"postbody\"><span class=\"postbody\">《数据挖掘——概念与技术》(Data Mining: Concepts and Techniques),Jiawei Han & Micheline Kamber 著,机械工业出版社出版。
这本书最好与《数据仓库》一起读。数据仓库提供了 OLAP 的基础,而如何更好地做 OLAP,则是数据挖掘技术所要讨论的。
韩家炜教授是我们的同胞,是国际著名的数据挖掘专家。
[
点击查看详细]
分享到:
相关推荐
数据仓库、数据集市和商业智能(BI)是现代企业数据管理与分析的核心组成部分。这篇文章将深入探讨这些概念,以及它们如何协同工作以支持数据分析。 首先,我们来理解数据仓库。数据仓库是一个集中的、结构化的存储...
数据仓库是信息系统的重要组成部分,主要用于企业决策支持和分析。它是一个设计用于高效查询和分析的历史性数据集合,通常从各种在线事务处理(OLTP)系统中抽取、转换和加载(ETL过程)而来。初学者在接触数据仓库...
WEB数据仓库是一个重要的IT概念,尤其在大数据时代,它扮演着至关重要的角色。这个压缩包文件显然包含了关于WEB数据仓库的一些经典资料,很可能是研究报告、教程文档或案例分析。让我们深入探讨一下WEB数据仓库及其...
数据仓库是一种特殊设计的数据库系统,其主要目的是为了支持决策制定和数据分析。它与传统的在线事务处理(OLTP)系统不同,数据仓库更注重历史数据的存储和分析,而非实时的事务操作。在这个主题中,我们将深入探讨...
数据仓库是信息系统的重要组成部分,主要用于支持企业的决策分析。它的基本结构通常由三个层次构成:数据源、数据仓库和数据集市。这些组件通过数据仓库管理软件紧密相连,共同构成了一个完整的数据体系。 首先,...
### 数据仓库设计与使用 #### 一、数据仓库的基本概念 数据仓库是一个专门设计用于支持企业决策制定的信息系统。按照W.H. Inmon在1993年的定义,“数据仓库是面向主题的、综合的、随时间变化的、不可修改的数据...
在数据仓库的发展历程中,W.H.Inmon被广泛认为是数据仓库概念的奠基人之一,他的著作《Building the Data Warehouse》(构建数据仓库)被誉为经典之作,对数据仓库的发展产生了深远的影响。 W.H.Inmon提出的构建...
### 数据仓库中的ETL与元数据详解 #### 一、数据仓库概述 数据仓库(Data Warehouse, DW)是一种用于存储和管理海量数据的特殊类型的数据库,主要用于支持企业的商业智能(BI)活动,特别是数据分析和决策制定。它通过...
数据仓库与决策支持系统(DSS)的演进历程 数据仓库的概念及其在现代数据分析中的核心地位,并非一蹴而就的创新,而是信息技术领域数十年演化与革新的结果。从20世纪60年代初至今,数据处理技术经历了从简单报表...
Hive 是一个基于 Hadoop 的数据仓库工具,它允许用户使用类似于 SQL 的查询语言(称为 HiveQL 或 HQL)对大规模数据集进行分析和处理。Hive 的设计初衷是为了简化大数据处理,使得非编程背景的用户也能方便地进行...
### SQL搭建Northwind数据仓库知识点解析 #### 一、识别事实与维度 在构建数据仓库时,首先要识别出事实和维度。事实表通常包含了衡量业务性能的关键指标,如销售额、成本等;而维度表则提供了对这些指标进行分析...
元数据在大数据和数据仓库领域扮演着至关重要的角色,它为数据管理和分析提供了基础性的指导。元数据说明书详细地描述了数据的各个层面,确保数据的准确性和有效性。以下是元数据说明书的关键知识点: 1. **元数据...
数据仓库与数据挖掘是现代信息技术领域中的重要组成部分,它们在数据驱动决策的背景下扮演着关键角色。本实验报告主要探讨了数据仓库的设计、实现及多维分析,涉及到的关键概念包括数据仓库、多维数据模型、ETL过程...
数据仓库概述 数据仓库是企业级数据管理的重要组成部分,用于指导数据仓库模型管理、任务管理、命名规范,维护和管理企业级数据仓库。京东集团数据仓库是按照《数据仓库参考手册》的标准建立的,旨在保证数据仓库的...
数据仓库是一种专门设计用于数据分析和决策支持的大型数据库系统,它与传统的在线事务处理(OLTP)系统有显著区别。本课程围绕数据仓库的主题展开,深入讲解了数据库和数据仓库的相关概念、技术和应用。 首先,我们...
数据仓库是信息技术领域中的一个重要概念,它主要用于存储和管理企业级的数据,以便进行高效的数据分析和决策支持。在“数据仓库-数据架构分析报告.ppt”中,主要探讨了税务行业数据仓库的现状、理解、建设路线规划...
数据仓库是信息技术领域中的一个重要概念,它是一种特殊设计的数据库系统,主要用于数据分析和报告,而不是日常业务操作。数据仓库的主要目标是从多个不同的源系统中整合数据,并为决策制定者提供一致、准确且易于...
数据仓库实践的核心是构建一个集成、稳定、可访问的系统,它能够为企业提供历史数据分析和决策支持。在这一过程中,Oracle 数据仓库作为一款成熟的产品,扮演了极为重要的角色。本文将深入探讨Oracle数据仓库的实现...
Oracle数据仓库技术白皮书涵盖了数据仓库的概念、重要性、体系结构以及实施最佳实践等多个方面,为读者提供了一个全面的了解Oracle数据仓库解决方案的视角。以下是根据文件提供的内容整理的详细知识点: 1. 数据...