`
rq2_79
  • 浏览: 240280 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

构建基于数据仓库的DSS

阅读更多
由于DSS(决策支持系统)的先天不足,它的横空出世并没有给业界带来多大的惊喜。然而,随着数据仓库的加入,DSS系统的尴尬处境正在逐步好转。

 

  一.DSS的先天不足

    决策支持系统(DDS)是在管理信息系统的基础上发展起来的,在数据仓库、OLAP技术和数据开采工具出现以前,DDS在实际应用开发过程中暴露出许多问题,主要有以下4个方面:

  (1)DDS使用的数据库(DB)只能对原始数据进行一般的加工和汇总,致使决策所需信息不足,难以满足DDS的需要。DB中的数据还存在以下缺点:

    ①缺乏组织性从各个部门抽取的数据没有统一的格式标准,数据杂乱且不稳定;

    ②数据的利用率低由于数据缺少统一标准,而难以转化为有用的信息,原始数据定义的不一致性导致其可信度降低;

  ③数据存储不完整DDS只有对较长一段时间的完整数据进行分析才会有较高的预测率。

  (2)由于决策本身的动态性和复杂性,针对不同的情况应有不同的处理方法,而模型库提供的分析能力有限,它所提供的模型独立于环境之外,决策者和模型交互很少,模型参数固定不变,不符合决策要求,DDS所作出的决策常被有经验的决策者一口否定,使决策者对DDS产生不信任感。 
 
  (3)在实际开发DDS过程中,人机接口部件占整个DDS开发工作量的一半,人的任何意图及系统对人的任何支持都要通过人机接口才能最终实现,因此它在整个系统中起着举足轻重的作用。现在人机接口开发得不理想,可以说是DDS实施中的一个瓶颈

  二.DSS因数据仓库而实现了突破

    进入90年代后,信息技术界悄然掀起数据仓库和OLAP技术及数据采掘技术的研究和开发热潮,这为克服传统DDS存在的问题提供了技术上的支持,使DDS的发展跃上一个新的台阶,也为DDS开辟了一条新的途径。目前开发的综合DDS是以数据仓库(DataWarehouse)技术为基础,以联机分析处理(OLAP)和数据采掘(DataMining)工具为手段进行实施的一整套解决方案

    一般决策所需的数据总是与一些维数(每一维代表对数据的一个特定的观察视角,如地区、时间等)和不同级别(如部门、单位、地区和国家)的统计和计算有关。以多维数据为核心的多维数据分析是决策的主要内容,数据仓库的多维特征满足DDS对数据的分析要求,并且克服数据库的数据组织性差、利用率低的缺点。数据库不具有多维特征,但却是DW构建的基础。在数据库多年的应用中已经积累大量数据,而且目前数据库的数量和规模还在迅速增加和扩大,从而出现“数据丰富、知识贫乏”的问题。因此,从庞大的数据库中抽出有用的信息已是当务之急,要成功地进行信息抽取首先要建立数据仓库。

    三.如何建立数据仓库

    数据仓库的实现主要以关系数据库(RDB)技术为基础,因为关系数据库的数据存储和管理技术发展得较为成熟,其成本和复杂性较低,已开发成功的大型事务数据库多为关系数据库,但关系数据库系统并不能满足数据仓库的数据存储要求,需要通过使用一些技术,如动态分区、位图索引、优化查询等,使关系数据库管理系统在数据仓库应用环境中的性能得到大幅度的提高。

    数据仓库在构建之初应明确其主题,主题是一个在较高层次将数据归类的标准,每一个主题对应一个宏观的分析领域,针对具体决策需求可细化为多个主题表,具体来说就是确定决策涉及的范围和所要解决的问题。但是主题的确定必须建立在现有联机事务处理(OLTP)系统基础上,否则按此主题设计的数据仓库存储结构将成为一个空壳,缺少可存储的数据。但一味注重OLTP数据信息,也将导致迷失数据提取方向,偏离主题。需要在OLTP数据和主题之间找到一个“平衡点”,根据主题的需要完整地收集数据,这样构建的数据仓库才能满足决策和分析的需要。

    建立一个数据仓库需要经过以下几个处理过程:①数据仓库设计;②数据抽取;③数据管理。

    (1)数据仓库设计

    根据决策主题设计数据仓库结构,一般采用星型模型(续致信网上一页内容)雪花模型设计其数据模型,在设计过程中应保证数据仓库的规范化和体系各元素的必要联系。主要有以下3个步骤:

    ①定义该主题所需各数据源的详细情况,包括所在计算机平台、拥有者、数据结构、使用该数据源的处理过程、仓库更新计划等。    

    ②定义数据抽取原则,以便从每个数据源中抽取所需数据;定义数据如何转换、装载到主题的哪个数据表中。

    ③将一个主题细化为多个业务主题,形成主题表,据此从数据仓库中选出多个数据子集,即数据集市(DataMart)。数据集市通常针对部门级的决策或某个特定业务需求,它开发周期短,费用低,能在较短时间内满足用户决策的需要。因此,在实际开发过程中可以选择在成功建立几个数据集市后再构建数据仓库这种策略。

    这些数据定义直接输入系统中,作为元数据(metadata)存储,供数据管理模块和分析使用。元数据存储在元数据库中,它不仅是数据仓库的文档资料,供管理、维护人员使用,而且亦可供用户查询,使之更好地了解数据仓库结构,提高自己的使用水平。

  (2)数据抽取模块

    该模块是根据元数据库中的主题表定义、数据源定义、数据抽取规则定义对异地异构数据源(包括各平台的数据库、文本文件、HTML文件、知识库等)进行清理、转换,对数据进行重新组织和加工,装载到数据仓库的目标库中。在组织不同来源的数据过程中,先将数据转换成一种中间模式,再把它移至临时工作区。加工数据是保证目标数据库中数据的完整性、一致性。例如,有两个数据源存储与人员有关的信息,在定义数据组成的人员编码类型时,可能一个是字符型,一个是整型;在定义人员性别这一属性的类型时,一个可能是char(2),存储的数据值为“男”和“女”,而另一个属性类型为char(1),数据值为“F”和“M”。这两个数据源的值都是正确的,但对于目标数据来说,必须加工为一种统一的方法来表示该属性值,然后交由最终用户进行验证,这样才能保证数据的质量。在数据抽取过程中,必须在最终用户的密切配合下,才能实现数据的真正统一。早期数据抽取是依靠手工编程和程序生成器实现,现在则通过高效的工具来实现,如Ardent公司的Infomoter产品、SAS的数据仓库产品SAS/WA(WarehouseAdministrator)及各大数据仓库厂商推出的、完整的数据仓库解决方案。

  (3)数据维护模块

    该模块分为目标数据维护和元数据维护两方面。目标数据维护是根据元数据库所定义的更新频率、更新数据项等更新计划任务来刷新数据仓库,以反映数据源的变化,且对时间相关性进行处理。更新操作有两种情况,即在仓库的原有数据表中进行某些数据的更新和产生一个新的时间区间的数据,因为汇总数据与数据仓库中的许多信息元素有关系,必需完整地汇总,这样才能保证全体信息的一致性。

    数据仓库规模一般都很大,从建立之初就要保证它的可管理性,一个企业可能建立几个数据仓库或数据集市,但他们可共用一个元数据库对其进行管理。首先从元数据库查询所需元数据,然后进行数据仓库更新作业,更新结束后,将更新情况记录于元数据库中。当数据源的运行环境、结构及目标数据的维护计划发生变化时,需要修改元数据。元数据是数据仓库的重要组成部分,元数据的质量决定整个数据仓库的质量。

    四.数据仓库的DDS的支持

  DDS对数据的使用是非结构化的,它的一次查询操作要涉及上百张表的上千行数据,复杂的表连接会严重影响系统的性能,而且用户仅仅在分析的时候才查找有关数据,查找条件是随机的,因此基于事务型数据库的DDS的数据分析能力很有限。目前,基于数据仓库的DDS的决策技术包括联机分析处理(OLAP)和数据挖掘(DataMining),在DDS环境中数据仓库直接为联机分析处理和数据挖掘提供数据能力。

  1.联机分析处理(OLAP)

  OLAP是针对特定问题的联机数据访问和数据分析而产生的一种技术,它满足DDS从多种角度对数据进行快速、一致、交互地分析,克服传统DDS交互能力差的弊病,使决策者能够对数据进行深入观察。OLAP服务器使用为用户预定义的多维数据视图对数据仓库的信息进行统计分析处理,为具有明确分析范围和分析要求的用户提供高性能的决策支持。OLAP将分析结果存储在信息库中,便于决策者通过对比多种分析结果作出更好的决策。此外,信息库中还存放决策准则、管理经验、常识。OLAP工具目前以多维分析/ROLAP为主,如InformixMetacube分析工具软件。

  2.数据挖掘

    数据挖掘是指从大量数据中发现潜在的、有价值的及未知的关系、模式和趋势,并以易被理解的方式表示出来。在DDS中通过进行数据挖掘用以发现数据之间的复杂联系以及这种联系对决策的影响。

    在数据仓库基础上挖掘的知识通常以图表、可视化、类自然语言等形式表示出来,但所挖掘的知识并不都是有意义的,必须进行评价、筛选和验证,把有意义的知识放到知识库中,随着时间的推移将积累更多的知识。知识库根据挖掘的知识类型包括总结性知识、关联性知识、分类模型知识、聚类模型知识,这些知识通过相应挖掘算法得到。

    五.基于数据仓库的DDS决策可以解决哪些类型的问题

  DDS可以解决4个类型的问题:

  (1)查询一组数据,可回答的问题如产品A的价格是多少?

  (2)采用数理统计模型、运筹模型进行定量分析,预测趋势,可回答的问题如:某产品明年销售形势如何?

  (3)采用OLAP方法,通过代数运算将有关信息抽取出来作为问题的答案,如:某月某公司的销售怎样?

  (4)采用数据挖掘技术,通过对数据进行逻辑运算,找出它们之间内在联系,可回答的问题如:在某地影响某产品销售的因素是什么?

  第1类和第2类问题在过去传统DDS中得到一定解决,现在的DDS重点解决第3类和第4类问题。这些问题的提出与回答通过可视化工具在问题综合与交互系统中实现,可视化工具提高人机接口开发质量和效率,使人机界面更加简洁、标准化。另外,可选用手写输入和声音输入工具软件,便于决策者提出问题。该系统根据对决策问题的判断,在知识库和信息库中查找解决方案,如查找到以直观易理解的形式呈现给决策者,如查找不到再根据问题的性质向下调用相应的决策工具。

 

 

 

 

 

 

 

 

 

 

 

 

 

二、数据仓库系统的构成

    一个典型的企业数据仓库系统通常包含数据获取层、数据存储层和数据访问层三层:

    1.数据获取层:对BOSS、MIS、网管和其它外部数据源中的数据进行抽取、清洗、转换,并加载到数据仓库。

    2.数据存储层:实现对数据仓库中数据和元数据的集中存储与管理,并可根据需求建立面向部门和主题的数据集市。

    3.数据访问层:通过多样化的前端分析展示工具,实现对数据仓库中数据的分析和处理,形成市场经营和决策工作所需要的科学、准确、及时的业务信息和知识。

    三、数据仓库的关键技术

  1.OLAP技术

  当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的操作型数据库的主要应用,主要是基本的日常事务处理,例如计费帐单交易等。OLAP是数据仓库系统的主要应用,侧重决策支持,支持复杂的分析操作,以求剖析数据,使用户能从多个角度、多侧面地观察数据库中的数据,从而深入理解包含在数据中的信息。

      OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是“维”(dimension)这个概念,通过把一个实体的多项重要属性定义为多个维,使用户能对不同维上的数据进行比较。

      OLAP的基本多维分析操作有钻取(roll up和drill down)、切片(slice)、切块(dice)以及旋转(pivot)等。钻取是改变维的层次,变换分析的粒度,它包括向上钻取(roll up)和向下钻取(drill down)。切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。

  OLAP有多种实现方法,根据存储数据的方式不同可以分为ROLAP、MOLAP、HOLAP。ROLAP表示基于关系数据库的OLAP实现(Relational OLAP)。以关系数据库为核心,以关系型结构进行多维数据的表示和存储。MOLAP表示基于多维数据组织的OLAP实现(Multidimensional OLAP),以多维数据组织方式为核心。多维数据在存储中将形成“立方块(Cube)”的结构,在MOLAP中对“立方块”的“旋转”、“切块”、“切片”是产生多维数据报表的主要技术。HOLAP表示基于混合数据组织的OLAP实现(Hybrid OLAP)。如低层是关系型的,高层是多维矩阵型的。这种(续致信网上一页内容)方式具有更好的灵活性。

    2.数据挖掘技术

    数据挖掘是从数据库或数据仓库中发现并提取隐藏在其中的信息的一种新技术。它建立在数据仓库基础之上,面向非专业用户,定位于桌面,支持即兴的随机查询。数据挖掘技术能自动分析数据,对它们进行归纳性推理和联想,寻找数据间内在的某些关联,从中发掘出潜在的、对信息预测和决策行为起着十分重要作用的模式,从而建立新的业务模型,以达到帮助决策者制定市场策略、做出正确决策的目的。数据挖掘技术涉及数据库、人工智能、机器学习、神经计算和统计分析等多种技术。

    在数据仓库基础上挖掘的知识通常以图表、可视化界面等形式表示出来,但所挖掘的知识并不都是有意义的,必须进行评价、筛选和验证,把有意义的知识放到知识库中,随着时间的推移将积累更多的知识。知识库根据挖掘的知识类型分为总结性知识、关联性知识、分类模型知识、聚类模型知识,这些知识通过相应挖掘算法得到。

分享到:
评论

相关推荐

    基于数据仓库的决策支持系统研究与建设

    本文探讨了基于数据仓库(Data Warehouse, DW)技术的决策支持系统(Decision Support System, DSS)的构建及其优势,并通过实际案例——浦东新区防灾救灾应急处理系统——来验证这种体系结构的有效性。 #### 决策...

    毕业设计(论文)-基于数据仓库的高职教务管理系统的设计与实现.doc

    数据仓库技术经过多年的发展,已变得比较成熟,近些年,出现了基于数据仓库技术,并运用联机分析处理技术(OLAP)和数据挖掘工具的决策支持系统(DSS)。 数据仓库技术、联机分析处理技术和数据挖掘技术的应用,对...

    数据仓库教程.rar

    8.1 数据仓库中的外部数据/非结构化数据 157 8.2 元数据和外部数据 158 8.3 存储外部数据/非结构化数据 159 8.4 外部数据/非结构化数据的不同 组成部分 160 8.5 建模与外部数据/非结构化数据 160 8.6 ...

    决策支持系统(DSS):第5章:基于数据仓库的决策支持系统.ppt

    数据仓库(Data Warehouse)是20世纪90年代中期兴起的一种关键信息技术,它与联机分析处理(OLAP)和数据挖掘(DM)相结合,构成了基于数据仓库的决策支持系统,这种系统对于企业的决策制定过程提供了强大的支持。...

    人工智能-数据挖掘-基于数据仓库和数据挖掘的企业决策支持系统研究.pdf

    综上所述,基于数据仓库和数据挖掘的企业决策支持系统能够有效解决传统DSS系统存在的问题,为企业的决策制定提供了强有力的支持。未来的研究方向可包括进一步提高数据挖掘算法的效率和准确性、探索更多元化的数据源...

    基于数据仓库技术的决策支持系统的设计与实现.docx

    总的来说,基于数据仓库技术的决策支持系统能够帮助企业从海量的电信业务数据中提炼出有价值的洞见,解决诸如话费流失、新业务推广、基站分配和定价策略等问题。随着技术的发展,这些系统将继续优化,为企业提供更...

    论文研究-基于数据仓库技术的电信市场决策支持系统探讨.pdf

    综上所述,基于数据仓库技术的电信市场决策支持系统是一套复杂的信息技术系统,它不仅需要高质量的数据集成和管理,还需要高效的分析工具和技术支持。通过该系统,电信运营商可以更加准确地把握市场动态,合理配置...

    基于数据仓库的医疗决策支持系统的研究

    ### 基于数据仓库的医疗决策支持系统的研究 #### 一、研究背景与意义 在信息化快速发展的背景下,医院信息系统(Hospital Information System, HIS)作为医疗机构的核心组成部分,已广泛应用于医疗领域。随着信息...

    数据仓库之理论与实践

    数据仓库为DSS提供决策所需的历史数据和信息基础,使得决策者能够基于历史数据进行预测和分析。 在实施数据仓库的过程中,我们难免会遇到许多挑战。数据质量问题便是其中之一,错误或不一致的数据会严重影响分析...

    基于数据仓库与数据挖掘的会计决策支持系统研究.pdf

    通过数据仓库和数据挖掘技术构建的会计决策支持系统,不仅可以集成不同系统中的数据,还可以从数据中发现复杂联系,并将这些联系以图表、可视化、类自然语言等形式展现,从而为决策者提供科学的技术支持。...

    基于决策支持系统的数据仓库.

    在构建基于决策支持系统的数据仓库时,有几个关键步骤和组件: 1. 数据源集成:这是数据仓库建设的第一步,涉及到从不同的业务系统(如销售、财务、人力资源等)收集数据。这些数据源可能有各自的结构和格式,需要...

    数据仓库、数据挖掘、建模

    有效的数据建模可以帮助企业构建合理的数据架构,优化数据仓库的设计,从而提高数据质量和分析效率。 综上所述,数据仓库作为一种重要的信息基础设施,其发展和应用对企业决策支持起到了至关重要的作用。通过对历史...

    MySQL数据仓库指南.pdf

    本书主要面向数据仓库的开发人员,但同时也适合IT经理、数据仓库初学者以及其他对MIS(管理信息系统)和DSS(决策支持系统)感兴趣的IT专业人员。书中通过一个精简版的实际数据仓库开发案例,结合数据模型和SQL脚本...

    数据仓库过程开发以及案例开发

    **决策支持系统(Decision Support System, DSS)**:是一种帮助管理者进行决策制定的信息系统,通常会使用数据仓库作为数据来源之一。 **联机分析处理(OLAP)/ ROLAP / MOLAP**:OLAP技术提供快速多维度的数据...

    从传统数据库到数据仓库

    为了提高竞争力并保持可持续发展,组织越来越重视基于数据的决策支持系统(DSS)。数据仓库作为一种新兴的技术手段,通过收集、整合组织内部及外部的各种数据,为管理层提供有效的决策支持。数据仓库的出现解决了...

Global site tag (gtag.js) - Google Analytics