`
mengqingyu
  • 浏览: 333144 次
  • 性别: Icon_minigender_1
  • 来自: 天津
社区版块
存档分类
最新评论

(转载)数据仓库、OLAP和数据挖掘的比较分析

    博客分类:
  • BI
阅读更多
    我国银行的信息化可以大致划分为3个阶段:业务自动化、数据集中化、管理信息化。以工、农、中、建、交为代表的综合性大型商业银行都已陆续完成了第二阶段的转变——数据集中。如何运用银行在历年经营中积累的海量数据,利用信息技术的发展,将数据转变为信息,进而发觉其中存在的商业价值,是各大银行信息化第三阶段转变的关键。数据仓库、OLAP和数据挖掘等信息技术经历了数年的应用与发展,不断趋于成熟和完善,它们为银行的信息化管理提供了可靠的技术支撑平台。

一、数据仓库、OLAP和数据挖掘的关系和区别分析

1.数据仓库、OLAP和数据挖掘三者之间的关系
    在比较成熟的系统中,数据分析过程都是基于以数据仓库为基础,OLAP和数据挖掘相辅相成的分析模式(如图1所示)。数据仓库将来自于各种数据源的数据,根据不同的主题进行存储,并对原始数据进行抽取、转换和加载等一系列筛选和清理工作。OLAP则将数据通过多维视角和多种层次向用户进行多方式的呈现。数据挖掘则应用不同的算法,向用户揭示数据间的规律性,从而辅助商业决策。比如,在银行间盛行的CRM(客户关系管理)的应用中,数据仓库以面向“客户”为主题进行数据筛选、存储;OLAP负责分析客户的基本信息、储蓄账户信息、历史余额信息、银行交易日志等,以动态分析报表、直方图、折线图、饼图等形式展现给管理者,让他们从多方面了解和掌握客户的动态,从而发现客户的交易习性、客户流失形式,更好地针对不同类型的客户,在不同时期进行适应性产品的营销活动。数据挖掘则可以通过历史数据建立模型,在拟合历史的基础上,分析未来趋势,判断哪些因素的改变将很可能意味着客户的最终流失,进而避免其发生。

2.从数据库到数据仓库
    传统的数据库技术可以划分为两大类:操作型和分析型。操作型也称为事务处理,是对数据库联机的日常操作,通常是对一个或一组记录的查询和修改,主要是为企业的特定应用服务,注重响应时间,数据的安全性和完整性;分析型是针对特定问题的联机访问和分析,通过对信息多种可能的观察形式进行稳定、一致和交互性的存取,允许分析人员对数据进行深入观察。传统数据库能够满足企业日常事务处理工作,但难以实现对数据分析和多样化处理的要求,数据仓库的出现弥补了这一缺憾,将原来以单一的数据资源,即数据库为中心的数据环境发展成为一种面向主题的体系化环境,专门用于支持高层决策分析。数据仓库并不是取代数据库,绝大部分的数据仓库还是采用关系数据库管理系统来管理数据。

3.OLAP和数据挖掘的区别与联系
    OLAP和数据挖掘的主要区别在于:在辅助决策时,前者是基于用户建立的一系列假设驱动,通过OLAP来证实或者推翻这些假设,是一个演绎推理的过程;数据挖掘是通过归纳的方式,在海量数据中主动找寻模型,自动发掘隐藏在数据中的价值信息。比如:一个OLAP分析师可能认为,在某一区域开办信用卡的用户会更主动地进行消费。对于这个假定,他可能去观察在那些富裕地区申办信用卡的用户的信用卡账户属性。如果结果还不够明显,他也许要将年龄因素考虑进去。一直这样下去,直到他认为他找到了能够决定是否主动进行信用卡消费的各种变量,然后再根据这些变量,策划他的银行产品的营销方式,最大程度上将营销资源放在最可能接受他们产品的客户对象上。对于数据挖掘分析师,我们假设他也得出了和这个OLAP分析师同样的结论,但是他们得出结论的方式却孑然相反。数据挖掘分析师把各种因素或者变量放在数据挖掘工具中,由挖掘工具自行建立模型,在去除一系列与信用卡消费不相关或者不显著的因素或者变量后,也得到了同样的结果。在这里我们假设都是区域和年龄因素,当然也可能两者得出的因素或者变量不尽相同。简单地描述两者的区别:相对于OLAP,数据挖掘把更多的主动权交给了挖掘工具,在一定程度上,可以看成是人工智能的初级应用。此外,OLAP限于结构化数据,侧重与用户的交互、快速响应以及提供多维视图,而数据挖掘还可以分析诸如文本的、空间的和多媒体的非结构化数据。
虽然两者在不同角度和层面上存在很大的差异,但OLAP与数据挖掘也有一定的互补性。OLAP本身的分析结果能够为数据挖掘提供分析依据,数据挖掘可以拓展OLAP的分析深度,发掘更为复杂、细致的信息,它们之间的关系如图2所示。

二、数据仓库、OLAP和数据挖掘在银行业中的应用与比较

1.数据仓库设计
    银行在近10年来的信息化进程中,从开发应用储蓄、会计、信贷、资金等业务子系统,到建立以综合业务系统为核心,其他子系统为辅助的现在银行业系统架构,积累了丰富的信息资源。面对多样化的软、硬件平台,管理者和决策者如何有效地整合分散的应用系统以提取潜在的商业价值,成为新一代银行信息化发展方向的重要课题。目前,经过市场的推广和业界的肯定,数据仓库已逐渐成为银行加强经营管理、开发新型产品、提高服务水平、提供差异化服务的重要平台。
按照数据仓库以面向主题的应用原则,我们以个人信用卡消费趋势为主题,采用自底向上的设计方式,从各个业务子系统中整合信息资源,以“星形模型”为建模方式,按“数据方块”组织结构和提供数据,抽取数据时按照元数据进行规范和管理,建立“事实表”和“维度表”。模型设计如图3所示。
其中“信用卡交易事实表”位于星形模型的中心,要素主要来自于银行卡消费、信用卡消费的属性和信息表。周围关于“日期”、“银行机构”、“产品”和“客户”的4张维度表构成了星形模型的维度实体,它们可以从各个业务子系统中获得数据。数据仓库的主要实现步骤如下。
    1)数据提取:数据的提取采用元数据管理的方式,记录来源表、来源字段、目的表、目的字段、转换规则以及转换条件。如 “金额”字段来源于“银行卡消费表”的“交易金额”字段,或者来自于“信用卡消费表”中的“消费透支”字段等。
    2)数据转换:由于不同的业务子系统拥有不同的信息数据表,数据结构不尽相同,需要建立统一的业务规则和标准对数据进行逐个转换、清洁和集成。例如各个业务子系统的日期表结构不同,有的采用YYYYMMDD,有的定义为MMDDYYYY。在本例中,我们单独面向该主题建立一张日期维度表。又如各种“地址”字段在绝大多数早期系统中都简单地定义为字符串形式。在本例中,我们需要将其分解为:省、市、区、县等字段,并且需要进行格式化。
    3)数据装载:通过以上过程,建立数据仓库装载映射,装载子系统将提取和转换产生的映射,直接装入数据仓库,并加载元数据。
2.OLAP的展现
数据仓库的建立仅是第一步,它的价值还没有得到体现。OLAP技术提供了对数据仓库中的数据进行复杂显示和分析的方法。银行管理人员或者业务人员可以对数据库中的数据进行旋转、切片、钻取等分析操作,并通过各种专业图表展现给用户,获取直观的分析结果,得到或者验证结论与假设。
从图4中我们可以发现,各个用户不同期间的信用卡消费金额,从而分析出不同用户的差异消费倾向。例如在几位客户中,徐某的消费倾向相对其他客户比较低;在12月到2月期间,是每个用户消费的集中期,比其他月份消费的金额相对要高。结果显示,年末往往是客户消费旺盛期,消费金额普遍增长。针对此情况,我们可以在这一时期推出更多的银行与商户结合营销、购物返利、积分累进等手段,进一步增加信用卡的消费金额。
    从“信用卡交易事实表”中,以产品和客户为维度,了解不同客户对产品的需求变化,找出客户喜欢的产品类型,调整产品参数,并推出新型产品满足不同客户的需要。
从“信用卡交易事实表”中,以客户和机构为维度,了解不同开户地客户的信用卡消费倾向,对于银行的优质客户加强营销力度,多次拜访、增加交流次数,更大程度上留住客户。在此基础上,还可以增加客户的年龄维度,以三维角度观测消费倾向。
OLAP是一种可以多维分析的技术,对用户的决策分析能够提供较好的支持,将大量、复杂的业务数据快速、灵活地展现给用户,从而使决策者准确地掌握银行的经营状况,了解客户需求,把握市场动向,制订战略决策。

3.数据挖掘的应用
    OLAP在展现形式上,给予用户直观、灵活的多维视角,将人的思维以多种形式进行呈现,但数据中潜在的商业价值并没有被进一步挖掘出来。这就需要一种方法,自动统计和分析数据,发现和描述其中隐含的趋势或者内涵,而数据挖掘技术正是这一方法的体现。它将数据仓库的应用提升到更高的层次。数据挖掘技术有很多种,常用的是统计分析类和知识发现类,对应的挖掘方法也各有差异。在金融行业中,统计分析类是通用的一种挖掘手段。下面按照数据挖掘的主要步骤,说明数据挖掘的过程。
    (1)确定对象和目标
    研究对象:信用卡消费是同业竞争的焦点,是银行发展零售业务的重要指标,以信用卡消费额为研究对象,作为因变量Y,影响消费的主要因素有月收入,消费次数、持卡数、用卡奖励积分等。
研究目标:通过建立模型,判断各个因素与因变量Y(信用卡消费额)的显著性关系,并尝试对模型的现实意义进行分析解释。
    (2)数据选择
    选取上述以“信用卡消费趋势”为主题的数据仓库中的数据表,数据源来自于个人业务系统和信用卡系统中的信用卡、银行卡以及其他业务表
    (3)建立模型
模型是数据挖掘成功的关键,应用于银行业数据挖掘统计分析的模型都有着各自的优缺点。对于多个自变量来说,主要有多元线形回归模型、多元逻辑回归模型、F分数模型等。考虑到自变量可能包括定性和定量两种属性,尝试使用多元逻辑回归模型。
    (4)结果分析
    将多元逻辑回归方法建立的信用卡消费金额模型结果用表格表示。从表中可以得出,信用卡消费模型为:
f(x)=1.2148+0.5734*income+0.1246*consum+0.1349cardnum
以上模型中各个自变量对因变量的解释都有一定的实际意义,月收入越多、持卡量越大、消费次数越多,消费金额也就越大,模型的结果与实际业务情况比较一致。

三、结论与展望
    通过上述比较分析,我们可以发现3种技术分别处于不同的应用层面。数据仓库将面向不同主题的数据进行格式化存储,OLAP和数据挖掘则根据不同的应用人员进行数据再处理。数据仓库的海量数据只有通过OLAP和数据挖掘才能成为有价值的信息,体现建立数据仓库最终价值。而数据仓库经过筛选和清理,对来自不同数据源的结构化和非结构化数据进行格式化预处理,为OLAP和数据挖掘提供高质量数据,简化了OLAP和数据挖掘的过程和步骤,提高两者的工作效率。基于这种特性,一种新型的模式——DW(数据仓库)+OLAP(联机分析处理)+DM(数据挖掘)->DSS(决策支持系统)由此得到开拓和发展。这种模式也会因其融合三者的特性而产生的强大辅助决策功能得到广泛应用,成为未来金融信息化发展的焦点所在。

转自:http://zjd9961.blog.163.com/blog/static/33892990201049013327/
分享到:
评论

相关推荐

    数据仓库、OLAP和数据挖掘的比较分析

    ### 数据仓库、OLAP和数据挖掘的比较分析 #### 一、数据仓库、OLAP和数据挖掘的关系和区别分析 1. **数据仓库、OLAP和数据挖掘三者之间的关系** - **数据仓库**: 是一种面向主题的、集成的、稳定的、随时间变化...

    数据仓库、数据挖掘和OLAP分析及其应用实例

    传统数据库主要用于日常事务处理,而数据仓库则专注于历史数据的分析和报告,为决策者提供深入的洞察力。数据仓库通过收集、整合来自不同来源的数据,形成统一的视图,确保数据的一致性和完整性,从而支持各种决策...

    大数据分析与大数据挖掘课程 数据仓库与数据挖掘教程 第4章 OLAP与数据立方体 联机分析处理 共44页.pptx

    【大数据分析与大数据挖掘课程】本课程专注于讲解数据仓库与数据挖掘的相关知识,适合初学者或需要复习的同学。课程内容详尽,逐步深入,涵盖数据仓库的构建、数据的存储和处理,以及数据挖掘的基础理论和技术应用。...

    数据仓库和数据挖掘的OLAP技术

    数据仓库和数据挖掘是现代信息技术领域中的重要组成部分,它们通过OLAP(在线分析处理)技术提供了强大的数据分析能力。OLAP技术是数据仓库和数据挖掘之间的桥梁,使得从大量历史数据中提取有价值信息成为可能。 ...

    数据挖掘入门及与数据仓库和OLAP的区别和联系

    在本文中,我们将深入探讨数据挖掘的基本概念,以及它与数据仓库和在线分析处理(OLAP)的关系。 首先,我们来了解数据挖掘的核心概念。数据挖掘可以分为两大类:监督学习和无监督学习。监督学习包括分类(如决策树...

    数据仓库与OLAP分析实验及实验教案.rar

    3. **OLAP概念**:在线分析处理(OLAP)是快速、交互式地对多维数据进行分析和查询的技术。OLAP操作包括切片、 dice、钻取、旋转和聚合等,用于深入探索数据。实验中会演示如何执行这些操作以获取有价值的洞察。 4....

    数据仓库课件 数据仓库技术与OLAP 数据挖掘概念与技术

    数据仓库是信息技术领域中...总的来说,数据仓库技术与OLAP、数据挖掘概念和技术共同构建了现代商业智能的基础。掌握这些知识对于理解和利用企业数据资源至关重要,能帮助企业提升竞争优势,实现数据驱动的决策和增长。

    基于数据仓库、OLAP和数据挖掘的智能决策支持系统研究.pdf

    它与传统数据库最大的区别在于,传统数据库侧重于事务处理,而数据仓库专注于数据的分析和挖掘。数据仓库的数据来源于组织内外的多个数据源,且这些数据是经过整合的,提供了面向主题的视角,并且具有时间的维度。 ...

    OLAP方法数据挖掘

    在描述中提到的“利用OLAP分析方法对数据库进行分析,并挖掘出有用信息”是指通过OLAP工具,对存储在数据仓库中的大量历史数据进行深度挖掘,发现潜在的模式、趋势和关联,从而支持决策制定。 在实践中,OLAP与数据...

    数据仓库和数据挖掘的OLAP技术.pptx

    OLAP侧重于分析和决策支持,使用星型或雪花模型的多维数据结构,提供汇总的、多维的视图,处理复杂的查询。而OLTP关注当前、详细的数据,支持简短的事务操作,具有较高的事务吞吐量要求。 数据立方体是OLAP技术的...

    数据仓库和数据挖掘的OLAP

    OLAP(在线分析处理)是实现这两者的关键技术之一,尤其是在大规模数据分析和决策支持系统中。让我们深入探讨一下这些概念及其关联。 **数据仓库**:数据仓库是一个集中的、统一的企业级数据库,设计用于支持决策...

    《数据仓库与数据挖掘》课程设计方案报告模板.pdf

    总结来说,这个课程设计方案报告通过实际案例,让学生深入理解和应用数据仓库的构建、OLAP分析以及数据挖掘技术,旨在培养他们在数据分析和决策支持方面的能力,为他们未来在人工智能领域的职业发展奠定坚实基础。

    数据仓库、OLAP与数据挖掘关系概述.docx

    数据仓库、OLAP与数据挖掘关系概述 ...数据仓库、OLAP与数据挖掘是紧密相连的技术,数据仓库提供了企业决策的数据基础,OLAP则将数据仓库中的数据进行多维分析和呈现,数据挖掘为之提供了更好的决策支持和服务。

    基于数据仓库和OLAP技术的聚类挖掘系统的设计与实现

    基于数据仓库和OLAP技术的聚类挖掘系统的设计与实现.nh

    创建OLAP实例(数据仓库与数据挖掘).doc

    chứng明了使用SQL Server 2005 Management Studio和Business Intelligence Development Studio可以成功创建OLAP实例,掌握数据仓库的基本构建方法和数据浏览和分析的基本方法,对数据进行多维分析,提高了数据分析...

    数据仓库与OLAP

    综上所述,数据仓库与OLAP是现代企业不可或缺的决策支持工具,它们通过提供深度分析能力和历史数据视角,帮助企业领导者基于数据做出战略决策,推动业务增长和创新。然而,成功实施数据仓库和OLAP系统需要充分考虑其...

    数据仓库和数据挖掘的OLAP技术.rar

    总的来说,"数据仓库和数据挖掘的OLAP技术"这个主题涵盖了从数据集成到分析洞察的全过程。通过学习PPT中的内容,你将能够掌握如何构建和利用数据仓库,理解OLAP的工作原理,以及如何将数据挖掘应用于实际的商业场景...

    数据挖掘与基于多维数据库的在线分析系统OLAP浅析.pdf

    本文主要介绍了数据挖掘和在线分析处理(OLAP)的原理、应用以及在商业智能中的作用。首先,文章强调数据挖掘作为一种分析技术,能够在商业智能领域中实现深层次的分析,尤其强调了它在提炼数据价值、实现深层次知识...

Global site tag (gtag.js) - Google Analytics