`
theice
  • 浏览: 56925 次
  • 性别: Icon_minigender_1
  • 来自: 北京
最近访客 更多访客>>
文章分类
社区版块
存档分类
最新评论
阅读更多
马上要入门做BI开发了,那么先来了解下什么是BI吧:

Business Intelligence(BI) 商务智能
IDC将商业智能定义为下列软件工具的集合:
1.终端用户查询和报告工具。专门用来支持初级用户的原始数据访问,不包括适用于专业人士的成品报告生成工具
2.OLAP工具。提供多维数据管理环境,其典型的应用是对商业问题的建模与商业数据分析。OLAP也被称为多维分析
3.数据挖掘(Data Mining)软件。使用诸如神经网络、规则归纳等技术,用来发现数据之间的关系,做出基于数据的推断。
4.数据集市(Data Mart)和数据仓库(Data Warehouse)产品。包括数据转换、管理和存取等方面的预配置软件,通常还包括一些业务模型,如财务分析模型。
5.主管信息系统(EIS,Executive Information System)
这个定义应该是比较学术了,客户多半不明白。 其实BI通俗来讲就是收集相关信息并加以分析,以帮助您做决策。成功的BI系统多采用了数据仓库技术。


然后,再看看数据仓库是什么:

数据仓库
数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合

数据仓库,英文名称为Data Warehouse,可简写为DW。

数据仓库之父Bill Inmon在1991年出版的“Building the Data Warehouse”一书中所提出的定义被广泛接受——数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。

◆面向主题:操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。

◆集成的:数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。

◆相对稳定的:数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。

◆反映历史变化:数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

数据仓库是一个过程而不是一个项目。

数据仓库系统是一个信息提供平台,他从业务处理系统获得数据,主要以星型模型和雪花模型进行数据组织,并为用户提供各种手段从数据中获取信息和知识。

从功能结构化分,数据仓库系统至少应该包含数据获取(Data Acquisition)、数据存储(Data Storage)、数据访问(Data Access)三个关键部分。

什么是数据仓库

(转载自北大高科网站,http://www.pku-ht.com/)

目前,数据仓库一词尚没有一个统一的定义,著名的数据仓库专家W.H.Inmon在其著作《Building the Data Warehouse》一书中给予如下描述:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

根据数据仓库概念的含义,数据仓库拥有以下四个特点:

1、面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。

2、集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。

3、相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。

4、反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程。

整个数据仓库系统是一个包含四个层次的体系结构,具体由下图表示。

数据仓库系统体系结构 

·数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等;

·数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。

·OLAP服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:ROLAP、MOLAP和HOLAP。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。

·前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以数据挖掘及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。

     目前,数据仓库一词尚没有一个统一的定义,著名的数据仓库专家W.H.Inmon在其著作《Building the Data Warehouse》一书中给予如下描述:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。多维

数据仓库的组成

      数据仓库数据库
      是整个数据仓库环境的核心,是数据存放的地方和提供对数据检索的支持。相对于操纵型数据库来说其突出的特点是对海量数据的支持和快速的检索技术。

      数据抽取工具
      把数据从各种各样的存储方式中拿出来,进行必要的转化、整理,再存放到数据仓库内。对各种不同数据存储方式的访问能力是数据抽取工具的关键,应能生成COBOL程序、MVS作业控制语言(JCL)、UNIX脚本、和SQL语句等,以访问不同的数据。数据转换都包括,删除对决策应用没有意义的数据段;转换到统一的数据名称和定义;计算统计和衍生数据;给缺值数据赋给缺省值;把不同的数据定义方式统一。

      元数据
      元数据是描述数据仓库内数据的结构和建立方法的数据。可将其按用途的不同分为两类,技术元数据和商业元数据。

      技术元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库是用的数据。包括:数据源信息;数据转换的描述;数据仓库内对象和数据结构的定义;数据清理和数据更新时用的规则;源数据到目的数据的映射;用户访问权限,数据备份历史记录,数据导入历史记录,信息发布历史记录等。

      商业元数据从商业业务的角度描述了数据仓库中的数据。包括:业务主题的描述,包含的数据、查询、报表;

      元数据为访问数据仓库提供了一个信息目录(informationdirectory),这个目录全面描述了数据仓库中都有什么数据、这些数据怎么得到的、和怎么访问这些数据。是数据仓库运行和维护的中心,数据仓库服务器利用他来存贮和更新数据,用户通过他来了解和访问数据。

      访问工具
      为用户访问数据仓库提供手段。有数据查询和报表工具;应用开发工具;管理信息系统(EIS)工具;在线分析(OLAP)工具;数据挖掘工具。

      数据集市(DataMarts)
      为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(subjectarea)。在数据仓库的实施过程中往往可以从一个部门的数据集市着手,以后再用几个数据集市组成一个完整的数据仓库。需要注意的就是再实施不同的数据集市时,同一含义的字段定义一定要相容,这样再以后实施数据仓库时才不会造成大麻烦。

      数据仓库管理:安全和特权管理;跟踪数据的更新;数据质量检查;管理和更新元数据;审计和报告数据仓库的使用和状态;删除数据;复制、分割和分发数据;备份和恢复;存储管理。

      信息发布系统:把数据仓库中的数据或其他相关的数据发送给不同的地点或用户。基于Web的信息发布系统是对付多用户访问的最有效方法。

设计数据仓库的九个步骤
      1)选择合适的主题(所要解决问题的领域)
      2)明确定义fact表
      3)确定和确认维
      4)choosingthefacts
      5)计算并存储fact表中的衍生数据段
      6)roundingoutthedimensiontables
      7)choosingthedurationofthedatabase
     theneedtotrackslowlychangingdimensions
      9)确定查询优先级和查询模式。

      技术上
      硬件平台:数据仓库的硬盘容量通常要是操作数据库硬盘容量的2-3倍。通常大型机具有更可靠的性能和和稳定性,也容易与历史遗留的系统结合在一起;而PC服务器或UNIX服务器更加灵活,容易操作和提供动态生成查询请求进行查询的能力。选择硬件平台时要考虑的问题:是否提供并行的I/O吞吐?对多CPU的支持能力如何?

      数据仓库DBMS:他的存储大数据量的能力、查询的性能、和对并行处理的支持如何。

      网络结构:数据仓库的实施在那部分网络段上会产生大量的数据通信,需不需要对网络结构进行改进。
实现上

建立数据仓库的步骤

1)收集和分析业务需求
2)建立数据模型和数据仓库的物理设计
3)定义数据源
4)选择数据仓库技术和平台
5)从操作型数据库中抽取、净化、和转换数据到数据仓库
6)选择访问和报表工具
7)选择数据库连接软件
8)选择数据分析和数据展示软件
9)更新数据仓库

      数据抽取、清理、转换、和移植

1)数据转换工具要能从各种不同的数据源中读取数据。
2)支持平面文件、索引文件、和legacyDBMS。
3)能以不同类型数据源为输入整合数据。
4)具有规范的数据访问接口
5)最好具有从数据字典中读取数据的能力
6)工具生成的代码必须是在开发环境中可维护的
7)能只抽取满足指定条件的数据,和源数据的指定部分
8)能在抽取中进行数据类型转换和字符集转换
9)能在抽取的过程中计算生成衍生字段
10)能让数据仓库管理系统自动调用以定期进行数据抽取工作,或能将结果生成平面文件
11)必须对软件供应商的生命力和产品支持能力进行仔细评估
      主要数据抽取工具供应商:Prismsolutions.Carleton'sPASSPORT.InformationBuildersInc.'s
EDA/SQL.SASInstituteInc.

数据仓库带来了什么

      每一家公司都有自己的数据。并且,许多公司在计算机系统中储存有大量的数据,记录着企业购买、销售、生产过程中的大量信息和客户的信息。通常这些数据都储存在许多不同的地方。

      使用数据仓库之后,企业将所有收集来的信息存放在一个唯一的地方——数据仓库。仓库中的数据按照一定的方式组织,从而使得信息容易存取并且有使用价值。

      目前,已经开发出一些专门的软件工具,使数据仓库的过程实现可以半自动化,帮助企业将数据倒入数据仓库,并使用那些已经存入仓库的数据。

      数据仓库给组织带来了巨大的变化。数据仓库的建立给企业带来了一些新的工作流程,其他的流程也因此而改变。

      数据仓库为企业带来了一些“以数据为基础的知识”,它们主要应用于对市场战略的评价,和为企业发现新的市场商机,同时,也用来控制库存、检查生产方法和定义客户群。

      每一家公司都有自己的数据。数据仓库将企业的数据按照特定的方式组织,从而产生新的商业知识,并为企业的运作带来新的视角。

为何要建立数据仓库

      计算机发展的早期,人们已经提出了建立数据仓库的构想。“数据仓库”一词最早是在1900年,由Bill Inmon先生提出的,其描述如下:数据仓库是为支持企业决策而特别设计和建立的数据集合。

      企业建立数据仓库是为了填补现有数据存储形式已经不能满足信息分析的需要。数据仓库理论中的一个核心理念就是:事务型数据和决策支持型数据的处理性能不同。

      企业在它们的事务操作收集数据。在企业运作过程中:随着定货、销售记录的进行,这些事务型数据也连续的产生。为了引入数据,我们必须优化事务型数据库。

      处理决策支持型数据时,一些问题经常会被提出:哪类客户会购买哪类产品?促销后销售额会变化多少?价格变化后或者商店地址变化后销售额又会变化多少呢?在某一段时间内,相对其他产品来说哪类产品特别容易卖呢?哪些客户增加了他们的购买额?哪些客户又削减了他们的购买额呢?

      事务型数据库可以为这些问题作出解答,但是它所给出的答案往往并不能让人十分满意。在运用有限的计算机资源时常常存在着竞争。在增加新信息的时候我们需要事务型数据库是空闲的。而在解答一系列具体的有关信息分析的问题的时候,系统处理新数据的有效性又会被大大降低。另一个问题就在于事务型数据总是在动态的变化之中的。决策支持型处理需要相对稳定的数据,从而问题都能得到一致连续的解答。

      数据仓库的解决方法包括:将决策支持型数据处理从事务型数据处理中分离出来。数据按照一定的周期(通常在每晚或者每周末),从事务型数据库中导入决策支持型数据库——既“数据仓库”。数据仓库是按回答企业某方面的问题来分“主题”组织数据的,这是最有效的数据组织方式。


数据仓库和数据集市

      有关决策支持型数据库的数据集市是面向企业中的某个部门或是项目小组的。一些专家顾问将数据集市的建造描述为建立数据仓库全过程中的一步。首先,一个储存企业全部信息的数据仓库被创建,其中,数据均具备有组织的、一致的、不变的格式。数据集市随后被创立,其目的是为不同部门提供他们所需要的那部分信息。数据仓库聚集了所有详细的信息,而数据集市中的数据则是针对用户们的特定需求总结而出的。

      而另外一些专家则认为数据集市的建立并不需要首先建立一个数据仓库。在这个模型中,数据直接由事务型数据库转入数据集市中。一个公司可能建立有多个数据集市,而彼此之间毫无联系。

      这种不在建立数据仓库的基础上创建数据集市的方式会更便宜、更快速,因为它的规模更加易于管理。

      第二种观点的缺陷在于无法实现最初创建数据仓库的最主要的目的——将企业所有的数据统一为一致的格式。现有的事务处理系统的数据往往是不一致、冗余的。如果首先建立起一个全公司范围的数据仓库,组织就能够获得一个统一关于企业的活动和客户的知识库。如果先建立起一个个独立的数据集市,那么数据仓库的诸多优势都能够得以实现,但是企业远远无法做到对数据的一致的储存。
分享到:
评论
1 楼 java-007 2008-06-20  
我是比你小两届的师弟啊,想不到你也在搞bi啊,小弟现在也在搞bi啊,用的工具是hyperion。虽然我们现在还不认识,但是我们有一个共同的牛比的老师,吴老师。在吴老师的论坛里也时常看到你的声音,呵呵,以后多指教啊。

相关推荐

    BI开发规范

    以下是一些关键的BI开发规范要点: 1. **需求收集与分析**:首先,应明确业务需求,了解用户对数据的需求,包括报表类型、指标定义、时间范围等。需求分析应详尽无遗,避免因理解不清导致后期返工。 2. **数据源...

    Power-BI开发版V3.0新增功能

    ### Power-BI开发版V3.0新增功能详解 #### 一、全新多维报表设计及展示工具 ##### 1.1 强大的多维数据透视表控件 Power-BI开发版V3.0中引入了全新的多维数据透视表控件,这一控件不仅保留了原有的强大功能,还...

    网易2012校招笔试题——杭研_数据库管理员、BI开发

    这篇笔试题主要涉及了数据库管理和商业智能(BI)开发两个领域的知识。...通过这样的笔试,网易旨在评估应聘者的理论知识和实际操作能力,以确保他们能够在实际工作中胜任数据库管理和BI开发的角色。

    作为一个BI开发人员,我要发布报表,元数据,OLAP的模型到BI服务器

    标题中的“作为一个BI开发人员,我要发布报表,元数据,OLAP的模型到BI服务器”表明了本主题涉及商业智能(Business Intelligence, BI)领域的开发工作。BI是数据分析的重要组成部分,它通过收集、处理和分析大量...

    BI项目开发规范-来自于帆软

    《BI项目开发规范-来自于帆软》是一份详尽的指南,旨在规范从SQL编写、数据仓库构建到报表生成的全过程,确保数据处理与分析的高效性和准确性。这份规范由帆软软件有限公司提供,旨在提升团队协作效率,保证数据质量...

    奥威智动Power-BI开发平台

    Power-BI是一款(BI)商业智能软件,是珠海奥威软件科技有限公司自主研发的软件产品,全称是:Power-BI决策分析系统.Power-BI绿色开发平台,通过数据视图管理、数据转换管理、OLAP数据库管理、多维报表设计、即席...

    BI四大开发软件比较

    本文将对比分析四大BI开发软件:SAP Business Objects(BO)、IBM Cognos、Oracle Hyperion和Microsoft的Visual Studio 2005/SQL Server 2005。 SAP Business Objects(BO)是一款强大的报表和分析工具,于2007年被...

    电力BI开发的Demo

    电力BI经典demo,值得下载学习,欣赏,参照。

    微软面试 BI 工程师 试题

    这可能涉及Web开发技能,使用如SSRS的自定义扩展,或者Power BI等工具,提供用户友好的筛选和图表生成功能。 这些任务不仅测试了候选人的技术能力,如SQL知识、数据库管理、数据处理和分析,还考察了他们的问题解决...

    Cognos.Tableau.Smartbi开发报表简单对比.pdf

    在BI(商业智能)领域,报表开发是至关重要的任务,涉及到数据的收集、处理和可视化。Cognos、Tableau和SmartBI都是知名的BI工具,它们各有特点,适合不同的应用场景。下面将对这三个工具在报表开发方面的差异进行...

    BI常见面试题

    BI 常见面试题汇总 BI(Business Intelligence)是企业智能化的核心组件,涉及到数据分析、报表设计、数据仓库、数据挖掘等多个方面。面试BI相关岗位时,需要具备丰富的知识储备和实践经验。以下是BI常见面试题汇总...

    国内优秀BI厂商

    2. Power-BI开发版:作为一个平台性产品,它帮助企业在现有ERP或其他信息系统上管理数据视图,构建多维分析模型,制作智能分析报告,以及发布管理驾驶舱等BI应用,同时保持操作的简洁性,支持多种数据源和信息管理...

    oracle bi publisher开发指南

    本指南将深入探讨Oracle BI Publisher的开发技术,包括其基本概念、工作流程以及两种主要的开发方式。 一、Oracle BI Publisher基础 Oracle BI Publisher的核心功能是数据提取、转换和呈现。它使用XML为基础的数据...

    3.PowerBI从入门到精通-面向管理员(官方原版).pdf

    这些管理员包括 BI 开发人员、分析师等关键团队成员,他们负责租户的管理,包括配置管理策略、监控使用情况、分配许可证、容量和资源预配等。 在PowerBI中,有多个管理员角色,包括Office 365全局管理员、Office ...

    BI题目文档

    【BI题目文档】这篇文档涉及的是商业智能(BI)项目实施中的相关知识,主要涵盖了项目描述、行业特性、BI开发工作、建模步骤以及问题解决流程。以下是详细的知识点解析: 1. **项目职责与团队架构**:在PVC行业的BI...

    PowerBI-Developer-Samples-master

    对于想要深入学习Power BI开发的人员,可以按照以下步骤: 1. 理解Power BI基础,包括数据模型、报表和仪表板创建。 2. 学习Power BI REST API,了解如何与服务交互。 3. 探索Power BI Custom Visuals,增强报表的...

    BI analyzer 权威文档

    BI Analyzer,全称为Business Intelligence Analyzer,是一款用于商业智能分析的工具,主要与SQL Server数据库系统配合使用,帮助企业用户深入理解并分析数据,从而做出明智的业务决策。在本压缩包中,包含了...

Global site tag (gtag.js) - Google Analytics