- 浏览: 59809 次
- 性别:
- 来自: 北京
文章分类
最新评论
2008 年 6 月 16 日
InfoSphere
MDM Server 可以帮助公司避免最重要的资产受到损害:关于客户、产品、伙伴、合同等的信息。它提供了一种主数据解决方案。
来自 IBM Database Magazine 。
InfoSphere MDM Server 可以帮助公司避免最重要的资产受到损害:关于客户、产品、伙伴、合同等的信息。它提供了一种主数据解决方案。从 20 世纪中期开始,大公司纷纷开始构建自己的 IT 应用程序,购买打包的应用程序,实现新奇的 ERP 系统,参与 CRM 和 EDW 热潮。按照这种孤立项目方式,每个项目都只追求自己的目标。因此形成了混乱的主数据环境。更复杂的是,又有 100 多家公司从这些公司取得数据并将这些数据掺杂在一起。
在大多数公司中,产品、客户、职员、地址和相关方数据分散在许多系统中。每个系统都有各自的精度、业务规则和标准。如果有人提出古怪的问题,比如 “我们究竟有多少产品?”、“如何把一组产品和服务打包在一起,在网上出售?” 或者 “如何找到花费最大的客户?”,这就会使主数据系统的缺点暴露出来了。
这就是所有 IT 会议都非常关注主数据管理(MDM)的原因。IBM 在 MDM 领域推出了一个新品牌(InfoSphere)和一种新产品(InfoSphere MDM Server)。InfoSphere 引起了广泛的关注,因此 IBM 启动了一个新的 InfoSphere Data Warehouse 项目并把 InfoSphere 品牌加入 Balanced Warehouse 系列。可以在参考资料中列出的 InfoSphere Balanced Warehouse 页面上找到更多信息。
<!--[if gte vml 1]><v:shapetype
id="_x0000_t75" coordsize="21600,21600" o:spt="75" o:preferrelative="t"
path="m@4@5l@4@11@9@11@9@5xe" filled="f" stroked="f">
<v:stroke joinstyle="miter" />
<v:formulas>
<v:f eqn="if lineDrawn pixelLineWidth 0" />
<v:f eqn="sum @0 1 0" />
<v:f eqn="sum 0 0 @1" />
<v:f eqn="prod @2 1 2" />
<v:f eqn="prod @3 21600 pixelWidth" />
<v:f eqn="prod @3 21600 pixelHeight" />
<v:f eqn="sum @0 0 1" />
<v:f eqn="prod @6 1 2" />
<v:f eqn="prod @7 21600 pixelWidth" />
<v:f eqn="sum @8 21600 0" />
<v:f eqn="prod @7 21600 pixelHeight" />
<v:f eqn="sum @10 21600 0" />
</v:formulas>
<v:path o:extrusionok="f" gradientshapeok="t" o:connecttype="rect" />
<o:lock v:ext="edit" aspectratio="t" />
</v:shapetype><v:shape id="_x0000_i1025" type="#_x0000_t75" alt="" style='width:600pt;
height:.75pt'>
<v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image001.png"
o:href="http://www.ibm.com/i/v14/rules/blue_rule.gif" />
</v:shape><![endif]--><!--[if !vml]--><!--[endif]--> |
<!--[if gte vml 1]><v:shape id="_x0000_i1027" type="#_x0000_t75" alt="" style='width:600pt;height:3pt'> <v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image003.png" o:href="http://www.ibm.com/i/c.gif" /> </v:shape><![endif]--><!--[if !vml]--><!--[endif]-->
|
近几年,IBM 提供了两个 MDM 产品(WebSphere Product Center 和 WebSphere Customer Center)。新的 MDM Server 是一个多种形式的 MDM 解决方案,这意味着它可以处理产品、客户等多方面的数据。它处理困难的 “事务性 MDM”,也就是管理那些跨许多运营系统共享的主数据。
主数据是通常存在于企业中多个数据库中的非事务性数据。这种数据以自己的方式进入 MDM 系统,它们通常描述关键的业务情况,影响重要的业务过程。所以对于次要的领域(比如公司业余排球队或咖啡供应商),不需要用 MDM 来管理,但是对于客户和产品,就应该用 MDM 跟踪其变化。
IBM 注意到公司往往按照不同的级别实施 MDM,随着发展,许多公司会提升 MDM 级别并添加 MDM 功能(见图 1)。
图 1. MDM 级别实施
<!--[if gte vml 1]><v:shape id="_x0000_i1029" type="#_x0000_t75" alt="MDM 实施级别"
style='width:367.5pt;height:74.25pt'>
<v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image007.jpg"
o:href="http://www.ibm.com/developerworks/cn/data/db2mag/dbt13n2/dbt13n2_f3/001.jpg" />
</v:shape><![endif]--><!--[if !vml]--><!--[endif]-->
典型的实现级别包括:
- 整合(Consolidation)。这个步骤是 MDM 的必有部分,涉及从多个系统收集数据、合并数据并把数据交付给单一目标。您可能不知道数据来自哪里或者谁将使用它,但是至少创建了数据的单一版本。这项工作会产生短期的好处,但是不会改变总体的混乱局面。清理数据之后几个月,数据又会变得混乱。在我曾经参与的一个数据质量项目中,我们试图清理产品和价格的清单,并在旧数据中发现了一些奇怪的现象:一组价格是在三年前的一个数据质量项目中调整过的,另一组价格在八年前调整过,其他调整发生在更久以前。每个数据质量项目都花费了大量资金,但是都没有对数据清单的质量产生持久的影响。相反,这种调整常常使数据清单的质量变得更糟糕。
- 注册(Registry)。整合后的数据被存储在一个特殊的数据存储中,这个数据存储提供某些服务(比如添加和修改数据)并对访问数据的用户进行审计。现在,您已经对主数据的混乱局面有了总体认识,但由于还没有修改数据输入过程,要避免源系统混乱主数据存储还必须花一番功夫。
- 共存(Coexistence)。MDM 注册的作用越来越大并与事务性存储库共存,它从源系统接收主数据并发送给其他系统。还要添加业务规则,从而管理哪些系统可以修改数据以及这些修改应该发送到什么地方。在这个级别上,要防止源系统制造混乱并对主数据进行同步。
- 事务中心(Transaction hub)。MDM Server 是关键主数据的控制中心;对主数据的修改都在这里进行并传播给其他应用程序。这个存储库提供关键实体的单一视图,但是可以根据访问者的安全需求和用户类型提供多个实体视图。通过实现这个 MDM 级别,可以从源头防止人们制造混乱。主数据的创建和维护都受到严格的审计和检查。
IBM 希望各个公司最终都达到事务中心级别,但是企业需要一定的时间才能发展到这个级别。企业可能应该先以整合或注册级别作为目标。
多种形式的 MDM
IBM 所说的 “多种形式的 MDM” 是指能够管理来自不同领域的主数据。MDM Server 的第一版能够管理的数据领域包括:
- 相关方:代理商、客户、职员、潜在客户、供应商
- 帐户:合同、协议、交易、奖励计划、财务帐户
- 产品:部件、产品、产品包、项目/SKU、服务、条款和条件
- 位置:位置、地址、联系方法、地理/区域
在以后的版本中会增加更多的数据领域,但是目前这些已经包含了最重要最常见的数据领域。
存储主数据仅仅是事务中心的作用的一小部分。InfoSphere MDM Server 附带大约 800 个过程,用来帮助管理和控制数据。这些服务分为四组:完整性、操作、智能化和数据治理(见图 2)。
图 2. InfoSphere MDM Server 服务结构
<!--[if gte vml 1]><v:shape id="_x0000_i1030" type="#_x0000_t75" alt="InfoSphere MDM Server 服务结构"
style='width:359.25pt;height:153pt'>
<v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image008.jpg"
o:href="http://www.ibm.com/developerworks/cn/data/db2mag/dbt13n2/dbt13n2_f3/002.jpg" />
</v:shape><![endif]--><!--[if !vml]--><!--[endif]-->
InfoSphere MDM Server 的组件包括:
- 完整性:数据质量组件
- 操作:业务服务(比如添加客户或修改位置)
- 智能化:关于操作和修改的业务规则,用来防止用户弄乱主数据
- 数据治理:安全和隐私规则,规定谁可以管理或查看主数据的哪些部分
- 知识:通过复杂的相关方层次结构查看主数据,并对主数据的理解和使用进行审计跟踪
属于 InfoSphere 品牌的产品用来提供信息服务,这些服务可以从多个 IBM 产品系列获取信息。InfoSphere MDM Server 有许多开箱即用的集成点,可以与 IBM Industry Models 和 IBM Information Server 集成。
IBM Information Server
InfoSphere MDM Server 附带许多 QualityStage 作业,这些作业有助于用整合的数据填充 MDM Server。IBM Information Server 是用于主数据的数据集成平台。其核心是 WebSphere QualityStage,这是一种提取、转换、装载(ETL)和数据质量工具,能够处理大批量数据或作为 SOA 服务运行。
有助于主数据整合的 QualityStage 功能包括:
- 标准化。处理文本字符串是 QualityStage 的特长;它能够解析相关方名称、地址、产品清单、位置、卡号和电话号码,并把它们转换为一种标准格式,使后续的匹配和挑选步骤更加顺利。
- 匹配。这个产品提供了多种匹配数据的方法,但是其中最先进的是或然性匹配(probabilistic matching),这种方法用模式和频率统计数据识别相似的字符串,可以匹配拼写相似的产品或名称。
- 挑选(Survivorship)。如果在两个系统中发现相同的主数据,就需要决定如何把它们整合成单一记录。希望从不同的记录取得最好的部分,比如从一个源取得新的电话号码,从另一个源取得邮寄地址。这样就可以结合不同记录的片段,避免出现相同数据的多个版本。挑选规则和技术有助于产生更精确的记录。
- 集成。QualityStage 包含 ETL 工具的许多组件,可以连接大多数数据库和平面文件源,可以执行查询、聚合和转换,它的元数据服务可以跟踪数据来源和运行时统计数据。
<!--[if gte vml 1]><v:shape
id="_x0000_i1031" type="#_x0000_t75" alt="" style='width:600pt;height:.75pt'>
<v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image001.png"
o:href="http://www.ibm.com/i/v14/rules/blue_rule.gif" />
</v:shape><![endif]--><!--[if !vml]--><!--[endif]--> |
<!--[if gte vml 1]><v:shape id="_x0000_i1033" type="#_x0000_t75" alt="" style='width:600pt;height:3pt'> <v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image003.png" o:href="http://www.ibm.com/i/c.gif" /> </v:shape><![endif]--><!--[if !vml]--><!--[endif]-->
|
InfoSphere MDM Server 附带一组到 IBM Industry Models 的映射。这些模型涉及银行、保险、电信和零售数据仓库,这些数据仓库保存着公司最重要的业务和分析数据。InfoSphere MDM Server 附带许多映射和数据集成作业,它们可以把主数据放到模型的数据仓库表中,从而支持根据主数据的单一版本生成报告。
QualityStage 映射是针对目标 InfoSphere MDM Server 配置的;但是,仍然需要做一些工作才能映射到源系统。Industry Model 映射也需要根据这些模型的特殊情况和扩展进行调整。
<!--[if gte vml 1]><v:shape
id="_x0000_i1035" type="#_x0000_t75" alt="" style='width:600pt;height:.75pt'>
<v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image001.png"
o:href="http://www.ibm.com/i/v14/rules/blue_rule.gif" />
</v:shape><![endif]--><!--[if !vml]--><!--[endif]--> |
<!--[if gte vml 1]><v:shape id="_x0000_i1037" type="#_x0000_t75" alt="" style='width:600pt;height:3pt'> <v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image003.png" o:href="http://www.ibm.com/i/c.gif" /> </v:shape><![endif]--><!--[if !vml]--><!--[endif]-->
|
MDM 的事务中心级别需要大量投资;因此,它需要业务驱动力和业务支持。企业希望提高运营效率、提高销售量、改进与客户的关系和改进合法性,还需要解决企业并购带来的难题。这就是产生业务驱动力的地方。企业需要找到适当的解决方案。
如果企业已经在客户关系管理、企业数据仓库、企业应用程序集成和面向服务体系结构方面投入了大量资金,那么可能很难说服他们再在 MDM 方面投资。MDM 的卖点在于先进的数据质量和数据治理技术,以及成熟的信息管理技术及其易用性,而 InfoSphere MDM Server 具备所有这些优点。
<!--[if gte vml 1]><v:shape
id="_x0000_i1039" type="#_x0000_t75" alt="" style='width:600pt;height:.75pt'>
<v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image001.png"
o:href="http://www.ibm.com/i/v14/rules/blue_rule.gif" />
</v:shape><![endif]--><!--[if !vml]--><!--[endif]--> |
<!--[if gte vml 1]><v:shape id="_x0000_i1041" type="#_x0000_t75" alt="" style='width:600pt;height:3pt'> <v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image003.png" o:href="http://www.ibm.com/i/c.gif" /> </v:shape><![endif]--><!--[if !vml]--><!--[endif]-->
|
关于 Infosphere 的博客文章
InfoSphere 是 IBM 的一个新品牌,包含来自几个产品系列(包括 DB2、其他 Information Management 产品和 WebSphere)的软件。这些产品组合成一个软件包,用来执行复杂的信息管理任务。InfoSphere MDM Server、InfoSphere Risk and Fraud Warehouse 和 InfoSphere Balanced Warehouses 是第一个产品包中的部分软件。
最近,我很幸运地从一位著名的 Infosphere 专家那里获得了反馈,并把这次访谈的内容在我的博客中与大家分享。下面是他对 infosphere 和 Infosphere 的解释:
infosphere 基本上有两个意思。一个意思是静态的,不太有趣,它大致相当于 “电脑空间(cyberspace)”。“infosphere”(小写的 “i”)是信息代理和对象、服务、关系、过程和它们所处的空间的总称。这个概念实际上比 “电脑空间” 更宽泛,因为它还包含离线和相似的领域,比如图书馆中的书或电冰箱上帖着的购物单等信息源。
第二个意思就有趣得多了。“Infosphere”(大写的 “I”)表示整个真实世界。这是一种从信息的角度看待事物的方式。这意味着 Infosphere 相当于哲学家所说的 “存在”。“Infosphere” 是一个非常强大的概念。它意味着为所有事物建立一个统一的词汇表,包括 DNA、计算机、物理粒子、神化形象、社会环境、人、公司、webbot、各种通信形式、生物圈、生态系统和电脑空间等等。
可以在博客上阅读完整的 访谈记录。
<!--[if gte vml 1]><v:shape
id="_x0000_i1043" type="#_x0000_t75" alt="" style='width:600pt;height:.75pt'>
<v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image001.png"
o:href="http://www.ibm.com/i/v14/rules/blue_rule.gif" />
</v:shape><![endif]--><!--[if !vml]--><!--[endif]--> |
<!--[if gte vml 1]><v:shape id="_x0000_i1045" type="#_x0000_t75" alt="" style='width:600pt;height:3pt'> <v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image003.png" o:href="http://www.ibm.com/i/c.gif" /> </v:shape><![endif]--><!--[if !vml]--><!--[endif]-->
|
- 本文从 IBM Database Magazine 期刊(原 DB2 Magazine)取得授权并进行翻译,参见 IBM Database Magazine 站点 上的 英文原文。
- 通过 InfoSphere Master Data Management Server 获得 InfoSphere Master Data Management Server 产品相关信息。
- 通过 InfoSphere Balanced Warehouse 获得 InfoSphere Master Data Management Server 产品相关信息。
- 通过访问 DB2 Magazine 中文版,2007 年第三期的 “信息集成:Blade 时代即将到来”了解 一种成功的软件和硬件组合为 IBM Information Server Blade 赋予了力量。
- 通过访问 DB2 Magazine ,2005 年第三期的 “Master Data Management”了解主数据管理的相关信息。
- 通过访问 developerWorks 中国 Information Management 专区 获得更多的文章、教程和多媒体课件等学习资源。
- 通过访问 alphaWorks获得更多 IBM 的前瞻性技术和资源。
- 通过访问 IBM Database Magazine 站点 community 专题获得更多用户体验和交流信息。
<!--[if gte vml 1]><v:shape id="_x0000_i1047" type="#_x0000_t75" alt="" style='width:600pt;height:3.75pt'> <v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image003.png" o:href="http://www.ibm.com/i/c.gif" /> </v:shape><![endif]--><!--[if !vml]--><!--[endif]--> |
||
<!--[if gte vml 1]><v:shape id="_x0000_i1048" type="#_x0000_t75" alt="" style='width:3pt;height:3.75pt'> <v:imagedata src="file:///D:\Users\LIUSHU~1\AppData\Local\Temp\msohtmlclip1\01\clip_image003.png" o:href="http://www.ibm.com/i/c.gif" /> </v:shape><![endif]--><!--[if !vml]--><!--[endif]--> |
Vincent McBurney [vincent.mcburney@bearingpoint.com] 是与 Bearingpoint 合作的一名 IT 顾问,Bearingpoint致力于全球各地的各种大型项目。目前,他正在澳大利亚的墨尔本从事数据仓库项目,还为 Tooling Around on the IBM Information Server(tooling.notlong.com)撰稿。 |
- 整理混乱数据.rar (40.5 KB)
- 下载次数: 0
相关推荐
《数据仓库生命周期工具箱》是一本深度探讨数据仓库设计、开发与配置的专业书籍,它不仅提供了专家级的方法论,还全面覆盖了从项目管理到需求收集,从数据设计到架构规划,再到实施、部署和增长的整个数据仓库生命...
本文档《数据仓库知识体系》详细整理了数据仓库领域几乎所有的知识点,覆盖了数据仓库的多个方面,从发展阶段、数据模型、事实表设计、多维体系结构、规范设计、元数据管理、维度表设计、范式和反范式化、数据仓库...
早期的企业决策支持系统通常由一系列分散的报表系统组成,这些系统不仅数据来源多样、层次复杂,而且经常呈现出“蜘蛛网”式的混乱状态。这种情况下,数据的一致性和准确性难以保障,从而影响到最终决策的有效性。 ...
明确了在不同阶段的关键角色及其职责,如数据产品经理负责需求的收集与整理,数据架构师负责设计合理的数据结构等。 2.1.3 **过程实施方法** 2.1.3.1 **过程及模板** 为提高响应需求的效率与质量,文档中提供了...
“数据库”这一概念随之诞生,并被定义为所有处理工作的单一数据源,用于解决之前由主文件系统导致的混乱和数据冗余问题。 #### 二、数据库管理系统的进步 到了20世纪70年代中期,随着DBMS技术的不断发展和完善,...
- 需要解决数据混乱问题,确保数据的一致性和准确性。 - 在传统数据库中,这些需求难以得到满足,因为它们仅包含单个部门的数据。 3. **决策数据操作问题**: - 决策分析人员通常需要汇总数据而非详细数据。 - ...
4. 忽视项目的结构性:将数据仓库视为简单的数据库项目,不采用结构化的实施方法,如快速原型开发,容易导致项目混乱。 5. 范围蔓延:项目范围不断扩大,超出可管理的范围,使得项目难以完成。 为了提高数据仓库...
集成性是指数据仓库将来自不同源的数据统一处理,解决数据不一致和命名混乱的问题。时变性强调数据仓库存储的是历史数据,可长期追溯,而不仅仅是当前状态。非易失性则表明数据仓库中的数据是静态的,不支持常规的...
此外,生产率问题体现在生成报表需要大量的数据定位和处理工作,这不仅耗时,而且可能导致数据混乱和错误。 从数据到信息的转化是数据仓库的核心价值所在。例如,要比较近年来的账户情况,数据仓库需要整合来自不同...
2. 传统数据仓库解决方案的挑战:传统的数据仓库解决方案通常由多种不集成的软件组成,导致技术平台混乱,接口复杂,实施周期长。这包括OLAP(在线分析处理)、数据挖掘、关系数据库管理系统、Web站点、遗留系统、...
由于【部分内容】文字混乱,难以直接解析,我将尝试依据常见的数据仓库知识,构建知识点: 1. 数据仓库的基本概念:数据仓库是面向主题的、集成的、非易失的、且随时间变化的数据集合,旨在支持管理决策过程。它...
传统数据仓库解决方案:传统的数据仓库通常由多种软件和平台组成,包括OLAP(在线分析处理)、数据挖掘、关系数据库管理系统、Web站点、遗留系统、ERP(企业资源规划)等,这种非集成的解决方案导致平台技术混乱、...
2. **集成的**:数据仓库整合来自不同来源的数据,如多个数据库、文件系统和互联网数据,通过统一和综合处理,消除数据不一致性和混乱,以提供一致的分析环境。 3. **非易失的**:数据仓库中的数据主要是稳定的,...
2. 传统数据仓库解决方案的挑战:传统的数据仓库解决方案通常由多种软件组成,不集成,导致平台和技术复杂,接口混乱,实施周期长。Oracle 提供了一种更集成、更高效的解决方案。 3. Oracle 数据仓库总体解决方案...