`
阅读更多
背景

  今天,越来越多的的应用需要访问各种异构数据源。对于企业应用来说,这既是企业内部发展的需要也是企业适应外部环境的需要。

  企业在发展过程中积累了大量数据,并为存储和管理这些数据不断投资。然而,由于实施数据管理系统的阶段性、技术性以及其它经济和人为因素的影响,以至即使在一个单独企业,采用的数据管理系统也大不相同,从简单的文件数据库到复杂的网络数据库,它们构成了企业的异构数据源。尽管这些数据管理系统能够满足数据存储和管理要求,但是在许多情况下,为完成一项工作,企业应用可能需要访问分布在网络不同位置上的多个数据管理系统中的数据。例如,某公司需要了解一套型架的生产和使用情况,那么,相关应用首先必须访问生产准备科、工装所、以及使用车间的不同的数据库系统来提取相关数据,然后进行处理。很显然,原有的数据管理系统并不能提供这种支持,需要一个强大的系统能够集成存在于分布数据源的数据。

  不仅如此,随着生存环境的不断变化,企业在把握机遇的同时也面临着许多挑战。网络的发展使企业逐渐从一个孤立节点发展成为不断与网络交换信息和进行商务事务的实体,企业数据集成也从企业内部集成走向了企业间集成。现在的企业比以往任何时候都需要将内部数据进行发布和交换,这必然导致越来越多的企业应用需要访问各种异构数据源,并且这些数据源可能分布在网络上任何地方。为了满足这种需求,必须有一种系统能够支持异构数据源的数据集成。
  
  所以,无论是从企业自身发展角度还是从企业间数据集成的角度来看,越来越多的企业应用需要一种异构数据集成系统作为访问异构数据源的支撑,那么,在当前的情况下,建立企业异构数据的集成系统必须解决哪些问题呢?
面临的问题

  异构数据源集成是数据库领域的经典问题,并随着XML技术的兴起,再次成为了该领域研究的一个热点。单从集成角度看,企业异构数据源集成,与普遍的异构数据源集成问题没有本质区别,具有同样的共性问题。然而,从为企业应用构建支撑系统的角度来讲,必须考虑企业异构数据在集成过程中所遇到的特殊问题。总的来看,作者认为在构建企业异构数据源集成系统时,主要会面对以下几方面问题:

A.异构性

  异构性是企业异构数据集成必须面临的首要问题,其主要表现在两方面:

  系统异构,数据源所依赖的应用系统、数据库管理系统乃至操作系统之间的不同构成了系统异构。
模式异构,数据源在存储模式上的不同。一般的存储模式包括关系模式、对象模式、对象关系模式和文档嵌套模式等几种,其中关系模式为主流存储模式。需要注意的是,即便是同一类存储模式,它们的模式结构可能也存在着差异。例如Oracle所采用的数据类型与SQLServer所采用的数据类型并不是完全一致的。

B.完整性

  异构数据源数据集成的目的是为应用提供统一的访问支持。为了满足各种应用处理(包括发布)数据的条件,集成后的数据必须保证一定的完整性,包括数据完整性和约束完整性两方面。
数据完整性是指完整提取数据本身,一般来说,这一点较容易达到。
约束完整性,约束是指数据与数据之间的关联关系,是唯一表征数据间逻辑的特征。保证约束的完整性是良好的数据发布和交换的前提,可以方便数据处理过程,提高效率。

C.性能

  网络时代的应用对传统数据集成方法提出了挑战,提出了更高的标准。一般说来,当前负责集成的应用必须满足:轻量快速部署,即系统可以快速适应数据源改变和低投入的特性。
注:这里的性能是对系统本身的要求,为了强调其重要性,作者也将其列为问题之一

D.语义冲突

  信息资源之间存在着语义上的区别。这些语义上的不同可能引起各种矛盾,从简单的名字语义冲突(不同的名字代表相同的概念),到复杂的结构语义冲突(不同的模型表达同样的信息)[14]。语义冲突会带来数据集成结果的冗余,干扰数据处理、发布和交换。所以如何尽量减少语义冲突也是数据集成的一个研究热点。

E.权限瓶颈

  由于数据库资源可能归属不同的单位,所以如何在访问异构数据源数据基础上保障原有数据库的权限不被侵犯,实现对原有数据源访问权限的隔离和控制,就成为连接异构数据资源库必须解决的问题。作者将该问题定义为权限瓶颈问题。

F.附加约束

  集成两个或多个数据源的时候,数据源的数据之间可能存在着某种联系,例如,前面所提到的例子,显然,保存在不同资源库中的关于同一套工装的信息之间存在着一定的逻辑联系。那么,把这种逻辑联系附加到集成结果中的过程就称为附加约束。

G.集成内容限定

  多个数据源之间的数据集成,并不是要将所有的数据进行集成,那么如何定义要集成的范围,就构成了集成内容的限定问题。

  上面列举了在构建企业异构数据源集成系统时所必须面对的几个主要问题,其中,异构性、完整性、性能、语义冲突问题为异构数据集成中的共性问题,权限瓶颈、附加约束和集成内容的限定则属于企业异构数据集成的特性问题。值得指出的是,尽管作者对问题进行了分类,但事实上,这些问题是相互联系、相互制约的,不应该简单的孤立对待。


集成异构数据源的方法

  当前,实现异构数据库的集成一般有两种方法。第一种就是将原有的数据移植到新的数据管理系统中来,为了集成不同类型的数据,必须将一些非传统的数据类型转化成新的数据类型。许多关系数据库供应商提供了类似的功能。这种集成方式的缺点是随着数据管理系统的升级,原来数据的相关应用软件,或是被废弃或是重新开发,以适应新的数据管理系统。因此,通常移植到一个新系统不是一个实际的解决方案。

  第二种方法是利用中间件集成异构数据库,该方法并不需要改变原始数据的存储和管理方式。中间件位于异构数据库系统(数据层)和应用程序(应用层)之间,向下协调各数据库系统,向上为访问集成数据的应用提供统一数据模式,和数据访问的通用接口。各数据库的应用仍然完成它们的任务,中间件系统则主要集中为异构数据源提供一个高层次检索服务。显然,中间件系统模式是实现异构数据集成较理想的解决方案。

XML技术的引入

  当我们选用了中间件作为企业异构数据源集成的解决方案后,我们必须为中间件系统选择一种全局的数据模式。负责集成的中间件系统必须提供一种全局数据模式来统一异构的源数据模式。过去,异构数据源的集成系统,例如多数据库系统(如CIMS中的多数据库系统)或联合数据库系统通常采用关系或对象的数据模式作为全局模式。然而,它们并不能满足网络时代的Intra/Internet应用所提出的高标准。一般来说,异构数据集成的全局模式必须满足:(1)能够描述各种数据格式,无论其是结构化的还是半结构化的,无论其是否支持所有的查询语言还是简单的文本查询。(2)易于发布和进行数据交换,集成后的数据可以方便的以多种格式发布和便于应用交换数据。

  随着XML及其相关技术和应用的发展,XML不仅成为了应用间交换数据的一种标准,也是万维网重要的信息交换标准和表示的技术之一。事实上,现在业界已存在几个工业标准(XMLDTD)的草案。XML的产生给不同的信息格式的统一带来了深刻的影响。XML第一次提供了一种信息交换模式,这种格式是可编辑,易解析,并且可以表示为任何类型的结构或半结构化信息。

  目前,XML已有多方支持,并且XML的强适应性,使其可以实现对资源的快速包装和集成发布,所以,通过引入了XML技术,将XML技术与全局数据模式相结合可以使异构数据源集成中间件系统能更好地适应于开放、发展环境(例如,企业的动态联盟环境)中的数据集成。许多著名的异构数据源集成研究都引入了 XML相关技术,例如IBM的TSIMMIS项目,GARLIC项目以及SIMS和MOMIS项目等项目。

结论

  企业异构数据源集成并不是一个新的课题,但在企业生存环境不断改变的前提下,这个课题也是不断发展的。如何面向未来,采用合理的技术实现网络时代企业数据集成将是一个持久的讨论。作为企业应用和企业服务集成实现的一个基础,企业异构数据源集成将对企业信息化进程带来深远的影响。
分享到:
评论

相关推荐

    异构数据源集成的一些文章

    在IT领域,异构数据源集成是一个至关重要的主题,它涉及到如何有效地整合来自不同来源、格式和结构的数据,以实现全面的数据分析和决策支持。在这个过程中,数据源可能包括关系数据库、非关系型数据库(如NoSQL)、...

    异构数据源集成查询(ogsa-dai)

    异构数据源集成查询是现代信息系统中常见的挑战之一,特别是在大数据和云计算环境下。OGSA-DAI(Open Grid Service Architecture - Data Access and Integration)是一种基于Web服务标准的框架,专门设计用于解决这...

    面向异构数据源的分布式集成工具研究与设计.pdf

    首先,分布式集成工具(Distributed Heterogeneous Data Integration Tool,DHDIT)的概念在文件中被提及,它指的是一种能够处理异构数据源集成的分布式工具。所谓异构数据源,是指数据类型、结构、存储方式等多种...

    大数据产品中的异构数据源整合

    在大数据产品中,异构数据源的整合是一项关键且具有挑战性的任务,它涉及将来自不同类型的系统、格式和环境的数据进行集成,以便于统一分析和处理。这种整合能力是现代大数据平台的核心竞争力之一,能够极大地提升...

    基于XML异构数据库查询与更新系统研究

    根据XML的特点,结合企业异构数据源集成的需求,提出了一个基于XML的异构数据源集成中间件的设计,有效弥补当前一些集成系统没有实现更新,或者没能较好地应用到实际中的不足。该系统将UXQuery查询表示为系统的内部表示...

    云雀 是一款数据集成工具,实现异构数据源的整合,帮助企业构建数据仓库、数据湖 等应用架构

    云雀 是一款数据集成工具,实现异构数据源的整合,帮助企业构建数据仓库、数据湖 等应用架构。云雀目前支持数据源达到14种,能够实现异构数据源的同步。云雀支持拖拉拽的图形化的操作,用户可以通过页面的组装输入和...

    异构数据源集成系统(java)

    系统的目标是,推出一个可重用,可扩展的异构数据库集成工具。综合查询,进出口我们先前延异的数据库。导出压缩XMILL的数据。特点 数据库集成 联邦查询 数据的导入导出 :数据archving(联合)和压缩 开发因迪卡...

    基于XML的企业异构数据集成方法研究

    ### 基于XML的企业异构数据集成方法研究 #### XML与企业数据集成的重要性 XML(可扩展标记语言)作为一种标准化的数据表示和交换格式,自1998年由W3C发布以来,已在信息技术领域展现出巨大潜力。尤其在企业级应用...

    异构数据源通用数据转换工具的设计与实现(幻灯片报告

    本文将深入探讨一种针对异构数据源的通用数据转换工具的设计与实现,这是一份编程资源,旨在解决复杂的数据整合问题。 首先,我们要理解异构数据源下的数据转换问题。在大数据时代,数据可能来自各种不同的系统,如...

    基于XML的异构数据集成中间件研究.pdf

    数据集成思想是指将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源。数据集成的核心任务是要将分布式异构数据源集成到一起,提供统一的数据源访问接口。 知识点3:中间件技术 ...

    基于java技术的数字图书馆建设中异构数据源集成.doc

    【基于JAVA技术的数字图书馆建设中异构数据源集成】 在数字图书馆的建设过程中,集成来自不同平台和格式的数据源是一项挑战。Java技术因其跨平台和可移植性,成为了实现这一目标的关键工具。本文主要讨论了如何利用...

    \"大数据产品中的异构数据源整合\"分享总结

    2. **数据集成平台**:为了管理和整合异构数据源,通常需要构建数据集成平台。这种平台可能包括数据湖、数据仓库或数据中台等,它们提供统一的数据接入、存储、管理和分析功能。 3. **数据治理**:在整合过程中,...

    EAI中本体异构数据集成中间件的设计与实现

    提出了在企业应用集成EAI(Enterprise Application Integration)中基于本体的异构数据集成中间件,通过使用本体描述语 言(OWL)对数据源进行建模,提高了系统集成的灵活性,隔离了数据源模式的变化,...数据源集成能力。

    基于物联网的数字化矿山异构信息集成处理模型

    为研究煤矿企业安全生产中出现的如何将现有智能物件和子系统链接起来的问题,如何实现应用系统数据大集成的问题,以及如何解决物联网的数字化矿山中海量的异源、异构数据的问题,提出采用基于XML的异构数据源集成算法...

    分布式异构供热数据源集成方法研究.pdf

    供热数据源集成问题的关键在于如何通过信息化手段加强城市供热管理,实现供热企业的运行情况实时监测。其目的是为了确保人民群众温暖过冬,这一点对于省市供热数字化监管平台建设至关重要。 要实现上述目标,首先...

    智慧矿山异构数据集成平台设计

    在不改变现有数据源的物理位置、体系结构的情况下,该平台利用XML技术将异构数据无损转换为XML文档,通过对智慧矿山安全生产决策的应用需求的分析、分解和转换,实现了异构数据源的有效集成,为智慧矿山的监测、管理、...

    基于XML的异构数据库集成

    在异构数据源集成中,面临的主要挑战是如何处理结构和非结构化数据,以及它们在数据模型上的差异。以下介绍几种常见的解决方案: 1. **基于传统数据仓库的集成**:这种方法通过预处理和转换来自异构数据源的数据,...

    基于XQuery处理器的异构数据集成中间件.pdf

    该中间件通过将异构数据源分为关系数据库数据源、XML数据源和非结构化数据源三类,每类数据源使用XQuery模式处理,构建虚拟视图,使待集成的异构数据源构建成一个逻辑数据库。通过在中间件中引入XQuery处理器,使其...

Global site tag (gtag.js) - Google Analytics