数据集成是许多大型企事业单位扩展新业务应用的基础。下面简单谈谈我对数据集成软件产品的一些想法。
数据从源流到目标,一般是由一个称之为“任务”的角色来完成。“任务”接受传给它的关于源、目标以及投递之物这些信息,并准备工作。而任务A和兄弟任务B,C之间还有可能需要同步交互来协同完成整个事情,因此就有了状态任务,比如A,B,C都有两个状态:未完成、已完成,A-B-C必须得在前者完成之后才能执行自己,这样后续的任务就必须能够获知前面任务的状态信息。进一步来说,假如一两个状态信息还不足以支撑业务需求的话,那么就有了引入工作流概念的必要了。工作流引擎掌控着所有任务的状态信息,它主宰着所有任务的生命。那么,上面的任务A,B,C就不需要自己去读取兄弟任务的状态信息,而是由引擎这个大管家来统一调度各个任务了。就好比有三个营:侦查营,坦克营和步兵营。假设作战计划是,先由侦查营出动,侦查完毕之后坦克营出动扫清敌障,最后由步兵营完成山头占领。引擎就像是给三个营安了一个团长,而没有引擎则三个营只能靠通信兵频繁通信报告自己并了解兄弟营的状态了。一个流程包含几个任务,那么在实际的数据整合中,由于源数据是不断的增加的,我们需要不断的调度流程来完成数据集成,比如每个交易日的交易时间段都需要调度一个流程,因此在工作流之上,还需要引入调度器的概念,这个调度器就是负责流程在什么时候启动,启动的周期是多长等等。
总结以上来说,我们的领域模型就是:任务——流程——调度器。
以上,只是说明白了我们的软件该如何工作,下面该谈谈软件本身该长啥样了。总体由两块服务组件构成:
Repository Service Component资源库组件;
Integrating Service Component集成组件。
资源库组件负责任务、流程和调度器的定制,并保存到资源库中。集成组件读取资源库,运行并监控这些任务、流程和调度器。这样的划分,好比一个公司,首先由管理层作决策,然后交给执行层去执行。道理是相似的,区别在于,执行的监控在公司还是有管理层来掌握,而在软件中则是由执行者自己掌握。
分享到:
相关推荐
数据集成是IT领域中至关重要的一个环节,尤其是在大数据和数据分析时代。Kettle,又称为Pentaho Data Integration(PDI),是一种开源的数据集成工具,它提供了强大的ETL(Extract, Transform, Load)功能,用于从...
项目概述:KettleWeb数据集成平台是一款基于Java与Web技术的开源数据集成工具。此平台源码基于Kettle原生版本6.1.0.1开发,扩展了Web端操作功能,便于用户进行数据集成工作。 技术栈:项目主要采用Java语言进行开发...
### 基于XML的数据集成方案 #### 引言 随着市场竞争的日益激烈,企业间的合作变得至关重要。为了提升合作效率及自身竞争力,企业需要整合内部及外部的应用系统。在这个过程中,数据集成作为系统集成的基础,其成功...
提出了在企业应用集成EAI(Enterprise Application Integration)中基于本体的异构数据集成中间件,通过使用本体描述语 言(OWL)对数据源进行建模,提高了系统集成的灵活性,隔离了数据源模式的变化,使得局部数据源...
数据集成
### Deep Web 数据集成问题研究 #### 一、引言与背景 随着互联网的迅猛发展,全球范围内的信息量呈指数级增长,其中大量的信息隐藏在所谓的Deep Web之中。不同于Surface Web,即那些可以通过传统搜索引擎轻松索引...
### 大型集团企业数据集成研究 #### 一、引言与背景 随着全球经济一体化的推进及企业国际化步伐的加快,大型集团企业面临着前所未有的发展机遇与挑战。这些企业通常拥有广泛的业务布局,涵盖多个行业和地区,为了...
用友U8 CLOUD 数据集成方案,外部数据交换平台主要用于外部系统和 U8 cloud 系统进行集成。利用外部数据交换平台, 可以将外系统的基本档案和业务数据发送到 U8 cloud 系统中,并进行相关的业务操作,如审 批、弃审...
数据集成与实战数据集成与实战数据集成与实战
云计算技术的发展,尤其是基于Web应用的互联网技术、并行计算、分布式计算和虚拟化技术的成熟与广泛使用,为解决空间数据集成提供了新的可能性。云计算环境下的分布式空间数据集成技术可以将分布在不同网络节点的...
### 全视角的商业智能-商业智能领域中数据集成的重要性 #### 一、全视角商业智能的概念 全视角商业智能(Comprehensive Business Intelligence)是指通过整合来自不同来源的数据,并将其转化为有意义的信息,从而...
Flink CDC 实时数据集成方案 Flink CDC 是基于 Flink 的 Change Data Capture(CDC)技术,旨在提供实时数据集成方案。 CDC 技术主要面向数据库的变更,是用于捕获数据库中数据变更的技术。 Flink CDC 实现了全增量...
OPC(OLE for Process Control)是一种专为过程控制设计的技术,旨在促进工业自动化领域的数据集成和开放性。这项技术的诞生源于工业界对于不同设备间无缝通信的需求,它提供了一个开放的、统一的标准接口,使得来自...