数据集成是许多大型企事业单位扩展新业务应用的基础。下面简单谈谈我对数据集成软件产品的一些想法。
数据从源流到目标,一般是由一个称之为“任务”的角色来完成。“任务”接受传给它的关于源、目标以及投递之物这些信息,并准备工作。而任务A和兄弟任务B,C之间还有可能需要同步交互来协同完成整个事情,因此就有了状态任务,比如A,B,C都有两个状态:未完成、已完成,A-B-C必须得在前者完成之后才能执行自己,这样后续的任务就必须能够获知前面任务的状态信息。进一步来说,假如一两个状态信息还不足以支撑业务需求的话,那么就有了引入工作流概念的必要了。工作流引擎掌控着所有任务的状态信息,它主宰着所有任务的生命。那么,上面的任务A,B,C就不需要自己去读取兄弟任务的状态信息,而是由引擎这个大管家来统一调度各个任务了。就好比有三个营:侦查营,坦克营和步兵营。假设作战计划是,先由侦查营出动,侦查完毕之后坦克营出动扫清敌障,最后由步兵营完成山头占领。引擎就像是给三个营安了一个团长,而没有引擎则三个营只能靠通信兵频繁通信报告自己并了解兄弟营的状态了。一个流程包含几个任务,那么在实际的数据整合中,由于源数据是不断的增加的,我们需要不断的调度流程来完成数据集成,比如每个交易日的交易时间段都需要调度一个流程,因此在工作流之上,还需要引入调度器的概念,这个调度器就是负责流程在什么时候启动,启动的周期是多长等等。
总结以上来说,我们的领域模型就是:任务——流程——调度器。
以上,只是说明白了我们的软件该如何工作,下面该谈谈软件本身该长啥样了。总体由两块服务组件构成:
Repository Service Component资源库组件;
Integrating Service Component集成组件。
资源库组件负责任务、流程和调度器的定制,并保存到资源库中。集成组件读取资源库,运行并监控这些任务、流程和调度器。这样的划分,好比一个公司,首先由管理层作决策,然后交给执行层去执行。道理是相似的,区别在于,执行的监控在公司还是有管理层来掌握,而在软件中则是由执行者自己掌握。
分享到:
相关推荐
数据集成是IT领域中至关重要的一个环节,尤其是在大数据和数据分析时代。Kettle,又称为Pentaho Data Integration(PDI),是一种开源的数据集成工具,它提供了强大的ETL(Extract, Transform, Load)功能,用于从...
项目概述:KettleWeb数据集成平台是一款基于Java与Web技术的开源数据集成工具。此平台源码基于Kettle原生版本6.1.0.1开发,扩展了Web端操作功能,便于用户进行数据集成工作。 技术栈:项目主要采用Java语言进行开发...
医疗数据交换平台HIE-与数据集成平台不同的建设解决方案.ppt医疗数据交换平台HIE-与数据集成平台不同的建设解决方案.ppt医疗数据交换平台HIE-与数据集成平台不同的建设解决方案.ppt医疗数据交换平台HIE-与数据集成...
本项目基于Java开发,包含268个文件,包括Java源代码、...系统实现了云雀数据集成工具的功能,可以实现异构数据源的整合,帮助企业构建数据仓库、数据湖等应用架构。界面友好,功能完善,适合用于数据集成管理。
提出了在企业应用集成EAI(Enterprise Application Integration)中基于本体的异构数据集成中间件,通过使用本体描述语 言(OWL)对数据源进行建模,提高了系统集成的灵活性,隔离了数据源模式的变化,使得局部数据源...
### 大型集团企业数据集成研究 #### 一、引言与背景 随着全球经济一体化的推进及企业国际化步伐的加快,大型集团企业面临着前所未有的发展机遇与挑战。这些企业通常拥有广泛的业务布局,涵盖多个行业和地区,为了...
### 基于XML的企业异构数据集成方法研究 #### XML与企业数据集成的重要性 XML(可扩展标记语言)作为一种标准化的数据表示和交换格式,自1998年由W3C发布以来,已在信息技术领域展现出巨大潜力。尤其在企业级应用...
天然气生产数据集成整合与智能分析系统 本系统旨在提高天然气开发生产实时数据的利用率,提升数据质量,减少基层员工的工作负担。该系统基于“源头采集、智能核准、全面共享”的原则,通过集成生产数据、实时数据...
Flink CDC 实时数据集成方案 Flink CDC 是基于 Flink 的 Change Data Capture(CDC)技术,旨在提供实时数据集成方案。 CDC 技术主要面向数据库的变更,是用于捕获数据库中数据变更的技术。 Flink CDC 实现了全增量...
中国企业数据集成与数据质量市场白皮书
OPC(OLE for Process Control)是一种专为过程控制设计的技术,旨在促进工业自动化领域的数据集成和开放性。这项技术的诞生源于工业界对于不同设备间无缝通信的需求,它提供了一个开放的、统一的标准接口,使得来自...
就大型企业和政府部门的信息化而言,信息系统建设通 ...为解决这一问题,人们开始关注数据集成研究。数据集成的核 心任务是要将互相关联的分布式异构数据源集成到一起,使 用户能够以透明的方式访问这些数据源。
史上最全大数据技术全套教程,包括: 分布式存储系统 大数据基础 大数据处理框架 大数据管理与监控 实时计算 数据仓库 数据分析工具 数据湖 数据集成工具 消息队列 等流行技术的系列教程
范方法, 并给 出了一些具体实例。同时, 指出了在数据预处理方面进一步所要做的工作。 数据预处理是知识发现过程的重要步骤。介绍了数据集成、 变换的相关方法。 如数据变换中的常用的一些规
大规模数据集成的两种思路着重强调了在设计时未知的数据源、来自自主组织且可能进化的数据集成问题。随着业务需求和技术环境的不断变化,传统的数据集成方法如联邦架构系统和数据仓库已无法满足持续变化环境的需求。...
《中国企业数据集成与数据质量白皮书》是针对我国企业数据管理领域的重要文献,它深入探讨了当前企业数据集成和数据质量管理的关键问题、挑战及解决方案。以下是对其中关键知识点的详细解析: 一、数据集成的重要性...