1.可以实现异地的同构(可扩展)数据库的数据抽取。
2.由于考虑到地市局不能通过JDBC直连省局数据库,所以我们这里采用WEB SERVICE来绕过省局的防火墙,从而通过返回的SOAP信息的解析正确执行数据抽取操作。
3.由于考虑到数据源不一定是数据库,也可能是XML文件,所以我们的系统提供XML文件为数据源的数据抽取操作,但此XML文件必须遵循一定的格式。
4.由于考虑到数据抽取过程中可能会遇到记录重复的记录,我们这里采用重复的记录可以略过或者更新,同时这些设置都可以在data.xml可配置,但要指出的是如果需要更新重复的记录,则必须定义目的表的关键字列表,同时抽取操作将大大减慢速度,所以除非有必要,要不然,请不要这么做。
5.由于考虑到有的抽取操作必须定时定点执行,而且在一定的周期下,重复执行抽取操作,所以系统也提供了可配置的这种需求的实现。
6.由于考虑到少数情况下的大的数据量的抽取操作,而ORACLE本身提供的JDBC驱动不能执行有效的数据抽取操作,所以我们这里采用INET的JDBC驱动来执行数据抽取操作,这在数据源的定义中,可配置。
7.由于考虑到有的复杂的数据抽取操作并不能简单的以语句集来实现,所以我们的系统提供自己编写复杂类,然后把该类加入到包中,然后经过配置就可以执行该复杂类,但需要指出的是该复杂类必须继承自,具体的可供的函数请查看我们给出的JAVADOC文档
在我的另一篇博文中有该源代码和工具的下载地址:
http://cxlh.iteye.com/blog/243132
- 大小: 42.5 KB
- 大小: 34.5 KB
分享到:
相关推荐
本文将深入探讨一种针对异构数据源的通用数据转换工具的设计与实现,这是一份编程资源,旨在解决复杂的数据整合问题。 首先,我们要理解异构数据源下的数据转换问题。在大数据时代,数据可能来自各种不同的系统,如...
1. `通用数据导出.kjb`:这是Kettle的工作流文件,可能包含了整个数据抽取过程的流程控制,如启动、结束、错误处理等。工作流可以调用一个或多个转换,并按照预定义的顺序执行它们。 2. `通用数据导出.ktr`:这是一...
数据仓库系统设计与实现是一个复杂的过程,涉及到多个关键步骤和考虑因素。首先,我们要了解数据仓库的建设过程,这通常包括收集和分析业务需求、建立数据模型、定义数据源、选择技术和平台、抽取数据、选择访问工具...
9. **错误处理和重试机制**:在Java实现ETL过程中,必须考虑到数据抽取可能出现的错误,如网络中断、数据不一致等。实现错误处理和重试机制是保证ETL稳定运行的关键。 10. **性能优化**:为了提高数据抽取效率,...
### 通用Web日志挖掘系统设计实现:深度解析与应用 #### 一、Web日志挖掘技术概述 万维网(World Wide Web)作为全球最大的信息服务中心,涵盖了新闻、广告、消费信息、金融管理、教育、政府服务、电子商务等多个...
综上所述,本文介绍了一种通用的多数据库间数据抽取方法,通过客户端方案和数据库驱动程序实现了对异构数据库的兼容性,并通过可视化编辑工具和规则库提高了数据抽取工作的灵活性和可维护性。该方法及其应用案例为...
【通用互联网信息采集系统的设计与初步实现】 互联网信息采集系统是一种专门用于从互联网上自动抓取、处理和存储特定信息的软件系统。该系统的主要目标是根据用户的需求,定期跟踪和收集特定网站或网页上的信息,对...
1. **通用性**:系统设计考虑了多种信息抽取任务的需求,可以适应不同的应用场景。 2. **可扩展性**:支持集成多种机器学习算法,如最大熵模型和SVM,方便研究人员根据任务需求选择或切换算法。 3. **语言移植性**:...
#### 系统设计 - **系统目标**:创建一个功能全面、操作简便且易于维护的在线学习平台,以提高学生学习数据结构的兴趣和效果。 - **系统功能结构**:主要包括用户管理模块、在线测试模块、题库管理模块以及在线学习...
电力调度综合数据平台的标准化设计与实现是电力系统现代化管理的关键环节,旨在提高调度效率,保障电网稳定运行。本文将详细解析电力调度综合数据平台在软件系统和硬件系统上的标准化设计,以及其实现的技术手段。 ...
### 基于CWM的企业元数据集成中元数据抽取与导出研究 #### 一、引言 近年来,随着信息技术的快速发展,企业对于数据的需求日益增加,如何有效地管理和利用这些数据成为了企业管理的重要议题之一。元数据作为描述...
### 基于垂直搜索的机票搜索系统设计与实现的关键知识点 #### 一、垂直搜索引擎概述 ##### 1.1 定义与特征 - **定义**:垂直搜索引擎(Vertical Search Engine)是一种针对特定领域或行业的专业搜索引擎。它不同于...