集团公司(嵌入ETL工具)财务报表系统解决方案
一、项目背景:
某集团公司是一家拥有100多家子公司的大型集团公司,旗下子公司涉及各行各业,包括:金矿、铜矿、房产、化纤等。由于子公司在业务上的差异,子公司的财务报表也存在很多不同之处。因此,各个子公司需要根据自己的情况,制作符合自己个性化需求的报表模版,然后再部署到集团服务器进行统一管理。
集团使用的是SAP,所有子公司正是因这个系统而产生大量数据且这些数据保存在一起。此外,各子公司也有一些自己的系统,所以各自也会产生一些数据。
出于数据安全等因素的考虑,各个子公司的数据统一集中在集团总部的数据库。子公司的报表开发人员使用FineReport连接到总部数据库时,只能看到自己权限内的数据。
二、项目建设目标:
定期的将总数据源中数据导入到各子公司内的数据库表中,此时各子公司在开发报表时就只需连自己的数据库表即可,这样就实现了数据权限的控制,同时也较好的将各子公司的数据放在各子公司的数据库表内。
三、项目建设方案:
1. 所用工具Kettle简介
Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。
ETL即数据抽取、转换、装载的过程。它是构建数据仓库的重要环节。数据仓库是面向主题的、集成的、稳定的且随时间不断变化的数据集合用以支持经营管理中的决策制定过程。Kettle 的中文名称叫水壶,含义就是希望把各种数据放到一个壶里,然后以一种指定的格式流出。
Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。
Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
作为Pentaho的一个重要组成部分,现在在国内项目应用上逐渐增多。FineReport报表软件可以实现和Kettle工具的完美集成应用。
2. Kettle工具的优势:
(1)kettle开源、高效
(2)kettle 非常强大而且易于使用的设计界面
(3)有非常强大而且众多的使用群体,应用广泛
(4)可用java进行集成开发:
提供了基于JAVA的脚步编写功能,可以灵活地自定义ETL过程,使自行定制、批量处理等成为可能,这才是一个程序员需要做的工作,而不仅是象使用Word一样操作kettle用户界面。
3. Kettle工具工作原理:
(1)Kettle的四大模块:
Spoon 是一个图形用户界面,它允许你运行转换或者任务,其中转换是用Pan工具来运行,任务是用Kitchen来运行。Pan是一个数据转换引擎,它可以执行很多功能,例如:从不同的数据源读取、操作和写入数据。Kitchen 是一个可以运行利用XML 或数据资源库描述的任务。通常任务是在规定的时间间隔内用批处理的模式自动运行。
以下是一个简单的ETL过程:
(2)原理总结:
Kettle实现数据转换,主要是通过JDBC驱动,建立连接,加载数据,转化数据并储存数据。
4. 利用kettle实现定时导出数据方案
实现定时导出数据,主要实现二个关建点:
1.定时功能
2.从源数据库中提取数据插入目标数据库
利用 kettle工具可以轻松实现以上二点。
1.定时功能:
Kettle是成熟专业的ETL工具,实现定时功能只需对作业进行相应的设置即可,如下所示,表示每天的12点整执行同步任务。
2.从源数据库中提取数据插入目标数据库
Kettle只需简单配置即可从数据库中取出数据,如下图所示。
其中${company}为公司变量名称,存入目标数据库也类似,只需要简单配置即可
详细使用配置见下面的实例。
5. Kettle工具的定时数据提取应用实例:
(1)实例功能:
定期对各个子公司的数据库表进行查询并且通过数据抽取和比较实现数据插入更新。
(2)实例分析:
实现整项作业共需要3个文件,名称和对应功能如下表所示:
文件名称 |
实现功能 |
main.kjb |
作业文件,用来定时执行mainTrans.ktr |
mainTrans.ktr |
用来批量执行trans1.ktr,并提供trans1.ktr的变量 |
trans1.ktr |
根据mainTrans.ktr提供的变量具体执行导出的转化 |
(1)文件详细说明:
mainTrans.ktr:
在mainTrans.ktr中生成不同的数据库连接信息和其他变量信息。
示例中为手动输入数据,也可以把信息保存在文本中或者数据库中,设置对应的输入即可。如下所示,table为子公司数据库中的表名,company对应公司,后面的值为子公司数据库的连接信息。
mainTrans.ktr中有个java脚本,具体行为为获取trans1.ktr文件,设置变量并执行。
上面有几条记录就会执行几次trans1.ktr。
trans1.ktr:
具体执行导出的文件,示例中为mysql数据库,表名和字段也是特别设置的,请根据自己的环境进行相应的修改。
表输入:
表输入按照需要导出的总数据库信息配置好,sql示例语句为:
SELECT * FROM kettletb WHERE company='${company}'
表示为只选出对应子公司的数据,其中${company}为传入进来的公司名。
具体配置页面如下图:
表输出:
这里的配置需要根据变量来设置,目标表为${table}来获取要导出的表名。其他配置如下所示,其中的值对应mainTrans.ktr中生成的数据(其中Password为${password}):
插入更新:
示例中对数据库表中的id和name字段进行查询,通过对id的比较来筛选掉原本数据库表里就用的数据,这样的话只需要插入最新更改的数据即可,大大提高了数据转换的效率。
设置main.kjb的定时时间,运行即可。设置页面参考如下图:
售后服务体系:
相关推荐
**ETL解决方案介绍** ...总结起来,ETL是构建BI系统的核心技术,通过精心设计的流程和高效的工具,可以有效地解决数据整合中的挑战,确保数据的准确性和可用性,为决策支持提供高质量的数据基础。
《Kettle解决方案:使用PDI构建开源ETL解决方案》是一份深入探讨数据集成技术的文档,主要关注开源工具PDI(Pentaho Data Integration)在ETL(提取、转换、加载)过程中的应用。ETL是数据仓库和大数据处理的核心...
解决方案:使用PDI构建开源ETL解决方案-460页.pdf
标题中的“解决方案:使用PDI构建开源ETL解决方案源码示例”暗示了这是一个关于如何利用Pentaho Data Integration(PDI),也被称为Kettle,来构建数据提取、转换和加载(ETL)流程的实践指南。这个压缩包可能包含了...
标题中的"PDI构建开源ETL解决方案"和"开源ETL工具-Pentaho Kettle使用入门"都指向了同一件事情——使用Pentaho Data Integration(PDI,也常被称为Kettle)来构建开源的企业级数据提取、转换和加载(ETL)解决方案。...
总的来说,基于Kettle的Web版ETL工具将Kettle的强大功能与Web的便利性结合在一起,提供了一种直观且易于部署的数据处理解决方案。无论是对于初学者还是经验丰富的数据工程师,都能从中受益,快速实现数据抓取、清洗...
《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》主要介绍如何使用开源ETL工具来完成数据整合工作。 《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》介绍的PDI(Kettle)是一种开源的 ETL 解决方案...
此外,随着大数据和云计算的发展,一些工具如AWS Glue、Google Cloud Dataflow和Azure Data Factory也在ETL领域崭露头角,它们提供了更便捷的云原生解决方案,简化了数据集成过程。 综上所述,ETL工具的选择是一项...
无论是选择成熟的商业解决方案还是灵活的开源工具,理解ETL的基本原理和技术要求对于构建高效可靠的数据仓库系统至关重要。随着大数据技术和云计算的发展,ETL领域也在不断进化,出现了更多支持实时数据处理和云原生...
ETL(Extract, Transform, Load)是数据仓库领域中的关键过程,用于从各种源系统抽取数据,转换数据以满足特定需求,然后加载到目标数据库或数据仓库中。在这个主题中,我们将深入探讨ETL工具的开源特性以及配置使用...
《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》介绍的PDI(Kettle)是一种开源的 ETL 解决方案,书中介绍了如何使用PDI来实现数据的剖析、清洗、校验、抽取、转换、加载等各类常见的ETL类工作。 除了ODS/DW...
《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》主要介绍如何使用开源ETL工具来完成数据整合工作。 《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》介绍的PDI(Kettle)是一种开源的 ETL 解决方案,...
ETL(数据抽取、转换和装载)解决方案是构建数据仓库或数据整合库的关键技术,它主要目的是将分散、异构的数据整合到一个统一的视角,以便实现全局数据共享和综合分析。ETL过程包含了三个主要步骤: 1. 数据抽取...
一款纯国产自研核心Java语言开发的ETL工具(非包装开源—Beeload),Beeload所有功能均可图形化配置,无需额外写代码实现,如Kettle中...本文档为一款专业、本土化ETL工具,解决高校当下信息化急迫解决大数据分析需求。
《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》主要介绍如何使用开源ETL工具来完成数据整合工作。 《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》介绍的PDI(Kettle)是一种开源的 ETL 解决方案,...
ETL(Extract, Transform, Load)是数据仓库建设中的核心环节,它负责从各种源系统中提取数据,经过清洗、转换后加载到目标数据仓库中。"ETL工具箱 中文版"通常指的是提供一系列ETL功能的软件,旨在帮助用户更方便地...
数据仓库的物理数据模型通常包括维度表、事实表等,ETL解决方案的实施需要这些模型中各个表的相互作用。理解如何使维度、事实以及其他维度模型中的表协同工作,是成功实施ETL解决方案的关键。 ### 数据流过程检查与...
解决方案:使用PDI构建开源ETL解决方案.pdf 完整中文版,带目录,460页