`

ETL测试的前世今生

 
阅读更多

自己是做数据仓库ETL测试的,可能这还是个新的工种,没什么经验可循,大家都在摸着石头过河。

 

 

首先,什么是数据仓库,我的感性理解是:

 

将一个公司范围内的业务数据进行收集汇总,放在一个很大的池子里,以便后续计算分析使用,这个池子就是数据仓库。以电商领域为例,主要是一些客户数据、交易数据、以及一些网站行为数据。

数据仓库和前台业务数据库的一大不同是,数据仓库是记录历史的,即它会将每天的数据都保存下来。可以把使用数据的人带回到历史上的任何一天,看当时的数据情况是什么样的。当然这个历史的开头是数据仓库的诞生日期啦。

 

 

那什么是数据仓库的ETL开发呢:

 

所谓ETL就是数据的抽取、清洗、装载,简单理解就是将最一开始收集上来的数据做不同层次的筛选、关联、计算、汇总并将结果存储在更高的数据层次,新的数据层次又会成为更高数据应用的数据输入源,数据ETL的最终层次主要有两个:1. 服务于组织内部的应用,向企业运营人员和管理人员提供数据支持;2.服务于组织外部,主要指向组织的客户和合作伙伴提供与其业务相关的数据分析支持,包括历史趋势、行业内市场情况等。

 

ETL开发工作就是实现不同数据层级的数据计算和装载,不同的数据层级计算逻辑主要受两方面的影响:1,当前计算所处的数据层级,是数据基础层,逻辑主题层,还是数据应用接口层等;2,最终业务逻辑的需求,有短期性质的灵活性要求较高的需求,也有较长期性质稳定性和可延续性较高的需求。不同的需求对如何设计不同数据层次的刷新逻辑和不同数据层测的数据结构有不同的要求。

 

最理想的结果是,不同的数据层次逻辑在设计时兼顾需求的灵活与稳定,在数据主题划分、层次划分时逻辑分明,此外新的需求进入时尽量避免不同层次数据的同时运算。

 

一般来讲,长期的稳定性要求高的需求,计算时的层次结构比较清晰,即低层数据向中层数据汇总,而中层数据向高层数据汇总,高层数据向应用层汇总,逻辑清晰,而且每一层的数据复用度较高。

灵活性需求的计算,层次就不会这么分明,有时候一个应用层数据的计算,需要同时以低层、中层、高层数据为输入源。

 

因此,不同的数据规划和设计会对具体的数据需求的实现逻辑有一定的影响。

而数据仓库架构师的任务就是要设计合理的数据层次架构以及各数据层所提供数据的内容和相关关系。

 

因此,数据仓库架构师为数据仓库ETL开发工程师服务。

 

明确了ETL工作的内容后,不得不提到的一个角色就是数据仓库的ETL测试。

面对海量数据和复杂的业务逻辑,准确地获取相关的数据并正确地计算是ETL的最基本要求,而ETL开发工程师也是人,是人就会写出有BUG的程序。

 

因此ETL测试的基本工作就是对ETL开发中涉及的数据情况进行分析,对ETL刷新逻辑进行check,并对最终ETL开发完成的刷新逻辑进行确认是否正确,及是否满足业务需求。

 

这里之所以说基本,是因为ETL测试还有并不基本的工作内容,主要有以下亮点:

 

1.

有时由于ETL开发人员自身的限制,所设计的数据刷新方案虽然能满足业务放的数据需求,但是在数据流结构、数据刷新效率、对现有数据层次中数据的使用等并不合理或不是最优的方案。因此ETL测试人员在能力允许的情况下,针对这些方面给出一定的建议或意见。确保在项目范围内的数据结构设计和刷新逻辑最优或更加合理。

 

2.

此外,对于经验丰富、对数据仓库环境有足够了解、对所涉及业务的数据环境也有足够了解的ETL测试工程师,在ETL详细设计环节中,给出更高层次的建议。比如对于稳定行的数据刷新需求,所设计的数据流结构,是否与现有的数据层次有冗余和不一致;在某数据层次增加的数据内容,是否有一定的可复用性;如果被其他业务逻辑复用是否会导致数据重复、数据不一致、数据丢失等情况。

 

 

其实对于ETL测试工作来讲与传统的功能测试或其他底层的测试工作有一定的不同,这种不同是ETL开发所特有的性质所引起的。

 

ETL开发的特性:

 

深入到ETL开发的内部来讲,ETL开发就是按照设计的思路将一些数据从一些源数据中通过where条件 select出来,并对其进行group by汇总,如果有必要还需要和其他数据源进行join操作。虽然设计逻辑也有复杂简单之分,但我们会在设计的时候尽量将复杂的逻辑进行简化切分,不至于在一个项目中有太复杂的逻辑。

 

经过一段时间的ETL开发或测试工作之后,你就会发现绝大多数情况下,一个表的刷新过程会有一句或几句SQL语句解决。最多也不会超过5句。总行熟大概在100-200行范围内,最多也不会超过500行。

 

这就是ETL开发的特点:设计分析阶段至关重要,因为其是从一个共用的数据池中存取数据,一不留神影响到的不止是自己的应用。而设计分析完成、确定了刷新逻辑之后,则每个表的刷新过程则会变得比较简单。除了代码行数有限之外,SQL语句本身的陈述式特性,也使得其逻辑不比像Java、C等命令式语言,会有诸多循环、判断、分支、跳转等复杂性。

 

 

因此,面对这样特性的数据仓库ETL开发,ETL测试工作也需要更加关注与设计分析。

 

当然SQL语句的测试也是必须的,只不过由于其“不复杂”性,对于数据刷新逻辑的描述来讲,一段SQL的描述性要远远强于设计文档中的一大段密密麻麻的文字。

 

谁不喜换简单、明了、准确的描述呢,这样,经验尚浅的ETL测试人员就极易被“错误”的SQL逻辑所误导,认为这就是需求所需要的刷新逻,这样当然就测不出问题了。

 

 

 

 

分享到:
评论

相关推荐

    48-大数据技术教学大纲-大数据技术基础-宋旭东-清华大学出版社.pdf

    在这门课程的学习过程中,学生们将会了解到大数据的前世今生,包括它的概念界定、框架体系以及如何在实际中采集、处理、存储、管理和分析数据。首先,学生将接触到大数据的基础知识,了解其4V特征,并学习大数据框架...

    Matlab环境下决策分类树的构建、优化与应用

    内容概要:本文详细介绍了如何利用Matlab构建、优化和应用决策分类树。首先,讲解了数据准备阶段,将数据与程序分离,确保灵活性。接着,通过具体实例展示了如何使用Matlab内置函数如fitctree快速构建决策树模型,并通过可视化工具直观呈现决策树结构。针对可能出现的过拟合问题,提出了基于成本复杂度的剪枝方法,以提高模型的泛化能力。此外,还分享了一些实用技巧,如处理连续特征、保存模型、并行计算等,帮助用户更好地理解和应用决策树。 适合人群:具有一定编程基础的数据分析师、机器学习爱好者及科研工作者。 使用场景及目标:适用于需要进行数据分类任务的场景,特别是当需要解释性强的模型时。主要目标是教会读者如何在Matlab环境中高效地构建和优化决策分类树,从而应用于实际项目中。 其他说明:文中不仅提供了完整的代码示例,还强调了代码模块化的重要性,便于后续维护和扩展。同时,对于初学者来说,建议从简单的鸢尾花数据集开始练习,逐步掌握决策树的各项技能。

    《营销调研》第7章-探索性调研数据采集.pptx

    《营销调研》第7章-探索性调研数据采集.pptx

    Assignment1_search_final(1).ipynb

    Assignment1_search_final(1).ipynb

    美团外卖优惠券小程序 美团优惠券微信小程序 自带流量主模式 带教程.zip

    美团优惠券小程序带举牌小人带菜谱+流量主模式,挺多外卖小程序的,但是都没有搭建教程 搭建: 1、下载源码,去微信公众平台注册自己的账号 2、解压到桌面 3、打开微信开发者工具添加小程序-把解压的源码添加进去-appid改成自己小程序的 4、在pages/index/index.js文件搜流量主广告改成自己的广告ID 5、到微信公众平台登陆自己的小程序-开发管理-开发设置-服务器域名修改成

    《计算机录入技术》第十八章-常用外文输入法.pptx

    《计算机录入技术》第十八章-常用外文输入法.pptx

    基于Andorid的跨屏拖动应用设计.zip

    基于Andorid的跨屏拖动应用设计实现源码,主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者,也可作为课程设计、期末大作业。

    《网站建设与维护》项目4-在线购物商城用户管理功能.pptx

    《网站建设与维护》项目4-在线购物商城用户管理功能.pptx

    区块链_房屋转租系统_去中心化存储_数据防篡改_智能合约_S_1744435730.zip

    区块链_房屋转租系统_去中心化存储_数据防篡改_智能合约_S_1744435730

    《计算机应用基础实训指导》实训五-Word-2010的文字编辑操作.pptx

    《计算机应用基础实训指导》实训五-Word-2010的文字编辑操作.pptx

    《移动通信(第4版)》第5章-组网技术.ppt

    《移动通信(第4版)》第5章-组网技术.ppt

    ABB机器人基础.pdf

    ABB机器人基础.pdf

    《综合布线施工技术》第9章-综合布线实训指导.ppt

    《综合布线施工技术》第9章-综合布线实训指导.ppt

    最新修复版万能镜像系统源码-最终版站群利器持续更新升级

    很不错的一套站群系统源码,后台配置采集节点,输入目标站地址即可全自动智能转换自动全站采集!支持 https、支持 POST 获取、支持搜索、支持 cookie、支持代理、支持破解防盗链、支持破解防采集 全自动分析,内外链接自动转换、图片地址、css、js,自动分析 CSS 内的图片使得页面风格不丢失: 广告标签,方便在规则里直接替换广告代码 支持自定义标签,标签可自定义内容、自由截取、内容正则截取。可以放在模板里,也可以在规则里替换 支持自定义模板,可使用标签 diy 个性模板,真正做到内容上移花接木 调试模式,可观察采集性能,便于发现和解决各种错误 多条采集规则一键切换,支持导入导出 内置强大替换和过滤功能,标签过滤、站内外过滤、字符串替换、等等 IP 屏蔽功能,屏蔽想要屏蔽 IP 地址让它无法访问 ****高级功能*****· url 过滤功能,可过滤屏蔽不采集指定链接· 伪原创,近义词替换有利于 seo· 伪静态,url 伪静态化,有利于 seo· 自动缓存自动更新,可设置缓存时间达到自动更新,css 缓存· 支持演示有阿三源码简繁体互转· 代理 IP、伪造 IP、随机 IP、伪造 user-agent、伪造 referer 来路、自定义 cookie,以便应对防采集措施· url 地址加密转换,个性化 url,让你的 url 地址与众不同· 关键词内链功能· 还有更多功能等你发现…… 程序使用非常简单,仅需在后台输入一个域名即可建站,不限子域名,站群利器,无授权,无绑定限制,使用后台功能可对页面进行自定义修改,在程序后台开启生 成功能,只要访问页面就会生成一个本地文件。当用户再次访问的时候就直接访问网站本地的页面,所以目标站点无法访问了也没关系,我们的站点依然可以访问, 支持伪静态、伪原创、生成静态文件、自定义替换、广告管理、友情链接管理、自动下载 CSS 内的图。

    《Approaching(Almost)any machine learning problem》中文版第11章

    【自然语言处理】文本分类方法综述:从基础模型到深度学习的情感分析系统设计

    基于Andorid的下拉浏览应用设计.zip

    基于Andorid的下拉浏览应用设计实现源码,主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者,也可作为课程设计、期末大作业。

    P2插电式混合动力系统Simulink模型:基于逻辑门限值控制策略的混动汽车仿真

    内容概要:本文详细介绍了一个原创的P2插电式混合动力系统Simulink模型,该模型基于逻辑门限值控制策略,涵盖了多个关键模块如工况输入、驾驶员模型、发动机模型、电机模型、制动能量回收模型、转矩分配模型、运行模式切换模型、档位切换模型以及纵向动力学模型。模型支持多种标准工况(WLTC、UDDS、EUDC、NEDC)和自定义工况,并展示了丰富的仿真结果,包括发动机和电机转矩变化、工作模式切换、档位变化、电池SOC变化、燃油消耗量、速度跟随和最大爬坡度等。此外,文章还深入探讨了逻辑门限值控制策略的具体实现及其效果,提供了详细的代码示例和技术细节。 适合人群:汽车工程专业学生、研究人员、混动汽车开发者及爱好者。 使用场景及目标:①用于教学和科研,帮助理解和掌握P2混动系统的原理和控制策略;②作为开发工具,辅助设计和优化混动汽车控制系统;③提供仿真平台,评估不同工况下的混动系统性能。 其他说明:文中不仅介绍了模型的整体架构和各模块的功能,还分享了许多实用的调试技巧和优化方法,使读者能够更好地理解和应用该模型。

    电力系统分布式调度中ADMM算法的MATLAB实现及其应用

    内容概要:本文详细介绍了基于ADMM(交替方向乘子法)算法在电力系统分布式调度中的应用,特别是并行(Jacobi)和串行(Gauss-Seidel)两种不同更新模式的实现。文中通过MATLAB代码展示了这两种模式的具体实现方法,并比较了它们的优劣。并行模式适用于多核计算环境,能够充分利用硬件资源,尽管迭代次数较多,但总体计算时间较短;串行模式则由于“接力式”更新机制,通常收敛更快,但在计算资源有限的情况下可能会形成瓶颈。此外,文章还讨论了惩罚系数rho的自适应调整策略以及在电-气耦合系统优化中的应用实例。 适合人群:从事电力系统优化、分布式计算研究的专业人士,尤其是有一定MATLAB编程基础的研究人员和技术人员。 使用场景及目标:①理解和实现ADMM算法在电力系统分布式调度中的应用;②评估并行和串行模式在不同应用场景下的性能表现;③掌握惩罚系数rho的自适应调整技巧,提高算法收敛速度和稳定性。 其他说明:文章提供了详细的MATLAB代码示例,帮助读者更好地理解和实践ADMM算法。同时,强调了在实际工程应用中需要注意的关键技术和优化策略。

    这篇文章详细探讨了交错并联Buck变换器的设计、仿真及其实现,涵盖了从理论分析到实际应用的多个方面(含详细代码及解释)

    内容概要:本文深入研究了交错并联Buck变换器的工作原理、性能优势及其具体实现。文章首先介绍了交错并联Buck变换器相较于传统Buck变换器的优势,包括减小输出电流和电压纹波、降低开关管和二极管的电流应力、减小输出滤波电容容量等。接着,文章详细展示了如何通过MATLAB/Simulink建立该变换器的仿真模型,包括参数设置、电路元件添加、PWM信号生成及连接、电压电流测量模块的添加等。此外,还探讨了PID控制器的设计与实现,通过理论分析和仿真验证了其有效性。最后,文章通过多个仿真实验验证了交错并联Buck变换器在纹波性能、器件应力等方面的优势,并分析了不同控制策略的效果,如P、PI、PID控制等。 适合人群:具备一定电力电子基础,对DC-DC变换器特别是交错并联Buck变换器感兴趣的工程师和技术人员。 使用场景及目标:①理解交错并联Buck变换器的工作原理及其相对于传统Buck变换器的优势;②掌握使用MATLAB/Simulink搭建交错并联Buck变换器仿真模型的方法;③学习PID控制器的设计与实现,了解其在电源系统中的应用;④通过仿真实验验证交错并联Buck变换器的性能,评估不同控制策略的效果。 其他说明:本文不仅提供了详细的理论分析,还给出了大量可运行的MATLAB代码,帮助读者更好地理解和实践交错并联Buck变换器的设计与实现。同时,通过对不同控制策略的对比分析,为实际工程应用提供了有价值的参考。

    《综合布线施工技术》第8章-综合布线工程案例.ppt

    《综合布线施工技术》第8章-综合布线工程案例.ppt

Global site tag (gtag.js) - Google Analytics