`
ding__lin
  • 浏览: 21145 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

基于血缘关系的数据溯源工具(sqllineage.com)

阅读更多

数据溯源是什么?

 它在我们生活中已经随处可见,从平时的外卖美食到菜鸟快递,以及疫情防控使用的健康码...

 准确来说数据溯源是:记录和重现原始数据在整个数据生产的生命周期内,从产生、传播或消亡的演变和处理过程。

 那如何获取这些溯源信息?

 常用的方法是设计时确立了RFID、二维码之类的可追溯的标识在需要追溯的各个业务阶段都可以通过标识查找到对应的数据。这种通常被称为标注法...  还有个常用的方法方向查询法,通过构建逆向函数,由结果推导出原始数据,这个方法的难度是某些计算无法提供逆向函数。 理论上其他的方法的详解可以自行网上搜索查询

 而针对基于SQL作为数据处理逻辑的场景我找到了另一个解决方法:(目前已经可以支持Spark,Oracle理论上可以支持任何基于SQL的计算引擎)

 1. 解析数据血缘关系和修改SQL的计算逻辑和执行计划

 2. 执行修改后的执行计划在获取计算结果的同时,也记录了计算所需的原始数据

这里提供了一个演示用的工具(www.bilibili.com/video/BV17r… 视频介绍)

默认提供了3张数据表方便做简单的功能测试, 执行的SQL被提交给工具后,溯源工具分析并重构;工具默认提供了7个测试样本,包括: join(还可支持on表达式中出现函数等非常规的条件),union/union all,distinct,group by,多层的子查询,窗口函数,自定义的UDTF/UDAF等。

 

分享到:
评论

相关推荐

    基于gsp的sql解析工具

    【标题】"基于gsp的SQL解析工具"是一款专门用于解析SQL语句的软件,它利用GSP(General SQL Parser)技术,能够深入理解SQL语句的结构和含义,为用户提供有关表之间的血缘关系、表字段之间的关联,以及SQL语句类型的...

    通过解析sql语句获取表血缘关系项目

    在IT行业中,数据库管理和数据...总结来说,"通过解析SQL语句获取表血缘关系项目"是一个关键的数据管理实践,它依赖于对SQL的深入理解和合适的工具,以揭示数据库中的数据流动路径,从而支持更高效、更合规的数据操作。

    使用G6、X6、JsPlumb等实现血缘关系图谱.zip

    血缘关系图谱是一种可视化工具,用于展示个人之间的亲属关系,如家庭成员、家族历史或遗传研究中的联系。在IT领域,特别是在数据可视化和前端开发中,利用图形库来创建这种图谱是常见的做法。本文件包提供的资源是...

    数据安全合规实践(三)数据溯源系统的思考.docx

    数据安全合规实践中,数据溯源系统扮演着至关重要的角色,它涉及数据地图、数据血缘和数据流转图。数据溯源能够追踪数据的来源、流转过程以及最终用途,这对于满足法规要求、确保数据隐私和防止数据泄露至关重要。在...

    携程酒店基于血缘元数据的数据流程优化实践.docx

    携程酒店基于血缘元数据的数据流程优化实践.docx

    Informatica元数据和血缘关系

    梳理Informatic的元数据,理清ETL背后的数据加工流水线基础数据,基于SQL析可以获取目标表依赖的源表和映射,然后基于映射可以追溯到相应的会话、工作集、工作流,完成整个数据加工链的血缘

    血缘关系解析工具源码_对hql集合进行静态分析_获取hql对应的血缘图.zip

    血缘关系解析工具主要用来追踪数据从源头到最终应用的过程,帮助理解数据的来源、演变过程以及如何被使用,这对于数据质量和合规性检查至关重要。本项目提供的源码是针对HQL(Hive Query Language)集合进行静态分析...

    数据安全合规实践(三)数据溯源系统的思考.pdf

    本文主要讨论数据溯源系统,特别是单点溯源、大数据数据血缘和数据流转图三种类型。 1. 单点溯源 这种类型的产品主要关注两个节点之间的数据流动,例如应用侧API治理和数据库侧的数据库审计。应用侧API治理依赖于...

    66页大数据治理抽取转换清洗血缘分析数据回滚解决方案.pptx.zip

    标题中的“66页大数据治理抽取转换清洗血缘分析数据回滚解决方案”表明这是一个关于大数据管理的详细报告,涵盖了数据抽取、转换、清洗、血缘分析以及数据回滚等核心环节。以下是根据这些关键词和标签展开的相关知识...

    基于图数据库的元数据血缘关系分析技术研究与实践.docx

    基于图数据库的元数据血缘关系分析技术研究与实践.docx

    基于Python实现字段级血缘分析项目源码.zip

    基于Python实现字段级血缘分析项目源码.zip基于Python实现字段级血缘分析项目源码.zip基于Python实现字段级血缘分析项目源码.zip基于Python实现字段级血缘分析项目源码.zip基于Python实现字段级血缘分析项目源码.zip...

    2021-66页大数据治理抽取转换清洗血缘分析数据回滚解决方案.pptx

    大数据治理方案的解决方法包括:数据治理、数据采集、数据存储、数据处理、数据分析、数据挖掘、数据智能、数据决策等。 大数据治理方案的发展趋势包括:数据湖、数据仓库、数据集成平台、数据处理平台、数据分析...

    基于Python 实现AI技术的数据内容血缘关系分析技术

    【作品名称】:基于Python 实现AI技术的数据内容血缘关系分析技术 【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【项目介绍】:...

    字节跳动数据血缘技术实现与具体用例.pdf

    字节跳动数据血缘技术是指通过对数据的血缘关系进行跟踪和分析,以了解数据的来源、传输和使用过程的技术。这种技术可以帮助企业更好地管理和控制数据,提高数据的安全性、可靠性和实效性。 数据血缘模型是指对数据...

    SQL、Hive SQL等SQL血缘解析工具

    // 设置元数据服务 Delegate.getDelegate().setMetaColumnService(new IMetaColumnService() { @Override public List<String> queryMetaColumn(String dbName, String tableName) { return Collections.empty...

    关于血缘关系的演变

    “血缘关系”是“博爱”或“悲伤”的性别中立术语。 最初,血缘关系包括M个男性成员和F个女性成员。 每周随机选择一个成员,选择一个新成员,该成员的性别始终与进行选择的成员相同。 这种进化模型与经典的Pólya...

    数据资产与治理:浅谈数据血缘的作用与价值.docx

    数据血缘关系是指数据在产生、处理、流转到消亡过程中,数据之间形成的一种类似于人类社会血缘关系的关系。数据血缘关系可以帮助数据生产者以及消费者更好地对数据进行追根溯源,提升数据运维、数据治理的效率。 ...

    基于PostgreSQL数据库构建数据中台.pdf

    - **数据治理**:涵盖数据血缘、数据标准、数据质量和统一调度,确保数据的合规性和一致性。 4. **业务智能化**: - **机器学习算法**:运用算法动态识别数据的业务特征,智能推荐所需数据模型。 - **数据试验...

    大数据全栈学习【生态组件,技术栈,数据流,数据仓库,数据库,指标体系,血缘关系,元数据管理,数据质量,DataWor.zip

    大数据全栈学习是一个涵盖多个领域的综合主题,包括但不限于生态组件、技术栈、数据流、数据仓库、数据库、指标体系、血缘关系、元数据管理以及数据质量等方面。这些概念是构建高效、稳定且智能的大数据处理系统的...

Global site tag (gtag.js) - Google Analytics