大数据平台 - 数据采集及治理
一.数据采集介绍
ETL基本上就是数据采集的代表,包括数据的提取(Extract)、转换(Transform)和加载(Load)。数据源是整个大数据平台的上游,数据采集是数据源与数仓之间的管道。在采集过程中针对业务场景对数据进行治理,完成数据清洗工作。
在大数据场景下,数据源复杂、多样,包括业务数据库、日志数据、图片、视频等多媒体数据等。数据采集形式也需要更加复杂,多样,包括定时、实时、增量、全量等。常见的数据采集工具也多种多样,可以满足多种业务需求。
常见的三个数据采集场景:
场景1:从支持FTP、SFTP、 HTTP等 协议的数据源获取数据
场景2:从业务数据库获取数据,数据采集录入后需支撑业务系统
场景3:数据源通过Kafka等消息队列,需要实时采集数据
数据采集系统需求:
数据源管理与状态监控
定时、实时、全量、增量等多模式的数据采集及任务监控
元数据管理、数据补采及数据归档
二.数据治理简介
将数据采集到数仓后所面临的问题:
相比传统数仓大数据时代数据更加多样、更加复杂、数据量更大
随处可见的数据不统一、难以提升的数据质量、难以完成的数据模型梳理
多种采集工具、多种存储方式使数据仓库or数据湖逐渐变成数据沼泽
数据治理需要解决的问题:
数据不可知:用户不知道有哪些数据、不知道数据和业务的关系
数据不可控:没有统一的数据标准,数据无法集成和统一
数据不可取:用户不能便捷的取到数据,或者取到的数据不可用
数据不可联:数据之间的关系没有体现出来,数据深层价值无法体现
数据治理的目标:
建立统一数据标准与数据规范,保障数据质量
制定数据管理流程,把控数据整个生命周期
形成平台化工具,提供给用户使用
数据治理:
数据治理包括元数据管理、数据质量管理、数据血缘管理等
数据治理在数据采集、数据清洗、数据计算等各个环节
数据治理难得不是技术,而是流程、协同和管理
元数据管理:
管理数据的库表结构等schema信息
数据存储空间、读写记录、权限归属及其他各类统计信息
数据血缘管理:
数据之间的血缘关系及生命周期
B表的数据从A表汇总而来,那么B和A表就具有血缘关系
数据的业务属性信息和业务数据模型
数据治理步骤简述:
统一数据规范和数据定义,打通业务模型和技术模型
提升数据质量,实现数据全生命周期管理
挖掘数据价值,帮助业务人员便捷灵活的使用数据
数据治理与周边系统:
ODS、DWD、DM等各层次元数据纳入数据治理平台集中管理
数据采集及处理流程中产生的元数据纳入数据治理平台,并建立血缘关系
提供数据管理的服务接口,数据模型变更及时通知上下游
作者:端碗吹水
链接:https://www.jianshu.com/p/84a9accee9e2
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
分享到:
相关推荐
1. 平台架构:通常包括数据采集层、数据处理层、数据分析层和应用展示层,每个层面都有具体的技术要求和标准。 2. 存储技术:可能涉及到分布式存储系统,如Hadoop HDFS,以处理大规模数据。 3. 计算技术:可能采用...
本文将从“大数据中台”、“数据仓库”、“大数据平台”以及“数据治理”四个方面进行深入探讨。 大数据中台是企业构建大数据能力的核心架构,它整合了业务数据、技术平台和服务接口,旨在提升数据驱动的业务创新...
- 数据治理是医疗大数据平台建设中的关键环节,它涉及到数据的标准化、规范化管理,旨在提高数据质量,确保数据的一致性和可靠性。 - 数据治理包括但不限于数据标准的制定、数据质量的管理、元数据管理和数据提供...
该解决方案的核心目标是建立一个集数据采集、数据处理、监测管理、预测预警、应急指挥、可视化平台于一体的大数据平台,以提高政府对社会经济发展的监测和预测能力,提高宏观调控力度,促进经济持续健康发展。...
### 大数据平台数据治理体系知识点解析 #### 一、数据治理体系概述 在当前数字化转型的大背景下,企业级大数据平台的数据治理变得尤为重要。一个完善的数据治理体系不仅能够提高数据的质量和安全性,还能有效支持...
- **元数据管理**:包括元数据采集、维护、检索等功能,帮助理解和追踪数据来源及用途。 - **数据标准管理**:定义数据标准,并监控标准的执行情况,确保数据的一致性和规范性。 - **数据质量管理**:提供数据质量...
### 大数据平台及数据治理整体方案 #### 总体说明 ##### 概述 随着信息化建设的深入发展,企业面临着海量数据处理与分析的需求。为了有效管理和利用这些数据资源,构建一个高效、稳定的大数据平台及数据治理体系...
获取大数据的常见途径包括系统日志采集、互联网数据采集、APP移动端数据采集以及与数据服务机构合作。大数据处理方法包括采集、导入与预处理、统计与分析以及数据挖掘。预处理涉及数据清洗、数据集成、数据变换和...
京东大数据平台是一个集数据采集、存储、处理、分析和应用于一体的综合系统。它整合了来自各个业务板块的数据,包括用户行为数据、交易数据、物流数据、商品信息等,通过先进的数据挖掘和机器学习算法,实现对海量...
大数据平台是指能够处理、存储和分析海量数据的系统,它通常包括数据采集、数据处理、数据分析和数据可视化等多个环节。在Java环境中,Hadoop、Spark等开源框架被广泛用于构建这样的平台,它们提供了分布式计算和...
大数据整体架构是大数据治理的总体架构,包括数据采集平台、数据资产管理平台、数据处理平台、数据交换平台、数据分析挖掘平台、大数据智能平台、大数据决策平台等。该架构能够解决大数据治理中的各种挑战,实现数据...
数据采集是数据智能治理子平台的第一个阶段,该阶段主要涉及到数据的采集和存储。在该阶段中,数据资产平台负责管理和维护大数据平台中的所有数据资产。 数据存储 数据存储是数据智能治理子平台的第二个阶段,该...
大数据平台数据治理的重要性在于构建完善、共享、统一管理数据环境,作为资产管理的有效手段,确定了一系列岗位角色和相应的责任及管理流程,保证了业务数据在采集、集中、转换、存储、应用整个过程中的完整性、准确...
通过设定明确的岗位角色和管理流程,数据治理确保了从数据采集到应用的全过程都能保持数据的完整性。此外,企业对数据治理的需求主要源于对高质量数据的追求,因为高质量数据能够助力实现业务目标,优化数据架构,并...
大数据平台数据治理整体解决方案是基于智能城市、大数据、物联网等技术的整体解决方案,旨在建立一个集数据采集、数据处理、监测管理、预测预警、应急指挥、可视化平台于一体的大数据平台,以信息化提升数据化管理与...
该操作流程包括数据采集、数据存储、数据处理、数据分析和数据安全等步骤,每个步骤都有明确的操作规则和管理机制。 大数据平台数据治理体系建设和管理方案的目标是确保大数据平台中的数据质量、安全和隐私保护。该...
3. 实施和部署:实施和部署大数据可视化平台的数据治理架构,包括数据采集、清洗、存储、集成和分析。 4. 测试和优化:对大数据可视化平台的数据治理架构进行测试和优化,确保数据治理的效果和效率。
1. 数据采集:从各种源头收集数据,包括社交媒体、交易系统、传感器等。 2. 数据预处理:清洗数据,去除重复、错误或不完整的信息,进行数据标准化和格式转换。 3. 数据存储:利用分布式存储系统,如Hadoop HDFS,将...
它通过密钥管理、授权管理以及数据传输和采集服务,确保公司数据资产得到有效治理。同时,UDW支持资源管理,如配额控制和访问审计监管,使得数据使用的合法性和合规性得到保障。 在数据使用方面,UDW强调数据地图...