阅读更多

0顶
2踩

数据库

原创新闻 数据湖的最佳实践

2016-06-13 10:23 by 副主编 mengyidan1988 评论(0) 有7796人浏览
数据湖(Data Lake)概念最早是2011年由CITO Research网站的CTO和作家Dan Woods所提出,并且时至今日依然伴随着不少的争议。“数据湖”的百度百科词条创建于15年的10月份,在国内网络上的资料也仅仅是从2014年底才开始大规模集中出现,在国内,它还是一个相对年轻的概念。



根据定义,“数据湖是指一个大型的基于对象的存储库,以数据的原始格式保存数据,直到它需要被使用时。” 数据湖基本上是一个数据存储平台,使企业能够收集各种数据集,用数据的原始格式进行存储,并让不同的数据使用者可以访问这些数据集,使他们能够根据各自的业务目的使用这些数据。数据湖的好处之一,就是为共享数据提供了单一存储库,从而降低数据复制,避免数据不一致和增加成本。

如何构建、维护和挖掘Hadoop数据湖的价值

Hadoop以及其它大数据应用框架,例如Spark,是围绕以下的理论来设计和建立的:分布式并行计算技术和存储穿过网络行程的最小化是在海量数据情况下,能获得最佳数据查询和处理性能的关键因素。这一理论约束了大数据基础设施的结构和部署。自从Hadoop诞生以来,它就认为要发挥该框架性能,就必须采用将存储和计算进行托管(co-location)的架构。Hadoop是一门了不起的技术。过去各式各样的数据分析成本极高,昂贵的专用软件和硬件组合作为工程数据仓库系统(Engineering Data Warehouse Systern),才有可能完成这一复杂的工作。而现如今各种类型、各类规模的机构只要通过在商用硬件集群部署免费开源软件,就能做到这一点。

Hadoop早期案例鼓吹在低成本和敏捷性上大获成功。但是随着越来越多的主流用例出现,各大机构发现在企业级数据仓库时代,管理和控制仍然不可或缺。数据湖俨然已经成为企业级数据仓库与数据转储之间的中间地带,其提供系统依然敏捷灵活,而其所拥有的保障和审计功能也对于业务关键型数据是必不可少的。

综合的数据湖解决方案,譬如Bedrock和Mica加强了必要的可控性,而Hadoop依旧快速敏捷,较以往方案有很大的提升。即使在敏感行业,如卫生保健、金融服务及零售行业,这些用例也如雨后春笋般不断增加。

企业也在展望未来。他们看到,真正有价值的数据湖不能仅仅是一个储舱,它必须是企业的多个平台之一,拥有着精心构造的现代化的端到端数据架构。就像从企业级的的角度来看待元数据一样,必须能够集成数据湖与外部工具(企业级数据视图的一部分)。只有这样才能建立一个开放的、可扩展的数据湖,并且很容易就能将其集成到其他关键业务平台上。

如果你的企业准备建一个数据湖,那么下面是这份清单,可以帮助你了解都需要做哪些事情,以此确保可以通过灵活的方式把控整个项目的运作。



业务优先级列表

一个数据湖项目的开展,必须与业务强强相关。毕竟,数据湖需要为业务带来企业级数据仓库无法提供的价值。它的价值可能是解决痛点,或者是为业务团队带来全新的收入来源。能够从业务的角度去定义和表达价值,并说服伙伴加入,这对取得成功非常重要。

建筑监督

一旦确定了数据湖与业务的一致性,而且也知道重点在哪儿,就需要定义前期架构:需要哪些不同的组件,最终的技术平台将会是什么样子?请记住,这是一项长期投资,所以需要仔细把握技术的导向。当然,以上问题,你心中可能并没有找到所有答案。

所以可能有必要验证一下概念,从而得到一些经验,在此过程中不断调整和学习。建筑计划中特别重要一点就是拥有很好的数据管理策略,包括数据治理和元数据,以及如何做好这几点。如果想建立一个可管理和控制的数据湖,而非饱受诟病的“数据沼泽”,这一点是至关重要的。

安全策略

概述一个强有力的安全战略,特别是当数据湖将是一个共享平台,由多个业务线或者内部和外部利益相关者共同使用。数据隐私和安全至关重要,尤其是受保护的个人健康信息(PHI)和个人身份信息(PII)等敏感数据。同时,还必须考虑多租户的使用情况:某些用户可能无法与其他用户共享数据。如果你提供多个外部观众服务,每个客户可能和你签订了单独的数据协议,你需要尊重他们。

I/O和内存模型

作为技术平台和体系结构的一部分,必须考虑数据湖的扩展功能。例如,是否打算在存储和计算层之间使用解耦?很多企业已经在坚持使用Azure或S3存储数据,但都是当数据存储完毕后才停止集群的动态切换。如果你计划来执行这样的操作,你需要从数据摄入的角度彻底理解吞吐量需求,这将决定为存储和网络吞吐量以及数据是否可以得到及时处理。

员工技能评估

任何数据湖项目要想获得成功,必须有正确的人。专家应该具备构建数据平台实践经验,有丰富的数据管理和数据治理经验,这样他们就可以预先明确策略和项目流程。还需要邀请日后会使用这一数据湖的数据科学家们,并将其作为利益相关者参与到早期的建筑过程中去,听取他们的需求,了解他们更愿意怎样与数据湖交互。

行动计划

考虑数据湖从服务水平协议(SLA)的角度来看:哪些需求是需要去满足你的业务利益相关者的,特别是他们对影响收益的业务关键型应用程序这一部分有什么要求?需要从几乎零停机时间、可重复读取、处理、改变数据的角度,制定适当的服务水平协议。话题还是回到了人和技能点上,关键是需要有合适的人,他有着管理这些环境的经验,能够整合一个行动小组来支持服务水平协议,满足业务需求。

沟通计划

一旦数据湖平台搭建完成,就如何考虑如何做广告宣传、拓展用户?需要找到不同的感兴趣的业务涉众,为其展示数据湖的成功示例,毕竟任何平台最终的成功都表现在其商务上的成功。

灾备计划

由于数据湖业务的关键性,同时与不同的用户组有不同的服务等级协议,为了保证其关键性能,需要一个能支持这一切的灾备计划。

五年愿景

鉴于数据湖将会成为下一代企业级数据技术的关键基础平台,企业需要提前计划如何将数据湖纳入长期策略。我们看到,各大组织机构为了在分析自身数据时更加高效,产生更多及时的见解,正在用数据湖接管企业级数据仓库组织。组织机构必须意识到数据湖最终将成为数据存储的集合体,包括HDFS、 NOSQL、Graph DBs。他们最终也将支持实时数据处理和生成流媒体分析,也就是说,不仅以流的方式汇总数据,还能作为机器学习模型,当数据输入时在线分析数据,以监督或无监督的方式生成自己的见解。部署选项也会增加。对于不想将数据上传至公有云的公司,他们可以利用公共云模式在他自己的环境中构建私有云。在这些所有的参数中,企业需要有一个非常健壮的功能集,从而摄取和管理数据,存储和组织数据,准备和分析数据,保证数据安全,并控制它。无论你选择什么底层平台,流、批处理、对象存储、flash、内存亦或是文件,在数据湖未来几年的发展中,都需要一直提供这一强大的功能集,这一点至关重要。
引用

作者:Alice LaPlante, Ben Sharma
翻译:张洁 程权
原文链接:https://www.oreilly.com/ideas/best-practices-for-data-lakes
本文由英方股份供稿
  • 大小: 361.1 KB
  • 大小: 128.4 KB
0
2
评论 共 0 条 请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 面向大型组织的数据湖最佳实践.pdf

    面向大型组织的数据湖最佳实践.pdf

  • 数据湖的最佳实践_数据湖

    数据湖的最佳实践As Data drives business we need Data lake to collect data and get advantage from it. In this story, we will cover all the insights about the data lake and know it in a better way. 随着...

  • Flink CDC + Hudi + Hive + Presto 构建实时数据湖最佳实践

    每个文件组包含多个切片,其中每个切片包含在某个提交 / 压缩即时...说明:目前还没写入测试数据,Hudi 目录只生成一些状态标记文件,还未生成分区目录以及 .log 和 .parquet 数据文件,具体含义可见 Hudi 官方文档。

  • 数禾云上数据湖最佳实践

    4. 阿里云第一代数据湖 4.1. 什么是数据湖 4.2. 阿里云数据湖设计 4.2.1. 阿里云数据湖整体架构 4.2.2. 统一存储和元数据管理 4.2.3. 多EMR多OSS桶设计 4.2.4. 分布式调度系统设计 4.2.5. 用户权限系统设计 4.2.6. ...

  • 【精品】数据湖技术及实践与案例精选资料大合集.zip

    精品,数据湖技术及实践与案例精选资料大合集,共40份。 一、数据湖解决方案和相关资料 毕马威数据湖数据管控平台 打造数据增量计算新架构 - 网易数据湖调研&实践 ...数据湖解决方案-AI行业应用最佳实践

  • COS 数据湖最佳实践:基于 Serverless 架构的入湖方案

    01前言数据湖(Data Lake)概念自2011年被推出后,其概念定位、架构设计和相关技术都得到了飞速发展和众多实践,数据湖也从单一数据存储池概念演进为包括 ETL 分析、数据转换及数据...

  • 华为云MRS基于Hudi和HetuEngine构建实时数据湖最佳实践

    如果数据湖的数据,从数据源产生后,可以在1分钟以内实时进入到数据湖存储,支持各种交互式分析,这种数据湖通常叫做实时数据湖,如果可以做到15分钟之内,也可称为准实时数据湖。构建实时数据湖,正在成为5G和IOT...

  • Flink CDC + Hudi + Hive + Presto构建实时数据湖最佳实践

    7.20 Flinksql 查询cdc update数据 产生两条binlog数据 说明:flinksql 查询最终只有一条+I有效数据,且数据已更新 Flink web UI DAG接受到两条binlog数据,但最终compact和sink只有一条有效数据 7.21 MySQL 数据源...

  • 《大数据湖最佳实践》读书笔记

    本书描述了数据湖基础知识,如基本架构、与数仓的对比、数据存储、元数据处理、数据访问控制等,读完能够让你对数据湖技术有一个概述性的认知。 笔记按章节整理如下: 一 数据湖概述 数据湖的演化成熟度:数据...

  • 数据湖解决方案-最佳实践案例集.pdf

    数据湖资料

  • 数据湖是一种方法 数据湖的四个最佳实践

    数据湖听起来很简单:把数据或信息汇集到一个结合处理速度和存储空间的大数据系统――Hadoop集群或内存解决方案,那样业务部门就能访问数据,获取新的洞察力。不过,与IT行业的许多技术一样,现实比梦想困难得多。 ...

  • 数据湖解决方案-互娱行业应用最佳实践.pdf

    数据湖资料

  • 数据湖解决方案-AI行业应用最佳实践.pdf

    数据湖资料

  • 数据湖解决方案-教育行业应用最佳实践.pdf

    数据湖资料

  • 数据湖解决方案-游戏行业应用最佳实践.pdf

    数据湖资料

  • 级联H桥SVG无功补偿系统在不平衡电网中的三层控制策略:电压电流双闭环PI控制、相间与相内电压均衡管理,级联H桥SVG无功补偿系统在不平衡电网中的三层控制策略:电压电流双闭环PI控制、相间与相内电压均

    级联H桥SVG无功补偿系统在不平衡电网中的三层控制策略:电压电流双闭环PI控制、相间与相内电压均衡管理,级联H桥SVG无功补偿系统在不平衡电网中的三层控制策略:电压电流双闭环PI控制、相间与相内电压均衡管理,不平衡电网下的svg无功补偿,级联H桥svg无功补偿statcom,采用三层控制策略。 (1)第一层采用电压电流双闭环pi控制,电压电流正负序分离,电压外环通过产生基波正序有功电流三相所有H桥模块直流侧平均电压恒定,电流内环采用前馈解耦控制; (2)第二层相间电压均衡控制,注入零序电压,控制通过注入零序电压维持相间电压平衡; (3)第三层相内电压均衡控制,使其所有子模块吸收的有功功率与其损耗补,从而保证所有H桥子模块直流侧电压值等于给定值。 有参考资料。 639,核心关键词: 1. 不平衡电网下的SVG无功补偿 2. 级联H桥SVG无功补偿STATCOM 3. 三层控制策略 4. 电压电流双闭环PI控制 5. 电压电流正负序分离 6. 直流侧平均电压恒定 7. 前馈解耦控制 8. 相间电压均衡控制 9. 零序电压注入 10. 相内电压均衡控制 以上十个关键词用分号分隔的格式为:不

  • GTX 1080 PCB图纸

    GTX 1080 PCB图纸,内含图纸查看软件

  • 深度优化与应用:提升DeepSeek润色指令的有效性和灵活性指南

    内容概要:本文档详细介绍了利用 DeepSeek 进行文本润色和问答交互时提高效果的方法和技巧,涵盖了从明确需求、提供适当上下文到尝试开放式问题以及多轮对话的十个要点。每一部分内容都提供了具体的示范案例,如指定回答格式、分步骤提问等具体实例,旨在指导用户更好地理解和运用 DeepSeek 提升工作效率和交流质量。同时文中还强调了根据不同应用场景调整提示词语气和风格的重要性和方法。 适用人群:适用于希望通过优化提问技巧以获得高质量反馈的企业员工、科研人员以及一般公众。 使用场景及目标:本文针对所有期望提高 DeepSeek 使用效率的人群,帮助他们在日常工作中快速获取精准的答案或信息,特别是在撰写报告、研究材料准备和技术咨询等方面。此外还鼓励用户通过不断尝试不同形式的问题表述来进行有效沟通。 其他说明:该文档不仅关注实际操作指引,同样重视用户思维模式转变——由简单索取答案向引导 AI 辅助创造性解决问题的方向发展。

  • 基于FPGA与W5500实现的TCP网络通信测试平台开发-Zynq扩展口Verilog编程实践,基于FPGA与W5500芯片的TCP网络通信测试及多路Socket实现基于zynq开发平台和Vivad

    基于FPGA与W5500实现的TCP网络通信测试平台开发——Zynq扩展口Verilog编程实践,基于FPGA与W5500芯片的TCP网络通信测试及多路Socket实现基于zynq开发平台和Vivado 2019软件的扩展开发,基于FPGA和W5500的TCP网络通信 测试平台 zynq扩展口开发 软件平台 vivado2019.2,纯Verilog可移植 测试环境 压力测试 cmd命令下ping电脑ip,同时采用上位机进行10ms发包回环测试,不丢包(内部数据回环,需要时间处理) 目前实现单socket功能,多路可支持 ,基于FPGA; W5500; TCP网络通信; Zynq扩展口开发; 纯Verilog可移植; 测试平台; 压力测试; 10ms发包回环测试; 单socket功能; 多路支持。,基于FPGA与W5500的Zynq扩展口TCP通信测试:可移植Verilog实现的高效网络通信

Global site tag (gtag.js) - Google Analytics