阅读更多

0顶
2踩

数据库

原创新闻 数据湖的最佳实践

2016-06-13 10:23 by 副主编 mengyidan1988 评论(0) 有7827人浏览
数据湖(Data Lake)概念最早是2011年由CITO Research网站的CTO和作家Dan Woods所提出,并且时至今日依然伴随着不少的争议。“数据湖”的百度百科词条创建于15年的10月份,在国内网络上的资料也仅仅是从2014年底才开始大规模集中出现,在国内,它还是一个相对年轻的概念。



根据定义,“数据湖是指一个大型的基于对象的存储库,以数据的原始格式保存数据,直到它需要被使用时。” 数据湖基本上是一个数据存储平台,使企业能够收集各种数据集,用数据的原始格式进行存储,并让不同的数据使用者可以访问这些数据集,使他们能够根据各自的业务目的使用这些数据。数据湖的好处之一,就是为共享数据提供了单一存储库,从而降低数据复制,避免数据不一致和增加成本。

如何构建、维护和挖掘Hadoop数据湖的价值

Hadoop以及其它大数据应用框架,例如Spark,是围绕以下的理论来设计和建立的:分布式并行计算技术和存储穿过网络行程的最小化是在海量数据情况下,能获得最佳数据查询和处理性能的关键因素。这一理论约束了大数据基础设施的结构和部署。自从Hadoop诞生以来,它就认为要发挥该框架性能,就必须采用将存储和计算进行托管(co-location)的架构。Hadoop是一门了不起的技术。过去各式各样的数据分析成本极高,昂贵的专用软件和硬件组合作为工程数据仓库系统(Engineering Data Warehouse Systern),才有可能完成这一复杂的工作。而现如今各种类型、各类规模的机构只要通过在商用硬件集群部署免费开源软件,就能做到这一点。

Hadoop早期案例鼓吹在低成本和敏捷性上大获成功。但是随着越来越多的主流用例出现,各大机构发现在企业级数据仓库时代,管理和控制仍然不可或缺。数据湖俨然已经成为企业级数据仓库与数据转储之间的中间地带,其提供系统依然敏捷灵活,而其所拥有的保障和审计功能也对于业务关键型数据是必不可少的。

综合的数据湖解决方案,譬如Bedrock和Mica加强了必要的可控性,而Hadoop依旧快速敏捷,较以往方案有很大的提升。即使在敏感行业,如卫生保健、金融服务及零售行业,这些用例也如雨后春笋般不断增加。

企业也在展望未来。他们看到,真正有价值的数据湖不能仅仅是一个储舱,它必须是企业的多个平台之一,拥有着精心构造的现代化的端到端数据架构。就像从企业级的的角度来看待元数据一样,必须能够集成数据湖与外部工具(企业级数据视图的一部分)。只有这样才能建立一个开放的、可扩展的数据湖,并且很容易就能将其集成到其他关键业务平台上。

如果你的企业准备建一个数据湖,那么下面是这份清单,可以帮助你了解都需要做哪些事情,以此确保可以通过灵活的方式把控整个项目的运作。



业务优先级列表

一个数据湖项目的开展,必须与业务强强相关。毕竟,数据湖需要为业务带来企业级数据仓库无法提供的价值。它的价值可能是解决痛点,或者是为业务团队带来全新的收入来源。能够从业务的角度去定义和表达价值,并说服伙伴加入,这对取得成功非常重要。

建筑监督

一旦确定了数据湖与业务的一致性,而且也知道重点在哪儿,就需要定义前期架构:需要哪些不同的组件,最终的技术平台将会是什么样子?请记住,这是一项长期投资,所以需要仔细把握技术的导向。当然,以上问题,你心中可能并没有找到所有答案。

所以可能有必要验证一下概念,从而得到一些经验,在此过程中不断调整和学习。建筑计划中特别重要一点就是拥有很好的数据管理策略,包括数据治理和元数据,以及如何做好这几点。如果想建立一个可管理和控制的数据湖,而非饱受诟病的“数据沼泽”,这一点是至关重要的。

安全策略

概述一个强有力的安全战略,特别是当数据湖将是一个共享平台,由多个业务线或者内部和外部利益相关者共同使用。数据隐私和安全至关重要,尤其是受保护的个人健康信息(PHI)和个人身份信息(PII)等敏感数据。同时,还必须考虑多租户的使用情况:某些用户可能无法与其他用户共享数据。如果你提供多个外部观众服务,每个客户可能和你签订了单独的数据协议,你需要尊重他们。

I/O和内存模型

作为技术平台和体系结构的一部分,必须考虑数据湖的扩展功能。例如,是否打算在存储和计算层之间使用解耦?很多企业已经在坚持使用Azure或S3存储数据,但都是当数据存储完毕后才停止集群的动态切换。如果你计划来执行这样的操作,你需要从数据摄入的角度彻底理解吞吐量需求,这将决定为存储和网络吞吐量以及数据是否可以得到及时处理。

员工技能评估

任何数据湖项目要想获得成功,必须有正确的人。专家应该具备构建数据平台实践经验,有丰富的数据管理和数据治理经验,这样他们就可以预先明确策略和项目流程。还需要邀请日后会使用这一数据湖的数据科学家们,并将其作为利益相关者参与到早期的建筑过程中去,听取他们的需求,了解他们更愿意怎样与数据湖交互。

行动计划

考虑数据湖从服务水平协议(SLA)的角度来看:哪些需求是需要去满足你的业务利益相关者的,特别是他们对影响收益的业务关键型应用程序这一部分有什么要求?需要从几乎零停机时间、可重复读取、处理、改变数据的角度,制定适当的服务水平协议。话题还是回到了人和技能点上,关键是需要有合适的人,他有着管理这些环境的经验,能够整合一个行动小组来支持服务水平协议,满足业务需求。

沟通计划

一旦数据湖平台搭建完成,就如何考虑如何做广告宣传、拓展用户?需要找到不同的感兴趣的业务涉众,为其展示数据湖的成功示例,毕竟任何平台最终的成功都表现在其商务上的成功。

灾备计划

由于数据湖业务的关键性,同时与不同的用户组有不同的服务等级协议,为了保证其关键性能,需要一个能支持这一切的灾备计划。

五年愿景

鉴于数据湖将会成为下一代企业级数据技术的关键基础平台,企业需要提前计划如何将数据湖纳入长期策略。我们看到,各大组织机构为了在分析自身数据时更加高效,产生更多及时的见解,正在用数据湖接管企业级数据仓库组织。组织机构必须意识到数据湖最终将成为数据存储的集合体,包括HDFS、 NOSQL、Graph DBs。他们最终也将支持实时数据处理和生成流媒体分析,也就是说,不仅以流的方式汇总数据,还能作为机器学习模型,当数据输入时在线分析数据,以监督或无监督的方式生成自己的见解。部署选项也会增加。对于不想将数据上传至公有云的公司,他们可以利用公共云模式在他自己的环境中构建私有云。在这些所有的参数中,企业需要有一个非常健壮的功能集,从而摄取和管理数据,存储和组织数据,准备和分析数据,保证数据安全,并控制它。无论你选择什么底层平台,流、批处理、对象存储、flash、内存亦或是文件,在数据湖未来几年的发展中,都需要一直提供这一强大的功能集,这一点至关重要。
引用

作者:Alice LaPlante, Ben Sharma
翻译:张洁 程权
原文链接:https://www.oreilly.com/ideas/best-practices-for-data-lakes
本文由英方股份供稿
  • 大小: 361.1 KB
  • 大小: 128.4 KB
0
2
评论 共 0 条 请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 面向大型组织的数据湖最佳实践.pdf

    面向大型组织的数据湖最佳实践.pdf

  • 数据湖的最佳实践_数据湖

    数据湖的最佳实践As Data drives business we need Data lake to collect data and get advantage from it. In this story, we will cover all the insights about the data lake and know it in a better way. 随着...

  • Flink CDC + Hudi + Hive + Presto 构建实时数据湖最佳实践

    每个文件组包含多个切片,其中每个切片包含在某个提交 / 压缩即时...说明:目前还没写入测试数据,Hudi 目录只生成一些状态标记文件,还未生成分区目录以及 .log 和 .parquet 数据文件,具体含义可见 Hudi 官方文档。

  • 数禾云上数据湖最佳实践

    4. 阿里云第一代数据湖 4.1. 什么是数据湖 4.2. 阿里云数据湖设计 4.2.1. 阿里云数据湖整体架构 4.2.2. 统一存储和元数据管理 4.2.3. 多EMR多OSS桶设计 4.2.4. 分布式调度系统设计 4.2.5. 用户权限系统设计 4.2.6. ...

  • 【精品】数据湖技术及实践与案例精选资料大合集.zip

    精品,数据湖技术及实践与案例精选资料大合集,共40份。 一、数据湖解决方案和相关资料 毕马威数据湖数据管控平台 打造数据增量计算新架构 - 网易数据湖调研&实践 ...数据湖解决方案-AI行业应用最佳实践

  • COS 数据湖最佳实践:基于 Serverless 架构的入湖方案

    01前言数据湖(Data Lake)概念自2011年被推出后,其概念定位、架构设计和相关技术都得到了飞速发展和众多实践,数据湖也从单一数据存储池概念演进为包括 ETL 分析、数据转换及数据...

  • 华为云MRS基于Hudi和HetuEngine构建实时数据湖最佳实践

    如果数据湖的数据,从数据源产生后,可以在1分钟以内实时进入到数据湖存储,支持各种交互式分析,这种数据湖通常叫做实时数据湖,如果可以做到15分钟之内,也可称为准实时数据湖。构建实时数据湖,正在成为5G和IOT...

  • Flink CDC + Hudi + Hive + Presto构建实时数据湖最佳实践

    7.20 Flinksql 查询cdc update数据 产生两条binlog数据 说明:flinksql 查询最终只有一条+I有效数据,且数据已更新 Flink web UI DAG接受到两条binlog数据,但最终compact和sink只有一条有效数据 7.21 MySQL 数据源...

  • 《大数据湖最佳实践》读书笔记

    本书描述了数据湖基础知识,如基本架构、与数仓的对比、数据存储、元数据处理、数据访问控制等,读完能够让你对数据湖技术有一个概述性的认知。 笔记按章节整理如下: 一 数据湖概述 数据湖的演化成熟度:数据...

  • 数据湖解决方案-最佳实践案例集.pdf

    数据湖资料

  • 数据湖是一种方法 数据湖的四个最佳实践

    数据湖听起来很简单:把数据或信息汇集到一个结合处理速度和存储空间的大数据系统――Hadoop集群或内存解决方案,那样业务部门就能访问数据,获取新的洞察力。不过,与IT行业的许多技术一样,现实比梦想困难得多。 ...

  • 数据湖解决方案-互娱行业应用最佳实践.pdf

    数据湖资料

  • 数据湖解决方案-AI行业应用最佳实践.pdf

    数据湖资料

  • 数据湖解决方案-教育行业应用最佳实践.pdf

    数据湖资料

  • 数据湖解决方案-游戏行业应用最佳实践.pdf

    数据湖资料

  • NX二次开发-属性操作(创建与编辑)

    目前关于属性操作的创建于编辑主要有新旧两个版本,旧版本主要使用UF_ATTR_assign()函数,新版本主要使用UF_ATTR_set_user_attribute()函数。注意在使用新版本是需要初始化。

  • 编书 机械制图习题集(属性块图框)出版社.dwg

    编书 机械制图习题集(属性块图框)出版社.dwg

  • 毕业设计物联网实战项目基于 ESP8266 及 1.3 寸 TFT 实现的华为太空人时钟.zip

    【项目资源】: 物联网项目适用于从基础到高级的各种项目,特别是在性能要求较高的场景中,比如操作系统开发、嵌入式编程和底层系统编程。如果您是初学者,可以从简单的控制台程序开始练习;如果是进阶开发者,可以尝试涉及硬件或网络的项目。 【项目质量】: 所有源码都经过严格测试,可以直接运行。 功能在确认正常工作后才上传。 【适用人群】: 适用于希望学习不同技术领域的小白或进阶学习者。 可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【附加价值】: 项目具有较高的学习借鉴价值,也可直接拿来修改复刻。 对于有一定基础或热衷于研究的人来说,可以在这些基础代码上进行修改和扩展,实现其他功能。 【沟通交流】: 有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 鼓励下载和使用,并欢迎大家互相学习,共同进步。 # 注意 1. 本资源仅用于开源学习和技术交流。不可商用等,一切后果由使用者承担。 2. 部分字体以及插图等来自网络,若是侵权请联系删除。

  • 【机器人控制】基于MATLAB的不同神经网络控制器性能对比:机器人手臂模型的NNPC、MRC和NARMA-L2控制策略分析(复现论文或解答问题,含详细可运行代码及解释)

    内容概要:本文档提供了三种神经网络控制器(NNPC、MRC和NARMA-L2)在机器人手臂模型上性能比较的MATLAB实现代码及详细解释。首先初始化工作空间并设定仿真参数,包括仿真时间和采样时间等。接着定义了机器人手臂的二阶动力学模型参数,并将其转换为离散时间系统。对于参考信号,可以选择方波或正弦波形式。然后分别实现了三种控制器的具体算法:MRC通过定义参考模型参数并训练神经网络来实现控制;NNPC利用预测模型神经网络并结合优化算法求解控制序列;NARMA-L2则通过两个神经网络分别建模f和g函数,进而实现控制律。最后,对三种控制器进行了性能比较,包括计算均方根误差、最大误差、调节时间等指标,并绘制了响应曲线和跟踪误差曲线。此外,还强调了机器人手臂模型参数的一致性和参考信号设置的规范性,提出了常见问题的解决方案以及性能比较的标准化方法。 适合人群:具备一定编程基础,特别是熟悉MATLAB编程语言的研究人员或工程师,以及对神经网络控制理论有一定了解的技术人员。 使用场景及目标:①理解不同类型的神经网络控制器的工作原理;②掌握在MATLAB中实现这些控制器的方法;③学会如何设置合理的参考信号并保证模型参数的一致性;④能够根据具体的性能指标对比不同控制器的效果,从而选择最适合应用场景的控制器。 其他说明:本文档不仅提供了完整的实验代码,还对每个步骤进行了详细的注释,有助于读者更好地理解每段代码的功能。同时,针对可能出现的问题给出了相应的解决办法,确保实验结果的有效性和可靠性。为了使性能比较更加公平合理,文档还介绍了标准化的测试流程和评估标准,这对于进一步研究和应用具有重要的指导意义。

Global site tag (gtag.js) - Google Analytics