阅读更多

0顶
2踩

数据库

原创新闻 数据湖的最佳实践

2016-06-13 10:23 by 副主编 mengyidan1988 评论(0) 有7782人浏览
数据湖(Data Lake)概念最早是2011年由CITO Research网站的CTO和作家Dan Woods所提出,并且时至今日依然伴随着不少的争议。“数据湖”的百度百科词条创建于15年的10月份,在国内网络上的资料也仅仅是从2014年底才开始大规模集中出现,在国内,它还是一个相对年轻的概念。



根据定义,“数据湖是指一个大型的基于对象的存储库,以数据的原始格式保存数据,直到它需要被使用时。” 数据湖基本上是一个数据存储平台,使企业能够收集各种数据集,用数据的原始格式进行存储,并让不同的数据使用者可以访问这些数据集,使他们能够根据各自的业务目的使用这些数据。数据湖的好处之一,就是为共享数据提供了单一存储库,从而降低数据复制,避免数据不一致和增加成本。

如何构建、维护和挖掘Hadoop数据湖的价值

Hadoop以及其它大数据应用框架,例如Spark,是围绕以下的理论来设计和建立的:分布式并行计算技术和存储穿过网络行程的最小化是在海量数据情况下,能获得最佳数据查询和处理性能的关键因素。这一理论约束了大数据基础设施的结构和部署。自从Hadoop诞生以来,它就认为要发挥该框架性能,就必须采用将存储和计算进行托管(co-location)的架构。Hadoop是一门了不起的技术。过去各式各样的数据分析成本极高,昂贵的专用软件和硬件组合作为工程数据仓库系统(Engineering Data Warehouse Systern),才有可能完成这一复杂的工作。而现如今各种类型、各类规模的机构只要通过在商用硬件集群部署免费开源软件,就能做到这一点。

Hadoop早期案例鼓吹在低成本和敏捷性上大获成功。但是随着越来越多的主流用例出现,各大机构发现在企业级数据仓库时代,管理和控制仍然不可或缺。数据湖俨然已经成为企业级数据仓库与数据转储之间的中间地带,其提供系统依然敏捷灵活,而其所拥有的保障和审计功能也对于业务关键型数据是必不可少的。

综合的数据湖解决方案,譬如Bedrock和Mica加强了必要的可控性,而Hadoop依旧快速敏捷,较以往方案有很大的提升。即使在敏感行业,如卫生保健、金融服务及零售行业,这些用例也如雨后春笋般不断增加。

企业也在展望未来。他们看到,真正有价值的数据湖不能仅仅是一个储舱,它必须是企业的多个平台之一,拥有着精心构造的现代化的端到端数据架构。就像从企业级的的角度来看待元数据一样,必须能够集成数据湖与外部工具(企业级数据视图的一部分)。只有这样才能建立一个开放的、可扩展的数据湖,并且很容易就能将其集成到其他关键业务平台上。

如果你的企业准备建一个数据湖,那么下面是这份清单,可以帮助你了解都需要做哪些事情,以此确保可以通过灵活的方式把控整个项目的运作。



业务优先级列表

一个数据湖项目的开展,必须与业务强强相关。毕竟,数据湖需要为业务带来企业级数据仓库无法提供的价值。它的价值可能是解决痛点,或者是为业务团队带来全新的收入来源。能够从业务的角度去定义和表达价值,并说服伙伴加入,这对取得成功非常重要。

建筑监督

一旦确定了数据湖与业务的一致性,而且也知道重点在哪儿,就需要定义前期架构:需要哪些不同的组件,最终的技术平台将会是什么样子?请记住,这是一项长期投资,所以需要仔细把握技术的导向。当然,以上问题,你心中可能并没有找到所有答案。

所以可能有必要验证一下概念,从而得到一些经验,在此过程中不断调整和学习。建筑计划中特别重要一点就是拥有很好的数据管理策略,包括数据治理和元数据,以及如何做好这几点。如果想建立一个可管理和控制的数据湖,而非饱受诟病的“数据沼泽”,这一点是至关重要的。

安全策略

概述一个强有力的安全战略,特别是当数据湖将是一个共享平台,由多个业务线或者内部和外部利益相关者共同使用。数据隐私和安全至关重要,尤其是受保护的个人健康信息(PHI)和个人身份信息(PII)等敏感数据。同时,还必须考虑多租户的使用情况:某些用户可能无法与其他用户共享数据。如果你提供多个外部观众服务,每个客户可能和你签订了单独的数据协议,你需要尊重他们。

I/O和内存模型

作为技术平台和体系结构的一部分,必须考虑数据湖的扩展功能。例如,是否打算在存储和计算层之间使用解耦?很多企业已经在坚持使用Azure或S3存储数据,但都是当数据存储完毕后才停止集群的动态切换。如果你计划来执行这样的操作,你需要从数据摄入的角度彻底理解吞吐量需求,这将决定为存储和网络吞吐量以及数据是否可以得到及时处理。

员工技能评估

任何数据湖项目要想获得成功,必须有正确的人。专家应该具备构建数据平台实践经验,有丰富的数据管理和数据治理经验,这样他们就可以预先明确策略和项目流程。还需要邀请日后会使用这一数据湖的数据科学家们,并将其作为利益相关者参与到早期的建筑过程中去,听取他们的需求,了解他们更愿意怎样与数据湖交互。

行动计划

考虑数据湖从服务水平协议(SLA)的角度来看:哪些需求是需要去满足你的业务利益相关者的,特别是他们对影响收益的业务关键型应用程序这一部分有什么要求?需要从几乎零停机时间、可重复读取、处理、改变数据的角度,制定适当的服务水平协议。话题还是回到了人和技能点上,关键是需要有合适的人,他有着管理这些环境的经验,能够整合一个行动小组来支持服务水平协议,满足业务需求。

沟通计划

一旦数据湖平台搭建完成,就如何考虑如何做广告宣传、拓展用户?需要找到不同的感兴趣的业务涉众,为其展示数据湖的成功示例,毕竟任何平台最终的成功都表现在其商务上的成功。

灾备计划

由于数据湖业务的关键性,同时与不同的用户组有不同的服务等级协议,为了保证其关键性能,需要一个能支持这一切的灾备计划。

五年愿景

鉴于数据湖将会成为下一代企业级数据技术的关键基础平台,企业需要提前计划如何将数据湖纳入长期策略。我们看到,各大组织机构为了在分析自身数据时更加高效,产生更多及时的见解,正在用数据湖接管企业级数据仓库组织。组织机构必须意识到数据湖最终将成为数据存储的集合体,包括HDFS、 NOSQL、Graph DBs。他们最终也将支持实时数据处理和生成流媒体分析,也就是说,不仅以流的方式汇总数据,还能作为机器学习模型,当数据输入时在线分析数据,以监督或无监督的方式生成自己的见解。部署选项也会增加。对于不想将数据上传至公有云的公司,他们可以利用公共云模式在他自己的环境中构建私有云。在这些所有的参数中,企业需要有一个非常健壮的功能集,从而摄取和管理数据,存储和组织数据,准备和分析数据,保证数据安全,并控制它。无论你选择什么底层平台,流、批处理、对象存储、flash、内存亦或是文件,在数据湖未来几年的发展中,都需要一直提供这一强大的功能集,这一点至关重要。
引用

作者:Alice LaPlante, Ben Sharma
翻译:张洁 程权
原文链接:https://www.oreilly.com/ideas/best-practices-for-data-lakes
本文由英方股份供稿
  • 大小: 361.1 KB
  • 大小: 128.4 KB
0
2
评论 共 0 条 请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 面向大型组织的数据湖最佳实践.pdf

    面向大型组织的数据湖最佳实践.pdf

  • 数据湖的最佳实践_数据湖

    数据湖的最佳实践As Data drives business we need Data lake to collect data and get advantage from it. In this story, we will cover all the insights about the data lake and know it in a better way. 随着...

  • Flink CDC + Hudi + Hive + Presto 构建实时数据湖最佳实践

    每个文件组包含多个切片,其中每个切片包含在某个提交 / 压缩即时...说明:目前还没写入测试数据,Hudi 目录只生成一些状态标记文件,还未生成分区目录以及 .log 和 .parquet 数据文件,具体含义可见 Hudi 官方文档。

  • 数禾云上数据湖最佳实践

    4. 阿里云第一代数据湖 4.1. 什么是数据湖 4.2. 阿里云数据湖设计 4.2.1. 阿里云数据湖整体架构 4.2.2. 统一存储和元数据管理 4.2.3. 多EMR多OSS桶设计 4.2.4. 分布式调度系统设计 4.2.5. 用户权限系统设计 4.2.6. ...

  • 【精品】数据湖技术及实践与案例精选资料大合集.zip

    精品,数据湖技术及实践与案例精选资料大合集,共40份。 一、数据湖解决方案和相关资料 毕马威数据湖数据管控平台 打造数据增量计算新架构 - 网易数据湖调研&实践 ...数据湖解决方案-AI行业应用最佳实践

  • COS 数据湖最佳实践:基于 Serverless 架构的入湖方案

    01前言数据湖(Data Lake)概念自2011年被推出后,其概念定位、架构设计和相关技术都得到了飞速发展和众多实践,数据湖也从单一数据存储池概念演进为包括 ETL 分析、数据转换及数据...

  • 华为云MRS基于Hudi和HetuEngine构建实时数据湖最佳实践

    如果数据湖的数据,从数据源产生后,可以在1分钟以内实时进入到数据湖存储,支持各种交互式分析,这种数据湖通常叫做实时数据湖,如果可以做到15分钟之内,也可称为准实时数据湖。构建实时数据湖,正在成为5G和IOT...

  • Flink CDC + Hudi + Hive + Presto构建实时数据湖最佳实践

    7.20 Flinksql 查询cdc update数据 产生两条binlog数据 说明:flinksql 查询最终只有一条+I有效数据,且数据已更新 Flink web UI DAG接受到两条binlog数据,但最终compact和sink只有一条有效数据 7.21 MySQL 数据源...

  • 《大数据湖最佳实践》读书笔记

    本书描述了数据湖基础知识,如基本架构、与数仓的对比、数据存储、元数据处理、数据访问控制等,读完能够让你对数据湖技术有一个概述性的认知。 笔记按章节整理如下: 一 数据湖概述 数据湖的演化成熟度:数据...

  • 数据湖解决方案-最佳实践案例集.pdf

    数据湖资料

  • 数据湖是一种方法 数据湖的四个最佳实践

    数据湖听起来很简单:把数据或信息汇集到一个结合处理速度和存储空间的大数据系统――Hadoop集群或内存解决方案,那样业务部门就能访问数据,获取新的洞察力。不过,与IT行业的许多技术一样,现实比梦想困难得多。 ...

  • 数据湖解决方案-互娱行业应用最佳实践.pdf

    数据湖资料

  • 数据湖解决方案-AI行业应用最佳实践.pdf

    数据湖资料

  • 数据湖解决方案-教育行业应用最佳实践.pdf

    数据湖资料

  • 数据湖解决方案-游戏行业应用最佳实践.pdf

    数据湖资料

  • 【java毕业设计】智慧社区教育服务门户.zip

    有java环境就可以运行起来 ,zip里包含源码+论文+PPT, 系统设计与功能: 文档详细描述了系统的后台管理功能,包括系统管理模块、新闻资讯管理模块、公告管理模块、社区影院管理模块、会员上传下载管理模块以及留言管理模块。 系统管理模块:允许管理员重新设置密码,记录登录日志,确保系统安全。 新闻资讯管理模块:实现新闻资讯的添加、删除、修改,确保主页新闻部分始终显示最新的文章。 公告管理模块:类似于新闻资讯管理,但专注于主页公告的后台管理。 社区影院管理模块:管理所有视频的添加、删除、修改,包括影片名、导演、主演、片长等信息。 会员上传下载管理模块:审核与删除会员上传的文件。 留言管理模块:回复与删除所有留言,确保系统内的留言得到及时处理。 环境说明: 开发语言:Java 框架:ssm,mybatis JDK版本:JDK1.8 数据库:mysql 5.7及以上 数据库工具:Navicat11及以上 开发软件:eclipse/idea Maven包:Maven3.3及以上

  • 基于selenium的携程机票爬虫资料齐全+详细文档+高分项目+源码.zip

    【资源说明】 基于selenium的携程机票爬虫资料齐全+详细文档+高分项目+源码.zip 【备注】 1、该项目是个人高分项目源码,已获导师指导认可通过,答辩评审分达到95分 2、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 3、本项目适合计算机相关专业(人工智能、通信工程、自动化、电子信息、物联网等)的在校学生、老师或者企业员工下载使用,也可作为毕业设计、课程设计、作业、项目初期立项演示等,当然也适合小白学习进阶。 4、如果基础还行,可以在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 欢迎下载,沟通交流,互相学习,共同进步!

  • 【java毕业设计】智慧社区宠物管理系统(源代码+论文+PPT模板).zip

    zip里包含源码+论文+PPT,有java环境就可以运行起来 ,功能说明: 文档开篇阐述了随着计算机技术、通信技术和网络技术的快速发展,智慧社区门户网站的建设成为了可能,并被视为21世纪信息产业的主要发展方向之一 强调了网络信息管理技术、数字化处理技术和数字式信息资源建设在国际竞争中的重要性。 指出了智慧社区门户网站系统的编程语言为Java,数据库为MYSQL,并实现了新闻资讯、社区共享、在线影院等功能。 系统设计与功能: 文档详细描述了系统的后台管理功能,包括系统管理模块、新闻资讯管理模块、公告管理模块、社区影院管理模块、会员上传下载管理模块以及留言管理模块。 系统管理模块:允许管理员重新设置密码,记录登录日志,确保系统安全。 新闻资讯管理模块:实现新闻资讯的添加、删除、修改,确保主页新闻部分始终显示最新的文章。 公告管理模块:类似于新闻资讯管理,但专注于主页公告的后台管理。 社区影院管理模块:管理所有视频的添加、删除、修改,包括影片名、导演、主演、片长等信息。 会员上传下载管理模块:审核与删除会员上传的文件。 留言管理模块:回复与删除所有留言,确保系统内的留言得到及时处理。

  • 免费下载:Civil War (Stuart Moore)_xVBgd.zip

    免费下载:Civil War (Stuart Moore)_xVBgd.zip

Global site tag (gtag.js) - Google Analytics