数据仓库的建设是“数据智能”必不可少的一环,也是大规模数据应用中必然面临的挑战。在智能商业中,数据的结果代表了用户反馈、获取数据的及时性尤为重要。快速获取数据反馈能够帮助公司更快地做出决策,更好地进行产品迭代,实时数仓在这一过程中起到了不可替代的作用。
![FFA_](https://yqfile.alicdn.com/7230d62f35ba347d3269537445b62bb3860f4975.jpeg)
如何更好的建设实时数仓、有哪些优秀的生产实践经验可借鉴?
11月28-30日,Flink Forward Asia 邀请来自 Netflix、美团点评、小米、OPPO、菜鸟等数仓专家,聚焦 Flink 实时数仓在数据链路中扮演的角色与在智能商业中的重要价值,分享实时数仓的应用实践及平台智能化的探索与思考。
美团点评基于 Apache Flink 的实时数仓平台实践
-----------------------------
**鲁昊 | 美团点评高级技术专家**
美团点评的业务众多,涉及几十条业务线;数据量大,处理峰值达到 1.5 亿条每秒,每天数据增长量超过 3 万亿条;大多数业务都是交易场景,链路长、状态多样,业务在数仓建设中面临着很大挑战。随着业务对时效性的要求越来越高,如即时配送、实时营销,越来越多的业务对实时数仓提出了需求和探索。实时计算团队调研汇总了多个业务线在实时数仓方面的建设经验,建设了一站式的实时数仓开发平台,以更好得支持业务发展。
本次分享将主要介绍实时计算的业务应用和规模、多个业务在实时数仓方面的建设情况,以及基于 Flink 的实时计算平台和实时数仓平台。
小米流式平台架构演进与实践
-------------
**夏军 | 小米流式平台负责人,高级研发工程师**
小米集群业务线众多,从信息流,电商 ,广告到金融等覆盖了众多了领域,小米流式平台为小米集团各业务提供一体化的流式数据解决方案,主要包括数据采集,数据集成和流式计算三个模块。目前每天数据量达到 2 万亿条,实时同步任务 1.5 万,实时计算的数据 1 万亿条。伴随着小米业务的发展,流式平台也经历三次大升级改造,满足了众多业务的各种需求。
最新的一次迭代基于 Apache Flink,对于流式平台内部模块进行了彻底的重构,同时小米各业务也在由 Spark Streaming 逐步切换到 Flink。本次分享主要包括小米流式平台架构演进、基于 Flink 的新版本流式平台架构设计与产品化,小米典型业务应用实践,未来挑战与规划等。
Netflix:Evolving Keystone to an Open Collaborative Real-time ETL Platform
-------------------------------------------------------------------------
**徐振中 | Senior Software Engineer at Netflix**
Netflix 致力于我们会员的喜悦。我们不懈地专注于提高产品体验和高质量内容。近年来,我们一直在技术驱动的 Studio 和内容制作方面进行大量投资。在这个过程中,我们发现在实时数据平台的领域里中出现了许多独特并有意思的挑战。例如,在微服务架构中,Domain object 分布在不同的 App 及其有状态存储中,这使得低延迟高一致性的实时报告和 entity 搜索发现特别具有挑战性。
在本次演讲中,我们将讨论一些有趣的案例,分享分布式系统基础方面的各种挑战以及解决方案。我们还将讨论在开发运维过程中的收获,对开放式自助式实时数据平台的一些新愿景,以及我们对 Realtime ETL 基础平台的一些新思考。
菜鸟供应链实时数仓的架构演进及应用场景
-------------------
**贾元乔 | 菜鸟高级数据技术专家**
贾元乔老师就职于菜鸟网络供应链数据团队,致力于菜鸟供应链数仓建设、数据产品开发以及数据技术创新。
本次分享主要从数据模型、数据计算、数据服务等几个方面介绍菜鸟供应链数据团队在实时数据技术架构上的演进,以及在供应链场景中,典型的实时应用场景及Flink实现方案。
OPPO 基于 Apache Flink 的实时数仓实践
----------------------------
**张俊 | Apache Flink Contributor,OPPO大数据平台研发负责人**
张俊老师主导了 OPPO 涵盖“数据接入-数据治理-数据开发-数据应用”全链路的数据中台建设。曾先后工作于摩根士丹利、腾讯,具有丰富的数据系统研发经验,目前重点关注数仓建设、实时计算、OLAP引擎方向,同时也是Flink开源社区贡献者。本次演讲主要分享 OPPO 基于 Flink 构建实时数仓的:
1.建设背景
2.顶层设计
3.落地实践
4.未来展望
[原文链接](https://yq.aliyun.com/articles/727370?utm_content=g_1000090282)
本文为云栖社区原创内容,未经允许不得转载。
分享到:
相关推荐
首先,从标题“基于 TiDB 与 Flink 的实时数仓最佳实践的白皮书.pdf”来看,该白皮书主要涉及的知识点应包括TiDB与Flink的使用,以及它们在构建实时数据仓库方面的最佳实践。 TiDB是一款开源的分布式关系型数据库,...
基于Flink实时数仓实践.pptx
基于 Flink 的实时数仓建设实践 本文主要阐述了美团基于 Flink 的实时数仓建设实践经验。实时数仓是企业对数据服务实时化服务的需求逐渐增多的解决方案。本文将从 Flink 引擎的性能特点和适用场景出发,介绍美团...
基于 Flink 的实时数仓建设实践 本文主要介绍了基于 Flink 的实时数仓建设实践经验,介绍了美团如何使用 Flink 引擎构建实时数据仓库,并提供高效、稳健的实时数据服务。 知识点 1:实时数据仓库的需求 随着企业...
快手基于 Flink 构建实时数仓的场景化实践,是快手数据技术专家李天朔在 2021 年 5 月 22 日 Apache Flink Meetup · 北京站上发表的报告,主要介绍了快手基于 Flink 构建实时数仓的场景化实践。 快手实时计算场景 ...
基于Flink构建实时数仓的场景化实践 本文档旨在介绍基于Apache Flink构建实时数仓的场景化实践,主要涵盖快手基于Flink构建实时数仓的架构设计、保障措施、场景问题及解决方案等方面。 实时数仓架构设计 实时数仓...
《Flink Hologres云原生实时数仓最佳实践》这篇文档主要探讨了现代企业如何构建和优化实时数仓,特别是在云原生环境下的最佳实践。实时数仓旨在解决传统数据仓库的延迟问题,提供更实时的数据分析能力,帮助企业快速...
分享一套flink实时数仓的课程——《基于Flink+FlinkCDC+FlinkSQL+Clickhouse构建实时数据仓库》,2022年10月完结的新课,课程基于flink1.14版本,视频+源码+课件+软件包,一起提供下载!
本演讲主要介绍了上海久耶供应链在大数据平台中基于HBase实现的实时数仓的实践与探索,涵盖了从第一代离线数仓到第二代实时数仓的转变,以及业务场景、开发流程、集群调优监控等方面的内容,并分享了两个实际生产...
OPPO基于Apache Flink的实时数仓实践.pptx
美团外卖实时数仓建设实践是基于实时计算技术的数仓建设实践,旨在解决美团外卖业务中的实时数据处理和分析问题。该实践涵盖了实时场景、实时技术、业务痛点、数据特点与应用场景、实时数仓架构设计、实时平台化建设...
本文主要阐述使用Flink在实际数据生产上的经验。在实时数据系统建设初期,由于对实时数据的需求较少,形成不了完整的数据体系。我们采用的是“一路到底”的开发模式:通过在实时计算平台上部署Storm作业处理实时数据...
滴滴公司的实时数仓实践主要基于Apache Flink构建,旨在提供高效、实时的数据处理能力,以支持业务决策和洞察。以下是对这一实践的详细说明: **整体概况** 滴滴的实时数仓经历了从需求驱动的分散建设到统一规划和...
在OPPO的实时数仓实践中,Flink被广泛应用于以下几个关键场景: 1. **实时指标计算**:通过Flink实时处理数据流,OPPO能够快速计算出业务KPI,如销售量、用户活跃度等,为决策提供及时依据。 2. **异常检测**:利用...
在网易的实时数仓实践中,Kudu的这些特性被充分利用,构建了一个能够应对大规模实时数据处理、分析和查询的高效系统。这种实践不仅提升了数据处理速度,还优化了资源利用率,为业务决策提供了及时、准确的数据支持。
本文将详细探讨腾讯基于Flink和Iceberg实时数仓建设的实践过程、面临的挑战、技术细节以及未来展望。 ### 实时数仓建设的需求和挑战 在大数据时代背景下,企业对数据的实时处理和分析提出了更高的要求。传统的数仓...
这个基于Flink的开源组件,结合zookeeper的高可用机制,确保了Flink集群的可靠性。SQL Gateway会实时监听zookeeper的高可用路径,以便在Flink Cluster故障后YARN能够自动拉起新集群,SQL Gateway也能自动感知并重新...
仅1年GitHub Star数翻倍,Apache Flink 做了什么? 4 Lyft基于Apache Flink的大规模准实时数据分析平台 15 ...OPPO 基于 Apache Flink 的实时数仓实践 115 菜鸟供应链实时数仓的架构演进及应用场景 136 目录
【BIGO使用Flink做OLAP分析及实时数仓实践及优化】 在大数据处理领域,BIGO公司通过采用Apache Flink进行在线分析处理(OLAP)和构建实时数仓,实现了对海量数据的有效管理和高效分析。这篇内容主要探讨了BIGO在这...