业务数据的指数级扩张,数据处理的速度可不能跟不上业务发展的步伐。基于 Flink 的数据平台构建、运用 Flink 解决业务场景中的具体问题等随着 Flink 被更广泛的应用于广告、金融风控、实时 BI、实时数仓、实时推荐等多种业务场景,在生产实践中已有丰富的案例与优秀的经验。
**Flink Forward Asia 倒计时 28 天**,企业实践专题大会邀请了**字节跳动、滴滴出行、快手、Bilibili、网易、爱奇艺、中国农业银行、奇虎360、贝壳找房、奇安信**等不同行业一线技术专家分享 Apache Flink 与大数据基础平台建设进展和实践,详细解读大数据相关技术在各行业的应用与落地,包括应用场景、业务痛点、面临挑战、如何破局等宝贵实践经验。
点击下方链接可提前了解更多有趣议程:
[https://developer.aliyun.com/special/ffa2019-conference?spm=a2c6h.13239638.0.0.21f2795503PjxQ](https://developer.aliyun.com/special/ffa2019-conference?spm=a2c6h.13239638.0.0.21f2795503PjxQ)
部分精彩议题
------
### 《Apache Flink 在字节跳动的实践与优化》
* Speaker:张光辉@字节跳动
主要介绍字节跳动最近在 Flink 上做的相关实践与优化工作,主要分 6 个部分来介绍,分别是:
**1.Flink SQL 的应用和扩展**;
2.Flink 负载均衡调度,分两个阶段,分别在 Yarn 分配 Container 阶段,在 Flink 内部 TaskScheduler 阶段;
**3.Flink on docker on Yarn** 解决基础环境隔离问题;
**4.Flink CEP** 多 Pattern 匹配和动态加载,为安全和风控团队提供支持;
5.提升 Checkpoint/Savepoint 易用性;
**6.Flink BugFix & 优化**:Flink Netty 网路连接单向断开导致 hang 住;异步申请启动 Container,加快提交速度;Flink JVM 参数配置优化;Flink Client 端和 TM端类加载机制不同等。
·
### 《Apache Flink 在中国农业银行的探索和实践》
* Speaker:侯鑫磊@中国农业银行
Apache Flink 作为新一代批流计算引擎,在**金融科技应用**越来越广泛,本次分享主要介绍农业银行以 Apache Flink 作为混合计算引擎,在反欺诈、系统异常检测、实时数据统计等应用中进行的探索和实践。内容包括:
1.Flink 在农业银行的使用场景
2.实践介绍,Flink 的作用和性能
3.Flink 应用效果
4.未来展望
·
### 《B 站基于 Flink 的平台化探索与实践》
* Speaker:郑志升@Bilibili
B 站早期的实时计算需求,多数是各业务线根据个性化定制的作坊形式,而随着需求量加大以及作坊式效率的低下,2017 年底 Saber **大数据实时计算平台**诞生,建设近两年主要解决了基于 Flink 和 Spark 的实时 SQL IDE 及少量应用层 DAG IDE,应用于监控、实时 BI 分析及实时报表等场景。
而在 2018 年中切入了**机器学习的实时工程领域**,并提供给 AI、搜索及广告等各个 BU,用于实时模型训练的多流会话窗口 Join、维表数据 Join 的场景,以及大窗口下**实时特征工程**的探索与支持。更多内容详见本次分享。目录大纲四部分:
1.背景与现状
2.实时计算平台的演进
3.结合 AI 的工程探索与实践
4.挑战与未来
·
### 《基于 Flink 构建 CEP 引擎的挑战和实践》
* Speaker:韩鹏@奇安信
在大数据领域,根据业务需求和特点来做技术决策已经成为技术选型和开发的基本原则,本演讲主要介绍奇安信集团如何根据大数据安全分析的业务特点**基于 Flink 来设计和实现一个独立的 CEP(ComplexEvent Process)引擎**,这个引擎和 Flink-CEP 的不同点,以及在研发过程中遇到和解决的技术问题。
企业实践专题完整议程
----------
11月28日下午,企业实践专题分享
![_](https://yqfile.alicdn.com/a703c28837d858f4d8d25ca1118e1b68a0739a72.png)
11月29日上午,企业实践专题分享
![_2_](https://yqfile.alicdn.com/40e42157e8c8cebfe2ebf97a42fc3c50d8bd1baa.png)
深度培训,做技术实力派
-----------
大会组委会还为使用 Flink、希望深度学习的开发者们精心准备了培训课程。届时,来自阿里巴巴和 Ververica 的 Flink 专家们将带领开发者开展为期一天半的深度学习。
* Apache Flink PMC 带队,超豪华阵容,阿里巴巴及 Flink 创始团队资深技术专家担任培训讲师,为开发者培训课程制定全面学习体系。
* 课程能够满足不同学习需求,无论是入门还是进阶,开发者可根据自身基础选择课程内容,实现技术与应用能力上的积累与提升。
**课程主要大纲如下:**
### 中阶一:Apache Flink 开发人员培训
本课程是对想要学习构建流应用程序的 Java 和 Scala 开发人员进行的关于 Apache Flink 的实践介绍。培训将重点介绍分布式数据流、事件时间和状态等核心概念。练习将使您有机会了解以上概念在 API 中是如何被体现的,并了解如何将这些概念组合用以解决实际问题。
* 介绍流计算和 Apache Flink
* DataStream API 的基础
* 为 Flink 开发做准备(包括练习)
* 有状态的流处理(包括练习)
* 时间、定时器和 ProcessFunction(包括练习)
* 连接多个流(包括练习)
* 测试(包括练习)
说明:不需要 Apache Flink 的相关知识。
### 中阶二:Apache Flink 运维培训
本课程是针对 Apache Flink 应用程序的部署和操作相关的实践性介绍。目标受众包括负责部署 Flink 应用程序和维护 Flink 集群的开发人员和运维人员。演示将重点介绍 Flink 运行中涉及的核心概念,以及用于部署、升级和监控 Flink 应用程序的主要工具。
* 介绍流计算和 Apache Flink
* 数据中心里的 Flink
* 分布式架构介绍
* 容器化部署(包括实际操作)
* 状态后端和容错(包括实际操作)
* 升级和状态迁移(包括实际操作)
* 指标(包括实践)
* 容量规划
说明:不需要对 Apache Flink 有先验知识。
### 中阶三:SQL 开发人员培训
Apache Flink 支持 SQL 作为流处理和批处理的统一 API。SQL 可以用于各种各样的场景,并且相比使用 Flink 的底层 API,SQL 将更容易构建和维护。在本次培训中,您将学习到如何充分发挥使用 SQL 来编写 Apache Flink 作业的潜力。我们将研究流式 SQL 的不同案例,包括连接流数据、维表关联、窗口聚合、维护物化视图,以及使用 MATCH RECOGNIZE 子句进行模式匹配(这是 SQL 2016 新提出的标准)。
* 介绍 SQL on Flink
* 使用 SQL 查询动态表
* 连接动态表
* 模式匹配与 match\_recognition
* 生态系统&写外部表
说明:不需要 Apache Flink 的先验知识,但是需要基本的 SQL 知识。
### 高阶:Apache Flink 调优和问题排查
在过去的几年中,我们与许多 Flink 用户合作沟通期间了解到许多将流计算作业从早期 PoC 阶段慢慢过渡到生产过程中最常见的挑战。在此次培训中,我们将集中精力介绍这些挑战,并且帮助大家一起消除它。我们将提供一个有用的故障诊断工具集,并介绍例如监控、水印、序列化、状态后端等领域的最佳实践和技巧。在实践课程的间隙中,参与者将有机会使用新学习到的知识来解决一些异常 Flink 作业表现出来的问题。同时,我们也将归纳那些使作业没有进展或吞吐量没有达到预期,或作业延迟的常见原因。
* 时间和水印
* 状态处理和状态后端
* Flink 的容错机制
* 检查点和保存点
* DataStream API 和 ProcessFunction。
培训系列课程为精品小班教学,数量有限,预约满额将关闭入口,有相关培训需求的同学可尽早预约。详细说明:
* 参加培训请选择购买 VIP 套票。中阶培训购买 VIP 套票 1,高阶培训购买 VIP 套票 2。
* VIP 套票 1 可参与中阶所有课程,VIP 套票 2 可参与包括高阶、中阶培训在内的所有课程。
点击「[大会详情](https://developer.aliyun.com/special/ffa2019-conference?spm=a2c6h.13239638.0.0.21f2795503PjxQ)」可了解更多培训课程与 Flink Forward Asia 2019 大会信息,限量席位,越早预约越能抓住时代先机~
[原文链接](https://yq.aliyun.com/articles/724279?utm_content=g_1000086189)
本文为云栖社区原创内容,未经允许不得转载。
分享到:
相关推荐
Apache Flink是一个强大的开源大数据处理框架,其设计目标是提供低延迟、高吞吐量的实时数据处理能力。本文将深入探讨Apache Flink的...通过实际项目的实践,开发者可以更好地利用Flink解决各种复杂的数据处理问题。
与传统的基于系统时间的处理不同,事件时间处理更贴近实际业务发生的时间,能更好地应对网络延迟或数据乱序问题。Flink提供了窗口机制,允许开发者根据事件时间来聚合数据。 【Flink的API】包括DataStream API和...
Apache Flink是一个高性能的分布式流处理框架,能够对无界和有界数据流进行快速准确的计算。Flink的设计理念是能够高效地处理大规模数据集,支持高吞吐量、低延迟的数据处理需求,并提供容错机制。Flink的特点是易于...
Flink的PyFlink是Python接口,对于Python开发者来说,理解其核心功能和应用场景有助于更好地利用Flink处理数据。通过PyFlink,用户可以方便地构建和执行流处理和批处理作业,进一步拓宽了Flink的使用场景。 总的来...
3. **高性能与多语言支持**:Flink的Java和Scala API提供了更好的性能,同时也支持Python,满足了不同开发者的需求。 在迁移过程中,字节跳动面临的主要任务包括: - **Flink集群的构建**:搭建满足业务需求的...
- **批处理优化:** 经过优化后的Flink 批处理性能有了显著提升,能够更好地满足大规模数据处理的需求。 **滴滴出行:** - **复杂业务需求支持:** Flink 为滴滴提供了一种简单直观的API支持,帮助其解决极其复杂的...
实验8的焦点是Flink初级编程实践,涵盖了两个主要任务:开发WordCount程序以及实现数据流词频统计。以下是对这两个任务的详细说明: ...通过这样的实践,学习者可以更好地理解大数据流处理的概念和技术。
- **Flink与批处理**:对比Flink与Hadoop MapReduce等批处理框架的差异,阐述Flink如何在批处理上提供更好的性能和实时性。 - **Flink连接器和格式**:分析Flink支持的各种数据源和数据接收器,如Kafka、HDFS、...
学习这些示例,可以帮助我们更好地理解和运用Flink、Kafka以及Greenplum的集成,提升实时数据处理的能力。 总之,结合Flink的流处理能力、Kafka的实时数据传递和Greenplum的数据存储分析,我们可以构建起强大的实时...
**Dinky:基于Apache Flink的实时数据开发平台** Dinky是一个专为实时数据处理而设计的开发平台,它充分利用了Apache Flink...通过深入理解Dinky及其开发资源,开发者可以更好地利用这个平台,为企业创造更大的价值。
这些案例表明,Flink 能够很好地适应移动媒体行业的高速数据流处理需求,提供实时数据分析和决策支持。 在金融行业中,中原银行利用 Flink 进行实时金融数据湖的应用,实现了数据的快速响应和决策支持。这有助于...
PV/UV 标准化是快手实时计算场景的一部分,主要是将PV和UV数据标准化,以便更好地分析和报表。解决方案包括使用 Flink 的实时计算和流处理能力,基于 Watermark 的窗口机制,cumulate window 机制等。 DAU 计算 ...
### Flink实践手册知识点概述 #### 一、Flink的历史与发展背景 ...通过对Flink技术的全面解析,读者可以更好地理解Flink为何能成为当前最受瞩目的大数据处理引擎之一,以及如何利用Flink解决实际问题。
KLOOK客路旅行基于Apache Hudi的数据湖实践是指使用Apache Hudi构建数据湖,解决数据仓库的数据同步问题。数据湖是指将结构化和非结构化数据存储在一起,以便更好地支持数据分析和机器学习等应用。 2. 数据同步需求...
2. **窗口操作**:Flink支持多种窗口类型(如滑动窗口、会话窗口等),这些窗口操作可以帮助企业更好地理解数据趋势和模式。有赞利用窗口操作来进行用户行为分析,例如统计某个时间段内的用户活跃度。 3. **容错机制...
为了更好地处理时间序列数据,Flink引入了窗口操作的概念。窗口操作可以按时间窗口或事件窗口聚合数据,从而实现对数据流的精细化控制。 #### 4. **连接操作** Flink支持多种类型的连接操作,例如Keyed CoGroup、...
Flink版本SQL实践可以帮助开发者更好地使用Flink版本产品,进行实时计算和数据分析。包括如何使用Flink SQL来进行数据分析、如何使用Flink SQL来进行数据处理等。 五、Hologres数据导入/导出实践 Hologres数据导入...
基于 Flink 的小米数据集成实践 本文档旨在介绍基于 Flink 的小米数据集成实践,涵盖数据集成领域、数据集成产品、数据集成引擎等方面的内容。 一、发展现状 小米计算平台数据集成产品对数据采集中心、实时集成...
Apache Flink是一个开源的流处理框架,用于在高度分布式的系统中对无界和有界数据流进行有状态的计算。Flink提供了事件时间处理、精确一次的状态一致性保证以及高度灵活的窗口机制,这些特性使得Flink成为构建大规模...