`
大涛学长
  • 浏览: 110527 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Apache Flink 为什么能够成为新一代大数据计算引擎?

阅读更多
众所周知,Apache Flink(以下简称 Flink)最早诞生于欧洲,2014 年由其创始团队捐赠给 Apache 基金会。如同其他诞生之初的项目,它新鲜,它开源,它适应了快速转的世界中更重视的速度与灵活性。

大数据时代对人类的数据驾驭能力提出了新的挑战,Flink 的诞生为企业用户获得更为快速、准确的计算能力提供了前所未有的空间与潜力。作为公认的新一代大数据计算引擎,Flink 究竟以何魅力成为阿里、腾讯、滴滴、美团、字节跳动、Netflix、Lyft 等国内外知名公司建设流计算平台的首选?

![1](https://yqfile.alicdn.com/f6557bca3713602089dfba3fe0e2cf0e8d9e8a65.jpeg)

听听 Flink 的核心贡献者们怎么说!11 月 28-30 日,Flink Forward Asia 2019,Apache Flink 核心贡献者与业界资深专家带你全方位解锁 Flink 的独特技术魅力。

惊喜环节:ASK ME ANYTHING
--------------------

提前剧透:大会现场将邀请 Apache Flink 核心贡献者们设置 Ask Me Anything 惊喜环节,Flink SQL、Runtime、Hive 等任何关于 Flink 的技术问题可以现场提问!

Flink 亲爹 Stephan 同学也可能参与现场互动哦,如果你好奇 Flink 的 logo 为什么是小松鼠就可以当面举手提问啦~

核心技术专场部分精彩议题概览
--------------

### 《将 Apache Flink 用作一体化的数据处理平台》

崔星灿,Apache Flink Committer,York University 博士后

作为新一代的流处理引擎,Apache Flink 已经广泛应用于很多实时作业场景中。我们发现它在经过近几个版本的迭代后,已经具备一些成为一体化数据处理平台的潜力,可同时用来处理动态和静态的数据,进行分布式和集中式计算,以及支持作业式和交互式任务等。

本次演讲,我们旨在向大家展示一些探索性质的尝试——将 Apache Flink 用作某一通用数据处理流程的一体化后端平台。具体而言,我们会首先介绍这一通用的数据处理流程,并简要描述它每个阶段的特点。随后,我们会详细解释如何在不触及 Flink 核心的前提下对其进行“塑造”,以满足多样化的数据处理需求。在此期间还会涉及部分对 Flink 运行机制的讲解。最后,基于将 Flink 打造成为一个真正的一体化数据处理平台这一目标,我们将对未来工作进行一些展望。

### 《Bring Cross DC and Cross Data Source SQL Engine to Apache Flink》

张韶全,腾讯 Senior Engineer

漂移计算 SuperSQL 是腾讯大数据自研的跨数据中心、跨集群、跨数据源的高性能大数据 SQL 引擎,满足对位于不同数据中心/集群的不同类型数据源的数据联邦分析/即时查询的需求。解决大数据中数据孤岛难题,降低数据使用壁垒,提升数据使用效率,最大化数据价值。

在这个演讲中,我们会介绍漂移计算 SuperSQL 项目的细节,包括:

1.  漂移计算的背景和定位
2.  漂移计算的主要技术挑战
3.  漂移计算的整体架构
4.  漂移计算的技术细节
5.  漂移计算的性能表现
6.  未来规划

### 《New Flink source API: Make it easy》

秦江杰,Apache Flink PMC,Apache Kafka PMC,阿里巴巴高级技术专家

Flink 已经拥有了丰富的 connector 生态,但是要为 Flink 创建一个生产可用的 connector 依然需要考虑包括多并发协同,一致性语义,线程模型和容错等在内的一系列问题,而其中 Source 相对于 Sink 又更为复杂。为了让用户更容易实现高质量的 connector,Flink 社区在 FLIP-27 中引入了一个新的 Flink Source API,旨在帮用户解决上述一系列复杂问题,让用户可以快速编写一个高质量的 connector。本演讲将介绍新的 Flink Source API 的设计思路以及如何利用新的 Source Connector API 快速创建一个生产可用的 Flink source connector。

### 《深入探索 Flink SQL 流批统一的查询引擎与最佳实践》

伍翀,Apache Flink Committer,阿里巴巴技术专家 
李劲松,Apache Beam Committer,阿里巴巴技术专家

Flink SQL 作为 Apache Flink 的核心模块,已经收获了越来越多用户的关注,并且以其易于使用的 API 和高性能的 SQL 引擎,在生产实践中扮演者越来越重要的角色。

该演讲将以最新发布的 Flink SQL 为切入点,分别从流处理和批处理的角度,重点分享 Flink SQL 中核心功能的技术细节和调优经验,听众将收获对 Flink SQL 更深入的理解,以及了解如何对 Flink SQL 作业进行调优。 

大会组委会还为使用 Flink、希望深度学习的开发者们精心准备了培训课程。届时,来自阿里巴巴和 Ververica 的 Flink 专家们将带领开发者开展为期一天半的深度学习。

*   Apache Flink PMC 带队,超豪华阵容,阿里巴巴及 Flink 创始团队资深技术专家担任培训讲师,为开发者培训课程制定全面学习体系。
*   课程能够满足不同学习需求,无论是入门还是进阶,开发者可根据自身基础选择课程内容,实现技术与应用能力上的积累与提升。

**课程主要大纲如下:**

*   **中阶一:Apache Flink 开发人员培训**

本课程是对想要学习构建流应用程序的 Java 和 Scala 开发人员进行的关于 Apache Flink 的实践介绍。培训将重点介绍分布式数据流、事件时间和状态等核心概念。练习将使您有机会了解以上概念在 API 中是如何被体现的,并了解如何将这些概念组合用以解决实际问题。

*   介绍流计算和 Apache Flink
*   DataStream API 的基础
*   为 Flink 开发做准备(包括练习)
*   有状态的流处理(包括练习)
*   时间、定时器和 ProcessFunction(包括练习)
*   连接多个流(包括练习)
*   测试(包括练习)

说明:不需要 Apache Flink 的相关知识。

*   **中阶二:Apache Flink 运维培训**

本课程是针对 Apache Flink 应用程序的部署和操作相关的实践性介绍。目标受众包括负责部署 Flink 应用程序和维护 Flink 集群的开发人员和运维人员。演示将重点介绍 Flink 运行中涉及的核心概念,以及用于部署、升级和监控 Flink 应用程序的主要工具。

*   介绍流计算和 Apache Flink
*   数据中心里的 Flink
*   分布式架构介绍
*   容器化部署(包括实际操作)
*   状态后端和容错(包括实际操作)
*   升级和状态迁移(包括实际操作)
*   指标(包括实践)
*   容量规划

说明:不需要对 Apache Flink 有先验知识。

*   **中阶三:SQL 开发人员培训**

Apache Flink 支持 SQL 作为流处理和批处理的统一 API。SQL 可以用于各种各样的场景,并且相比使用 Flink 的底层 API,SQL 将更容易构建和维护。在本次培训中,您将学习到如何充分发挥使用 SQL 来编写 Apache Flink 作业的潜力。我们将研究流式 SQL 的不同案例,包括连接流数据、维表关联、窗口聚合、维护物化视图,以及使用 MATCH RECOGNIZE 子句进行模式匹配(这是 SQL 2016 新提出的标准)。

*   介绍 SQL on Flink
*   使用 SQL 查询动态表
*   连接动态表
*   模式匹配与 match\_recognition
*   生态系统&写外部表

说明:不需要 Apache Flink 的先验知识,但是需要基本的 SQL 知识。

*   **高阶:Apache Flink 调优和问题排查**

在过去的几年中,我们与许多 Flink 用户合作沟通期间了解到许多将流计算作业从早期 PoC 阶段慢慢过渡到生产过程中最常见的挑战。在此次培训中,我们将集中精力介绍这些挑战,并且帮助大家一起消除它。我们将提供一个有用的故障诊断工具集,并介绍例如监控、水印、序列化、状态后端等领域的最佳实践和技巧。在实践课程的间隙中,参与者将有机会使用新学习到的知识来解决一些异常 Flink 作业表现出来的问题。同时,我们也将归纳那些使作业没有进展或吞吐量没有达到预期,或作业延迟的常见原因。

*   时间和水印
*   状态处理和状态后端
*   Flink 的容错机制
*   检查点和保存点
*   DataStream API 和 ProcessFunction。

培训系列课程为精品小班教学,数量有限,预约满额将关闭入口,有相关培训需求的同学可尽早预约。详细说明:

*   参加培训请选择购买 VIP 套票。中阶培训购买 VIP 套票 1,高阶培训购买 VIP 套票 2。
*   VIP 套票 1 可参与中阶所有课程,VIP 套票 2 可参与包括高阶、中阶培训在内的所有课程。

如果你也好奇 Flink 未来的主要探索方向,如何利用 Flink 将大数据、算力推到极致,Flink 有哪些新场景、新规划以及最佳实践等话题,来现场吧!相信这群来自一线的技术专家们,一定会刷新你对 Apache Flink 的认知。

 

 

 

[原文链接](https://yq.aliyun.com/articles/726241?utm_content=g_1000087746)

本文为云栖社区原创内容,未经允许不得转载。
分享到:
评论

相关推荐

    大数据实时计算Flink SQL解密

    本次分享主要围绕阿里巴巴内部孵化的新一代实时计算引擎Blink及其SQL层Flink SQL进行展开。Blink项目是基于Apache Flink进行大量改进与增强的结果,旨在提供更加强大、稳定且易用的数据流处理能力。随着Flink SQL的...

    不仅仅是流计算ApacheFlink实践完整PDF最新版本

    Apache Flink,作为业界公认的顶级流计算引擎,其计算能力不仅限于流处理。实际上,Apache Flink被定位为一个多功能的大数据引擎,集成了流处理、批处理以及机器...3. Spark与Flink:下一代大数据计算引擎的竞争 4. 5分

    新一代计算引擎之Flink.zip

    标题中的“新一代计算引擎之Flink”指的是Apache Flink,一个开源的流处理和批处理系统,被广泛应用于大数据分析领域。Flink以其强大的实时数据处理能力、低延迟和高吞吐量而闻名,它旨在提供高效、容错的数据流处理...

    flink大数据技术(java)

    Flink作为新一代大数据处理框架,凭借其卓越的性能、可扩展性和易用性,在大数据处理领域展现出巨大的潜力。无论是对于企业还是个人开发者而言,掌握Flink技术都是未来发展的重要方向之一。随着技术的不断进步和完善...

    阿里新一代实时计算引擎Blink技术解密.zip

    阿里新一代实时计算引擎Blink是阿里巴巴自主研发的高性能、低延迟的流处理系统,它在大数据领域扮演着重要的角色。Blink起源于Apache Flink,但经过阿里集团内部的深度优化和扩展,它不仅具备了更强大的功能,还解决...

    2022大数据计算架构实践资料合集-共47份.zip

    Flink Table Store:流批一体存储 Apache Doris 极速1.0版本解析与未来规划 Flink CDC 如何加速海量数据的实时集成 一站式实时数仓的建设经验...通用分布式计算引擎 Ray Akulaku 智能计算系统及应用 ……等等47份。

    Flink 流批一体的技术架构以及在阿里 的实践.pdf

    阿里巴巴在选择 Flink 作为新一代大数据引擎时也坚定不移的在贯彻这一目标。在我们的内部版本 Blink 中,我们使用了 SQL 作为流批一体的统一入口,并且在流计算和批处理上都做了大量的优化。流批一体也开始真正的...

    大数据和人工智能计算-阿里王绍翾.pdf

    - **Blink 2.0**: 新一代统一的高性能计算引擎,旨在解决各种计算需求。 ### 总结 本文档介绍了大数据和人工智能计算领域的关键技术概念和应用场景。通过对批计算、流计算以及交互式分析等不同计算类型的探讨,...

    Flink Forward Asia 2021PPT合集(79份).zip

    Flink 新一代流计算和容错 - 阶段总结和展望 基于AIFlow的机器学习工作流最佳实践 Flink在B站的多元化探索与实践 快手实时数仓保障体系研发实践 Flink 数据流的实践 为实时机器学习设计的算法接口与迭代引擎 Mars on...

    大数据架构师视频

    - **YARN(Yet Another Resource Negotiator)**:新一代资源管理器,支持多种计算框架。 #### 数据仓库与数据湖 - **Hive**:基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为表并提供简单的SQL查询功能。...

    大数据分系统设计方案.docx

    3. 图计算引擎阿里云图计算引擎(Graph Compute,简称 GCS)是新一代一站式图数据管理和分析平台,支持图数据建模、导入和修改、支持 Apache TinkerPop 标准 Gremlin 语言进行图查询,并支持常见图分析算法,具有...

    大数据开发资源文件.zip

    Hadoop作为开源大数据处理框架,是大数据生态系统中的关键组件,由HDFS(分布式文件系统)和MapReduce(并行计算模型)构成基础,而Spark、Flink等新一代计算引擎则提供了更高效的数据处理能力。 三、大数据存储 ...

    Flink Streaming 在滴滴的大规模生产_罗江宇@滴滴出行.pdf

    随着业务的快速发展,对实时数据分析的需求日益增长,原有的Storm和JStorm等小规模集群已无法满足需求,因此,滴滴选择了Apache Flink作为其新一代的实时处理引擎。 Flink Streaming平台化的首要目标是降低使用门槛...

    分布式环境下大规模维表关联技术优化.docx

    第一代大数据计算引擎以Apache Hadoop和MapReduce为代表,采用基于物理存储的计算模式,虽然具有高吞吐量,但因为每次计算都需要写回磁盘,导致较高的延迟,适合离线批处理任务。 第二代计算引擎以Apache Spark为主...

    大数据学习大纲

    2. Spark:新一代的大数据处理引擎,比MapReduce更高效,支持批处理、流处理和图计算。 3. Flink:实时数据处理框架,提供低延迟、高吞吐的流处理能力。 4. Hive:基于Hadoop的数据仓库工具,简化了对大规模数据集的...

    国产开源优秀新一代MPP数据库StarRocks入门之旅-数仓新利器(中).doc

    StarRocks 是新一代极速全场景 MPP 数据库,充分吸收关系型 OLAP 数据库和分布式存储系统在大数据时代的优秀研究成果,进一步改进优化、升级架构,并增添了众多全新功能,形成了全新的企业级产品。 StarRocks 架构...

    (完整版)大数据平台简介.ppt

    5. Spark:Spark是一个新一代的大数据处理计算引擎,支持实时数据处理和机器学习。Spark可以与Hadoop集群集成,使用HDFS存储数据,并使用YARN管理计算资源。 6. HBase:HBase是一个分布式NoSQL数据库,用于存储大...

    PPT集萃:20位Hadoop专家分享大数据技术工具与最佳实践

    8. **未来趋势**:专家可能会讨论Hadoop和大数据领域的最新发展,如Kafka、Flink等新一代流处理框架,以及云原生大数据解决方案,如AWS EMR、Google Cloud Dataflow等。 9. **安全性与隐私**:在大数据处理中,数据...

    Hadoop权威指南(第2版).pdf

    随着技术的演进,出现了如Apache Spark、Apache Flink等新一代的分布式计算框架,它们在某些方面弥补了Hadoop的不足,并且对实时计算、流处理等应用有着更优的支持。 需要注意的是,虽然本回答提供了关于Hadoop的...

Global site tag (gtag.js) - Google Analytics