`
gaojingsong
  • 浏览: 1183061 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
文章分类
社区版块
存档分类
最新评论

【工作流任务调度系统--Azkaban】

阅读更多

Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。

 

现有的两个工作流任务调度系统。知名度比较高的应该是Apache Oozie,但是其配置工作流的过程是编写大量的XML配置,而且代码复杂度比较高,不易于二次开发。另外一个应用也比较广泛的调度系统是Airflow,但是其开发语言是Python。

 

 

Azkaban的原因基于以下几点:

提供功能清晰,简单易用的Web UI界面

提供job配置文件快速建立任务和任务之间的依赖关系

提供模块化和可插拔的插件机制,原生支持command、Java、Hive、Pig、Hadoop

基于Java开发,代码结构清晰,易于二次开发

 

 

Azkaban有两种部署方式:solo server mode 和 cluster server mode。

solo server mode(单机模式):该模式中webServer和executorServer运行在同一个进程中,进程名是AzkabanSingleServer。可以使用自带的H2数据库或者配置mysql数据。该模式适用于小规模的使用。

cluster server mode(集群模式):该模式使用MySQL数据库,webServer和executorServer运行在不同进程中,该模式适用于大规模应用。

 

 

Azkaban2新功能:

1、Web UI

2、简单工作流上传

3、更容易设置job的依赖关系

4、调度工作流

5、权限设置

6、Kill和restart工作流

7、模块化和插件化

8、日志和设计工作流和job

0
0
分享到:
评论

相关推荐

    基于LinkedIn Azkaban的开源工作流任务调度系统Schedulis设计源码

    Schedulis工作流任务调度系统 - 基于LinkedIn Azkaban开源项目开发,包含1238个文件,如JAVA、JS、PNG、VM、PROPERTIES、SQL、XML、SH、JSON和CSS等。该系统由微众银行开发,旨在解决金融级场景下大量批量作业任务的...

    azkaban-solo-server-0.1.0-SNAPSHOT.zip

    Azkaban是一款开源的工作流调度系统,主要用于大数据处理工作流的管理和执行。它由LinkedIn开发并维护,设计目的是简化批处理作业的调度和依赖管理。本压缩包"azkaban-solo-server-0.1.0-SNAPSHOT.zip"包含了Azkaban...

    Azkaban任务调度安装配置和使用

    为了有效地管理和调度这些任务,确保数据处理流程能够顺利地按预定顺序进行,我们需要一个高效的工作流调度系统。 例如,假设某业务系统每天产生20GB的原始数据,对其处理流程如下: 1. **数据上传**:首先使用...

    azkaban-web-server

    - **工作流调度**:Azkaban支持定时执行和依赖触发两种方式,确保任务按预定顺序和时间运行。 - **监控与日志**:实时展示工作流状态,包括运行进度、成功/失败信息,同时提供详细的执行日志。 - **权限管理**:...

    azkaban-solo-server-3.33.0.tar.gz

    Azkaban是一个流行的开源工作流管理系统,主要用于调度和执行大数据处理任务,如Hadoop作业、MapReduce任务等。它提供了一种直观的方式来定义和管理复杂的依赖关系,使得数据处理流程可以自动化执行。在这个场景中,...

    azkaban-sql-script-2.5.0.tar.gz

    1. **工作流调度**:Azkaban允许用户定义一系列任务(Job)的执行顺序,形成一个工作流(Workflow)。每个任务可以是Hadoop MapReduce作业、Shell脚本、Java程序等,任务之间可以通过依赖关系进行串行或并行执行。 ...

    azkaban-3.84安装包(免编译)

    Azkaban 是一个流行的大数据工作流调度系统,尤其在Hadoop和MapReduce作业的管理中广泛应用。它为用户提供了直观的Web界面来定义、组织和执行一系列相关任务,确保大数据处理流程的顺序和依赖关系得到正确处理。在...

    Azkaban3.2调度系统部署

    Azkaban是一款开源的工作流和批处理作业调度系统,由LinkedIn开发并维护。它主要用于管理大数据处理流程,如Hadoop作业。Azkaban3.2版本提供了更稳定、高效和易用的调度服务,适用于复杂的数据处理工作流。 在部署...

    Azkaban-开源任务调度程序(使用篇).pdf

    Azkaban是一款开源的工作流任务调度系统,主要应用于大数据处理场景,用于协调和管理一系列相关任务的执行顺序。它通过定义工作流(flows)和任务(jobs)的关系,确保复杂的数据处理流程按预设的顺序和条件执行。...

    azkaban-exec-server-亲测可用

    Azkaban通过Web界面(即azkaban-web)进行工作流定义和调度,而azkaban-exec-server则负责接收和执行这些工作流任务。 在部署Azkaban执行服务器时,你需要先确保你有一个符合系统需求的Java环境,因为Azkaban是基于...

    azkaban-solo-server-0.1.0-SNAPSHOT.tar.gz

    - **调度**:可以设置定时任务,让工作流在指定的时间自动运行。 - **监控和日志**:在Web界面中,你可以查看工作流的执行状态、日志输出以及错误信息,方便调试和问题排查。 ### 注意事项 - SNAPSHOT版本通常表示...

    4、azkaban-3.51.0 通过api进行操作azkaban界面功能

    Azkaban是一个流行的工作流管理系统,常用于大数据处理任务的调度和执行。它提供了图形化的用户界面(UI)以及API接口,使得用户可以方便地创建、管理和监控工作流。本篇文章将聚焦于Azkaban 3.51.0版本中的API操作...

    azkaban-exec-server-0.1.0-SNAPSHOT.tar.gz

    调度服务器根据预定义的工作流计划触发任务,而Exec Server接收这些任务,执行并监控它们的状态。它提供了分布式任务执行的能力,支持多项目管理和并发执行。 在解压"azkaban-solo-server-0.1.0-SNAPSHOT"后,用户...

    Azkaban-3.73.1-windows.zip

    总的来说,Azkaban-3.73.1-windows.zip提供了一套完整的Azkaban部署包,适合在Windows系统上搭建和管理大数据工作流。通过理解和掌握Azkaban的组件和功能,你可以更有效地组织和自动化复杂的批处理任务,提高工作...

    azkaban-4.0.0.tar.gz

    Azkaban是一款开源的工作流执行引擎,主要用于大数据处理工作流的调度和管理。在4.0.0版本中,它提供了强大的任务调度能力,支持复杂的依赖关系,是大数据项目中的重要工具。本压缩包“azkaban-4.0.0.tar.gz”包含了...

    azkaban-solo-server-2.5.0

    总之,Azkaban Solo Server 2.5.0是一个强大的工作流管理系统,尤其适合处理大数据任务的调度。通过深入理解上述知识点,你可以有效地利用它来提升数据处理的效率和准确性。在实际操作过程中,务必参考官方文档以...

    azkaban-web-server-0.1.0-SNAPSHOT.zip

    当Web服务器调度一个工作流时,它会将任务分发到Executor上执行。Executor与Web服务器通过HTTP通信,报告执行状态。 3. **数据库**:存储工作流定义、日志、执行历史等信息。Azkaban通常使用MySQL或类似的关系型...

    azkaban-sql-server-0.1.0-SNAPSHOT.tar.gz

    总之,"azkaban-sql-server-0.1.0-SNAPSHOT.tar.gz"提供了设置Azkaban服务器所需的SQL脚本,对于部署和维护Azkaban工作流管理系统至关重要。正确地执行这些脚本将确保Azkaban能顺利地运行和管理大数据处理任务。

Global site tag (gtag.js) - Google Analytics