`

oozie-深入探讨工作流

 
阅读更多

一个工作流应用主要是靠DAG来协调actions,如M/R、Pig、子工作流等;

流程控制,是通过decision、fork 和 join来控制的,循环工作流目前Oozie还不支持;

Actions 和 decisions 可以通过任务的属性文件来传递参数,如actions 输入/输出.通过${VARS}来访问属性文件定义的参数;

一个工作流应用是一个ZIP格式的文件,ZIP文件中包含了工作流定义(XML 文件)、Jars、等应用要用到的资源;

要运行工作流任务,通过oozie命令来提交任务;

监控工作流运行情况,可以通过WEB Console、命令行工具、及WebService API 或Java API;

当提交M/R,JobConf类用到的配置参数,都需要在工作流中定义,在配置中要指定mapper,reducer(combiner),output key , output value 等hadoop 配置文件属性;

工作流的状态包括: PREP , RUNNING , SUSPENDED , SUCCEEDED , KILLED and FAILED ;

如果action启动失败,Oozie会根据失败类型进行重试;

Oozie可以支持HTTP 回掉通知,在action开始/结束/失败事件及工作流结束/失败事件;

如果工作流任务失败,工作流任务会重新提交,会跳过已经完成的actions。重新提交工作流时,开发者可以更新补丁;
分享到:
评论

相关推荐

    oozie-4.3.1.tar.gz

    本文将深入探讨Oozie 4.3.1版本的源码,解析其核心功能,并提供编译安装的详细步骤,旨在帮助开发者更好地理解和运用这一强大的工作流管理工具。 一、Oozie概述 Oozie是一个企业级的、可扩展的工作流调度系统,它...

    oozie配置文件

    下面我们将深入探讨Oozie的配置文件及其重要性。 1. **oozie-site.xml**: 这是Oozie的主要配置文件,包含所有Oozie服务器的设置和参数。它定义了Oozie服务器的行为,例如数据库连接信息(JDBC URL,用户名和密码)...

    extjs2.2 oozie可以使用的 1积分

    在本篇文章中,我们将深入探讨这两个技术以及它们之间的结合。 **ExtJS 2.2** ExtJS是一个基于JavaScript的富客户端框架,专用于构建功能丰富的、交互性强的Web应用程序。在版本2.2中,它提供了大量的UI组件,如...

    工作流技术基础选题说明书_407108741.docx

    学生们将深入理解Oozie的建模语言,研究如何定义和执行工作流,以及如何将其扩展以支持Cassandra作业的调度。这涵盖了工作流的生命周期管理,包括作业依赖关系的处理和调度策略的实施。 Petri网是一种强大的模型,...

    调度器GUI调研(Azkaban&Oozie&Airflow)

    本文将深入探讨三个流行的调度器——Azkaban、Oozie和Airflow的图形用户界面(GUI)设计,以理解它们的功能特性和用户交互方式。 1. Azkaban Azkaban以其简洁而美观的界面著称,所有的配置操作都在弹出框中完成。其...

    尚硅谷大数据技术之azkaban1

    本文将深入探讨Azkaban,一个由LinkedIn开发的批量工作流任务调度器,以及其在大数据环境中的应用。 **1.1 Azkaban是什么?** Azkaban是一个轻量级的工作流调度系统,它通过简单的key-value对配置方式定义任务依赖...

    Hadoop Real-World Solutions Cookbook - Second Edition

    书中不仅涵盖了Hadoop 2.x及其核心组件YARN的深入讲解,还详细探讨了Hive、Pig、Oozie、Flume、Sqoop、Apache Spark和Mahout等工具的实际应用场景和最佳实践。对于希望深入了解和掌握Hadoop生态系统的开发者来说,...

    Hadoop大数据开发实战-代码.rar

    7. Oozie工作流管理:Oozie是Hadoop的工作流调度系统,用于协调Hadoop作业。代码可能涉及创建工作流XML配置文件,定义任务间的依赖关系。 8. Zookeeper协调服务:Zookeeper是分布式协调服务,用于集群管理和数据...

    Hadoop实战

    - Oozie:工作流调度系统,管理Hadoop作业和其他计算框架的作业。 4. Hadoop实战: - 数据上传与下载:如何使用Hadoop命令行工具将数据导入HDFS,以及如何从HDFS中提取数据。 - MapReduce编程:编写Java ...

    基于Hadoop的大数据应用分析.rar

    - Oozie:工作流调度系统,管理Hadoop作业和协调其他系统任务。 5. 性能优化: - YARN(Yet Another Resource Negotiator):Hadoop 2.x引入的新资源管理系统,提升了集群资源利用率和性能。 - Spark:作为更...

    hadoopon-model-for-network-ids-开发笔记

    6. Oozie, ZooKeeper:工作流管理和集群协调服务。 【压缩包子文件的文件名称列表】:cnn-bi-lstm-attention-model-for-network-ids-master (79).zip 这个文件名暗示了NIDS模型采用了深度学习方法,具体包括卷积...

    hadoop笔记

    - Oozie:工作流管理系统,协调Hadoop作业的执行。 - ZooKeeper:分布式协调服务,管理配置信息、命名服务等。 五、Hadoop实际应用 Hadoop广泛应用于互联网行业的日志分析、推荐系统、用户行为分析、广告定向投放等...

    深入理解hadoop第二版 高清 带完整书签

    此外,本书还会涵盖Hadoop生态系统中的其他关键组件,如HBase(一种分布式列式数据库)、Hive(一个数据仓库工具,用于查询和管理大型数据集)、Pig(一个用于分析大数据的平台)、Oozie(工作流调度系统)和...

    精品课程推荐 大数据与云计算教程课件 优质大数据课程 32.Spark入门之Scala(共173页).pptx

    - **Oozie**:Oozie是Hadoop的工作流调度系统,管理Hadoop作业的生命周期。 - **Impala**:Impala是针对Hadoop的数据仓库查询系统,提供快速、交互式SQL查询。 - **Solr**:Solr是Apache的搜索服务器,支持全文...

    云计算第三版精品课程配套PPT课件含习题(31页)第6章 Hadoop 2.0 大家族(二).pptx

    6.5 Oozie:Oozie是工作流调度系统,用于管理和调度Hadoop作业和其他类型的计算任务。 6.6 Flume:Flume是一种分布式、可靠且可用的服务,用于高效地收集、聚合和移动大量日志数据。 6.7 Mahout:Mahout是机器学习...

    云计算第三版精品课程配套PPT课件含习题(33页)第6章 Hadoop 2.0 大家族(四).pptx

    Oozie是Hadoop工作流调度管理系统,用于协调Hadoop作业,包括MapReduce、Pig、Hive、Sqoop等。 6.7 Flume Flume的核心思想是数据流,它主要用于收集、聚合和传输大规模日志数据。Flume由Source、Channel和Sink三...

    hadoop权威指南 第三版 英文版

    - 在Oozie中运行简单的MapReduce工作流。 - **HDFS增强**: - 高可用性(HA)支持。 - 联邦特性。 - WebHDFS和HttpFS文件系统介绍。 - **生态工具更新**:Pig、Hive、Sqoop 和 ZooKeeper 等生态工具的最新版本...

    Professional Hadoop Solutions.pdf

    Oozie是Hadoop的一个工作流调度系统,这部分内容将介绍如何使用Oozie来组织和调度Hadoop作业的执行,包括MapReduce作业和其他Hadoop作业类型。 第八章“实时Hadoop”探讨了如何在Hadoop上实现流数据处理。随着数据...

    大数据架构之探讨

    Oozie是工作流调度系统,用于管理Hadoop生态系统中的工作流程,支持Hadoop作业、Pig脚本、Hive查询、Java程序等的调度。 Spark是本文的重点,它是一个快速、通用且可扩展的大数据处理引擎。Spark提供了内存计算,...

Global site tag (gtag.js) - Google Analytics