`

oozie-工作流行为节点概述

 
阅读更多
Action节点是被工作流触发的计算任务

Action基础

Action任务总是在远端(相对于Oozie而言)运行,不会在Oozie运行空间运行。

Action都是异步执行的,fs action除外。

Oozie可以检测任务的完成,通过callback和polling两种方式,当任务执行时Oozie会提供一个唯一的callback URL给这个任务,这个任务当完成时,通过callback URL去通知Oozie。当任务调用callback URL失败(例如,网络瞬时不可用)或者任务完成时不能调用callback URL,Oozie有一个拉的机制;

Actions 有两个结果ok,error
如果任务执行成功后,会执行ok
如果任务执行失败后,会执行error,失败的任务会提供error-code,error-message 给Oozie
每个Action类型必须清晰的定义他可能会产生的错误

Action恢复
当Actor 开始或者结束时,失败了提供恢复运行功能
当Actor已经在运行中,会由外部系统体统恢复机制,如Hadoop 重试
如网络问题失败,或者远程系统不可用,会产生Actor恢复动作
恢复机制中的时间区间及重试次数在工作流任务中可配置
如果失败是非瞬时的,Oozie会挂起工作流任务,知道手动或编程恢复,此恢复是管理员的职责(如,外部系统清理)。
如果失败是一个错误并且重试后也不能解决此问题,Oozie会返回失败
分享到:
评论

相关推荐

    oozie-4.3.1.tar.gz

    一、Oozie概述 Oozie是一个企业级的、可扩展的工作流调度系统,它允许用户定义、调度和监控复杂的作业流程。Oozie与Hadoop紧密集成,支持多种作业类型,包括Hadoop MapReduce、Pig、Hive、Java程序以及Shell脚本等。...

    oozie使用整理

    #### 一、Oozie 概述 Oozie 是一个用于管理工作流和协调数据处理任务的开源工具,主要用于在 Hadoop 生态系统中实现复杂的工作流调度。它通过定义一系列任务及其之间的依赖关系来自动化执行大数据处理流程。 #### ...

    Centos7部署CDH6.3.2集群.doc

    ### Centos7部署CDH6.3.2集群的知识点详解 #### 一、概述 在当前的大数据处理环境中,Apache Hadoop及其生态系统是构建大数据平台的...以上步骤确保了集群内节点之间的无障碍通信,为后续的部署打下了坚实的基础。

    Hadoop单节点部署指导

    - **Oozie**:一个工作流调度系统,用于管理Hadoop中的复杂工作流程。 #### 六、总结 通过上述步骤,我们可以成功地在一个单节点上部署并配置Hadoop环境。这不仅有助于深入理解Hadoop的工作原理和技术特点,还能够...

    hadoop-2.7.3-0219101.zip

    - Oozie是工作流管理系统,用于协调Hadoop作业的执行。 五、优化与监控 - Hadoop的性能可以通过调整配置参数,如副本数量、Block大小等进行优化。 - 使用Hadoop自带的监控工具,如JMX、Web UI等,实时查看集群状态...

    Hortonworks Data Platfrom集群安装与操作文档

    ### Hortonworks Data Platform (HDP) 集群安装与操作文档 #### 一、概述 本文档旨在提供关于Hortonworks Data ...通过以上步骤,用户可以顺利完成HDP集群的部署,并为后续的数据处理和分析工作打下坚实的基础。

    Hadoop概述&集群搭建.md

    - **数据交换和工作流管理系统**:如Chukwa、Flume、Sqoop(数据导入导出工具)以及Oozie(工作流调度器)等。 #### 三、环境准备 为了搭建Hadoop集群,需要先准备好必要的软件环境。 - **安装虚拟机软件**:...

    hadoop集群自动化安装手册

    - **Oozie**: 工作流调度系统。 - **Pig**: 数据流语言和执行框架,简化复杂数据处理。 - **Sqoop**: 在Hadoop和关系型数据库间高效传输数据的工具。 ##### 1.3 主要功能 - **安装**: 提供逐步引导以安装Hadoop服务...

    Hadoop Real-World Solutions Cookbook - Second Edition

    5. **Oozie:工作流调度管理** 6. **Flume:大数据日志收集系统** 7. **Sqoop:关系型数据库与Hadoop之间的数据迁移工具** 8. **Apache Spark:快速大数据处理框架** 9. **Mahout:机器学习库的应用** #### 详细...

    分布式大数据处理架构.pptx

    - **Oozie工作流调度器**: - **功能**:编排和调度Hadoop作业。 - **特点**: - 提供可视化编辑器。 - 支持多种调度策略。 #### 三、MapReduce并行计算模型 - **Map阶段**: - **过程**: - 输入数据被拆分...

    大数据技术之Hadoop(入门).docx

    - **Oozie**:用于管理工作流和协调Hadoop作业。 - **HBase**:分布式列存储数据库,支持随机访问。 - **Hive**:数据仓库工具,提供SQL接口,方便进行数据查询和分析。 以上内容涵盖了Hadoop入门所需的基础知识和...

    hadoop快速入门

    - **定义**:分布式软件系统是指将一个应用程序分解为多个子系统或模块,这些子系统或模块分别运行在不同的物理节点上,通过网络进行通信和协作。 - **示例**:SolrCloud集群由多台Solr服务器组成,共同提供搜索服务...

    hadoop学习整理的文档

    Hadoop生态系统包括许多其他项目,如HBase(分布式NoSQL数据库)、Hive(数据仓库工具)、Pig(数据分析平台)、Oozie(工作流调度系统)、ZooKeeper(分布式协调服务)等。这些工具协同工作,为大数据处理提供完整...

    GIS_Tools_for_Hadoop使用介绍(ArcGIS与Hadoop集成)

    8. **Oozie工作流管理**:Oozie是一个用于调度Hadoop作业的工作流引擎。通过配置Oozie,可以自动执行复杂的Hadoop工作流程。 #### 实际应用案例 - **数据导入与存储**:通过ArcGIS与Hadoop的集成,可以将大量的...

    hadoop实战视频教程

    - **Oozie**:工作流调度器。 - **Tez**:下一代数据处理引擎。 3. **Hadoop应用场景**: - **数据分析**:海量数据的统计分析、用户行为分析等。 - **数据挖掘**:通过算法挖掘数据价值。 - **实时数据处理**...

    hadoop-2.7.6.zip

    Hadoop生态系统包括众多相关项目,如HBase(分布式NoSQL数据库)、Hive(数据仓库工具)、Pig(数据分析工具)、Oozie(工作流调度系统)等,它们共同构成了大数据处理的完整解决方案。 六、使用Hadoop-2.7.6注意...

    Hadoop sourcecode

    - Oozie:工作流调度系统,管理Hadoop作业的生命周期。 学习Hadoop涉及理解分布式计算概念、HDFS的工作原理、MapReduce编程模型,以及如何使用生态系统中的其他工具来解决实际问题。通常,开发者会通过阅读源代码、...

Global site tag (gtag.js) - Google Analytics