`
m635674608
  • 浏览: 5027161 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

Oozie 快速入门

 
阅读更多

oozie概述:oozie能干什么

oozie格式:怎么用oozie

oozie执行:怎么运行oozie 

 

oozie概述:

oozie是基于hadoop的调度器,以xml的形式写调度流程,可以调度mr,pig,hive,shell,jar等等。

主要的功能有

Workflow: 顺序执行流程节点,支持fork(分支多个节点),join(合并多个节点为一个)

Coordinator,定时触发workflow

Bundle Job,绑定多个coordinator

 

oozie格式:

写一个oozie,有两个是必要的:job.properties 和 workflow.xml(coordinator.xml,bundle.xml)

一、job.properties里定义环境变量

nameNode hdfs://xxx5:8020 hdfs地址
jobTracker xxx5:8034 jobTracker地址
queueName default oozie队列
examplesRoot examples 全局目录
oozie.usr.system.libpath true 是否加载用户lib库
oozie.libpath share/lib/user 用户lib库
oozie.wf.appication.path ${nameNode}/user/${user.name}/... oozie流程所在hdfs地址

注意:

workflow:oozie.wf.application.path

coordinator:oozie.coord.application.path

bundle:oozie.bundle.application.path

 

二、XML

 1.workflow:

 

Xml代码  收藏代码
  1. <workflow-app xmlns="uri:oozie:workflow:0.2" name="wf-example1">  
  2.   <start to="pig-node">  
  3.   <action name="pig-node">  
  4.       <pig>  
  5.            <job-tracker>${jobTracker}</job-tracker>  
  6.            <name-node>${nameNode}</name-node>  
  7.            <prepare>  
  8.               <delete path="hdfs://xxx5/user/hadoop/appresult" />  
  9.            </prepare>  
  10.            <configuration>  
  11.              <property>  
  12.                   <name>mapred.job.queue.name</name>  
  13.                    <value>default</value>  
  14.               <property>  
  15.              <property>  
  16.                   <name>mapred.compress.map.output</name>  
  17.                    <value>true</value>  
  18.               <property>  
  19.              <property>  
  20.                   <name>mapreduce.fileoutputcommitter.marksuccessfuljobs</name>  
  21.                    <value>false</value>  
  22.               <property>  
  23.            </configuration>  
  24.             <script>test.pig</script>  
  25.             <param>filepath=${filpath}</param>  
  26.       </pig>  
  27.        <ok to="end">  
  28.         <error to="fail">  
  29.   </action>  
  30.   <kill name="fail">  
  31.        <message>  
  32.                    Map/Reduce failed, error               message[${wf:errorMessage(wf:lastErrorNode())}]  
  33.          </message>  
  34.     </kill>  
  35.    <end name="end"/>  
  36. </workflow-app>  

 

 

2.coordinator

 

Xml代码  收藏代码
  1. <coordinator-app name="cron-coord" frequence="${coord:hours(6)}" start="${start}" end="${end}"  
  2. timezoe="UTC" xmlns="uri:oozie:coordinator:0.2">  
  3. <action>  
  4. <workflow>  
  5.    <app-path>${nameNode}/user/{$coord:user()}/${examplesRoot}/wpath</app-path>  
  6.   <configuration>  
  7.            <property>  
  8.            <name>jobTracker</name>  
  9.            <value>${jobTracker}</value>  
  10.            </property>  
  11.            <property>  
  12.            <name>nameNode</name>  
  13.            <value>${nameNode}</value>  
  14.            </property>  
  15.            <property>  
  16.            <name>queueName</name>  
  17.            <value>${queueName}</value>  
  18.        </property>  
  19.   </configuration>  
  20. </workflow>  
  21. </action>  

 注意:coordinator设置的UTC,比北京时间晚8个小时,所以你要是把期望执行时间减8小时

coordinator里面传值给workflow,example,时间设置为亚洲

Java代码  收藏代码
  1. <coordinator-app name="gwk-hour-log-coord" frequency="${coord:hours(1)}" start="${hourStart}" end="${hourEnd}" timezone="Asia/Shanghai"  
  2.                  xmlns="uri:oozie:coordinator:0.2">  
  3.             
  4.     <action>  
  5.         <workflow>  
  6.             <app-path>${workflowHourLogAppUri}/gwk-workflow.xml</app-path>  
  7.             <configuration>  
  8.                 <property>  
  9.                     <name>yyyymmddhh</name>  
  10.                     <value>${coord:formatTime(coord:dateOffset(coord:nominalTime(),-1,'HOUR'), 'yyyyMMddHH')}</value>  
  11.                 </property>  
  12.             </configuration>  
  13.         </workflow>  
  14.   </action>         
  15. </coordinator-app>  

  

 

 

3.bundle

 

Java代码  收藏代码
  1. <bundle-app name='APPNAME' xmlns:xsi='http://www.w3.org/2001/XMLSchema-instance' xmlns='uri:oozie:bundle:0.1'>   
  2.   <controls>  
  3.        <kick-off-time>${kickOffTime}</kick-off-time>  
  4.   </controls>  
  5.    <coordinator name='coordJobFromBundle1' >  
  6.        <app-path>${appPath}</app-path>  
  7.        <configuration>  
  8.          <property>  
  9.               <name>startTime1</name>  
  10.               <value>${START_TIME}</value>  
  11.           </property>  
  12.          <property>  
  13.               <name>endTime1</name>  
  14.               <value>${END_TIME}</value>  
  15.           </property>  
  16.       </configuration>  
  17.    </coordinator>  
  18.    <coordinator name='coordJobFromBundle2' >  
  19.        <app-path>${appPath2}</app-path>  
  20.        <configuration>  
  21.          <property>  
  22.               <name>startTime2</name>  
  23.               <value>${START_TIME2}</value>  
  24.           </property>  
  25.          <property>  
  26.               <name>endTime2</name>  
  27.               <value>${END_TIME2}</value>  
  28.           </property>  
  29.       </configuration>  
  30.    </coordinator>  
  31. </bundle-app>  

 

oozie hive

Java代码  收藏代码
  1. <action name="hive-app">  
  2.     <hive xmlns="uri:oozie:hive-action:0.2">  
  3.         <job-tracker>${jobTracker}</job-tracker>  
  4.         <name-node>${nameNode}</name-node>  
  5.         <job-xml>hive-site.xml</job-xml>  
  6.         <script>hivescript.q</script>  
  7.  <param>yyyymmdd=${yyyymmdd}</param>    
  8.  <param>yesterday=${yesterday}</param>  
  9.  <param>lastmonth=${lastmonth}</param>  
  10.     </hive>  
  11.     <ok to="result-stat-join"/>  
  12.     <error to="fail"/>  
  13. </action>  

  

 

 

oozie运行

启动任务:

Java代码  收藏代码
  1. oozie job -oozie http://xxx5:11000/oozie -config job.properties -run  

 

停止任务:

oozie job -oozie http://localhost:8080/oozie -kill 14-20090525161321-oozie-joe

注意:在停止任务的时候,有的时候会出现全线问题,需要修改oozie-site.xml文件

hadoop.proxyuser.oozie.groups *

hadoop.proxyuser.oozie.hosts *

oozie.server.ProxyUserServer.proxyuser.hadoop.hosts *

oozie.server.ProxyUserServer.proxyuser.hadoop.groups *

 

 http://blackproof.iteye.com/blog/1928122

分享到:
评论

相关推荐

    Hadoop快速入门

    标题《Hadoop快速入门》所指的知识点主要集中在如何快速地学习和掌握Hadoop技术,它是一个开源的分布式存储和计算框架,是大数据处理领域的重要工具。由于内容部分文字不完整且存在OCR扫描错误,以下是对Hadoop快速...

    Hue-oozie运行spark

    Hue是Cloudera开发的一个开源Web用户界面,主要用于与Hadoop...但使用时需要注意一些常见的配置和错误问题,以及对Hadoop生态系统的基本了解,这样才能确保Spark作业能够顺利运行,并在出现错误时快速定位问题所在。

    阿里云E-MapReduce-快速入门.pdf

    阿里云E-MapReduce快速入门 阿里云E-MapReduce是阿里云提供的一种大数据处理服务,基于Hadoop和Spark的分布式计算引擎,可以对大规模数据进行快速处理和分析。本资源摘要信息将指导您快速开始使用阿里云E-...

    阿里云E-MapReduce-快速入门-D.docx

    本文将详细介绍如何快速入门阿里云E-MapReduce,包括准备工作、创建集群以及集群配置等方面。 首先,要使用阿里云E-MapReduce,你需要拥有一个阿里云账号。这个账号不仅是你在阿里云生态中的身份标识,还能用于开通...

    hadoop快速入门

    ### Hadoop快速入门知识点梳理 #### 一、Hadoop概览 **1.1 Hadoop定义** - **定义**:Hadoop是Apache基金会旗下的开源软件框架,主要用于在大规模集群环境中处理和存储海量数据。 - **核心特点**:通过提供分布式...

    flink快速入门

    ### Flink快速入门知识点详解 #### 一、Apache Flink概述 **Apache Flink**是一个开源的分布式数据流处理框架,旨在提供高效的数据流处理能力,同时也能支持批处理任务。这一特性使得Flink能够在同一运行时环境中...

    Hadoop 傻瓜入门

    《Hadoop傻瓜入门》是一本旨在帮助读者快速掌握Hadoop使用技能的入门级图书,该书由IBM的大数据专家编写,内容以英文呈现,适用于希望深入研究HDFS和MapReduce技术以实现数据存储和处理能力提升的读者。本指南将从多...

    hadoop入门资料集锦

    这份"hadop入门资料集锦"包含了丰富的学习资源,可以帮助初学者快速掌握Hadoop的核心概念和技术。 一、Hadoop概述 Hadoop是Apache软件基金会开发的一个开源框架,主要用于处理和存储大量数据。它的设计思想源于...

    Hadoop、HBase、Hive、Pig、Zookeeper资料整理

    - **Hadoop-0.20.0-HDFS+MapReduce+Hive+HBase十分钟快速入门.doc**:这与前面的快速入门文档类似,可能对Hadoop的早期版本进行了快速介绍。 - **Hbase_分析报告白皮书.doc**:这可能是一份关于HBase在某个具体场景...

    Hadoop开发者入门专刊.zip

    《Hadoop开发者入门专刊》是一本专门为初学者设计的指南,旨在帮助读者快速掌握Hadoop生态系统的核心概念和技术。Hadoop是Apache软件基金会开发的一个开源框架,主要用于处理和存储大量数据,尤其适合大数据分析和...

    大数据企业级项目用户画像实战

    第六章机器学习快速入门及应用 第七章数据挖掘标签开发(Kmens算法) 第八章算法模型调优、RFE、PSM标签开发 第九章USG标签开发 第十章多数据源配置、用户商品推荐、标签索引化(ES)、用户画像项目总结

    精品课程推荐 大数据与云计算教程课件 优质大数据课程 32.Spark入门之Scala(共173页).pptx

    - **Oozie**:Oozie是Hadoop的工作流调度系统,管理Hadoop作业的生命周期。 - **Impala**:Impala是针对Hadoop的数据仓库查询系统,提供快速、交互式SQL查询。 - **Solr**:Solr是Apache的搜索服务器,支持全文...

    Hadoop开发者入门专刊

    【Hadoop开发者入门专刊】是一本专门为初学者设计的Hadoop技术指南,它整合了互联网上的精华内容,旨在帮助读者快速掌握Hadoop生态系统的基本概念和应用。这本专刊涵盖了Hadoop、HBase、Hive和HDFS等多个关键组件,...

    hadoop入门学习文档

    - **国内就业市场**:中国的大数据产业正处于快速发展阶段,尤其是一线城市如北京、上海、广州和深圳对大数据人才的需求旺盛。Hadoop 技术的掌握不仅能够增强求职者的竞争力,还能为其带来更高的薪酬待遇。 #### ...

    大数据开发入门指南:从概念到实践应用讲解.zip

    大数据开发入门指南是一份全面介绍大数据领域的文档,涵盖了从基础概念到实际应用的各个环节,旨在帮助初学者系统地理解和掌握大数据技术。以下是这份指南中可能包含的重要知识点: 1. **大数据概念**:大数据指的...

    Spark分布式内存计算框架视频教程

    3.快速入门 4.Standalone集群及HA 5.Spark 应用开发入门 6.Spark 应用提交 7.Spark on YARN 8.应用部署模式DeployMode 第二章、SparkCore 模块 1.RDD 概念及特性 2.RDD 创建 3.RDD 函数及使用 4.RDD 持久化 5.案例:...

    大数据基础面试题hadoop,zookeeper,hbase,hive,spark,kafka,flink,clickhouse

    Spark 是一个快速、通用且可扩展的大数据处理框架。它支持批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)和机器学习(MLlib)。Spark 拥有内存计算,相比 MapReduce,能显著提升数据处理速度。 ...

    精品课程推荐 大数据与云计算教程课件 优质大数据课程 29.Kafka(共30页).pptx

    10. **其他工具**:课程还提到了Sqoop用于数据导入导出,Flume用于日志收集,Oozie工作流调度,Impala进行快速查询,Solr、Lily、Titan和Neo4j等NoSQL数据库,以及Elasticsearch用于全文检索。 这些课程旨在帮助...

Global site tag (gtag.js) - Google Analytics