`

【赵强老师】大数据工作流引擎Oozie

阅读更多

一、什么是工作流?

工作流(WorkFlow)就是工作流程的计算模型,即将工作流程中的工作如何前后组织在一起的逻辑和规则在计算机中以恰当的模型进行表示并对其实施计算。工作流要解决的主要问题是:为实现某个业务目标,在多个参与者之间,利用计算机,按某种预定规则自动传递。下面我们以“员工请假的流程”为例,来为大家介绍什么是工作流。

这个例子包含了一个完整的员工请假流程。从“请假流程开始”,到“员工填写请假条”,再到“部门经理审批”,如果审批不通过,流程回到“员工填写请假条”;如果部门经理审批通过,则流程进入下一个节点;直到最后的流程结束。在Java中,我们可以使用一些框架帮助我们来实现这样的过程。Java的三大主流工作流引擎分别是:Shark,osworkflow,JBPM

二、什么是Oozie?

关于什么是Oozie,其实Oozie是服务于Hadoop生态系统的工作流调度工具,Job运行平台是区别于其他调度工具的最大的不同。但其实现的思路跟一般调度工具几乎完全相同。Oozie工作流通过HPDL(一种通过XML自定义处理的语言,类似JBOSS JBPM的JPDL)来构造。Oozie工作流中的Action在运程系统运行如(Hadoop,Pig服务器上)。一旦Action完成,远程服务器将回调Oozie的接口 并通知Action已经完成,这时Oozie又会以同样的方式执行工作流中的下一个Action,直到工作流中所有Action都完成(完成包括失败)。Oozie工作流提供各种类型的Action用于支持不同的需要,如Hadoop Map/Reduce,Hadoop File System,Pig,SSH,HTTP,Email,Java以及Oozie子流程。Oozie也支持自定义扩展以上各种类型的Action。

一个正常工作的Oozie系统须包含如下四个模块:Oozie Client、Oozie Server、DataBase和Hadoop集群。

  • Oozie Client可以通过Web Service API、Java API、Command line 方式向Oozie Server提交工作流任务请求。Oozie客户端可以通过REST API或者Web GUI来从Oozie服务端获取Job的日志流。通常在Client端包括工作流配置文件、工作流属性文件和工作流库。
  • Oozie Server负责接收客户端请求、调度工作任务、监控工作流的执行状态。Oozie本身不会执行具体的Job,而是将Job的配置信息发送到执行环境。
  • DataBase用于存储Bundle、Coordinator、Workflow工作流的Action信息、Job信息,记录Oozie系统信息。简单说,除了Oozie 运行日志存在本地硬盘不存在DB中,其他信息都存储到DB。
  • Hadoop集群运行Oozie工作流的实体,负责处理Oozie Server提交来的各种Job。包括HDFS、MapReduce、Hive、Sqoop等Hadoop组件提交的Job。

三、编译Oozie

  • 使用的版本信息如下
Hadoop 2.4.1
JDK 1.7
Maven 3.5.0
Oozie 4.3

 

  • 在oozie解压后的目录下,编译oozie,执行命令:

bin/mkdistro.sh -DskipTests -Dhadoop.version=2.4.1

 

注意:如果第一次安装,Maven会自动下载依赖的jar包,时间可能    会比较长。

  • 如果出现下面的错误,表示Maven的内存溢出。

设置环境变量:export MAVEN_OPTS="-Xmx512m -XX:MaxPermSize=128m"
并且重新编译。

 

  • 编译完成,成功出现以下提示。

四、安装部署Oozie

  • 解压安装包
tar -zxvf oozie-4.3.0-distro.tar.gz -C ~/training/

 

  • 设置环境变量

  • 建立MySQL数据库
create database oozie;
create user 'oozieowner'@'%' identified by 'password';              
grant all on oozie.* TO 'oozieowner'@'%'; 
grant all on oozie.* TO 'oozieowner'@'localhost' identified by 'password';

 

  • 修改文件:conf/oozie-site.xml

  • 配置oozie的web console
(*)创建目录:mkdir /root/training/oozie-4.3.0/libext
(*)将文件ext-2.2.zip和mysql的驱动上传到这个目录
(*)拷贝$HADOOP_HOME/share/hadoop/*/*.jar和$HADOOP_HOME/share/hadoop/*/lib/*.jar到Oozie的libext目录下
(*)由于hadoop和oozie自带的tomcat jar包有冲突,所以需要把冲突的jar包驱动。执行下面的命令:
      
      cd /root/training/oozie-4.3.0/libext
      mv servlet-api-2.5.jar servlet-api-2.5.jar.bak
      mv jsp-api-2.1.jar jsp-api-2.1.jar.bak
      mv jasper-compiler-5.5.23.jar jasper-compiler-5.5.23.jar.bak
      mv jasper-runtime-5.5.23.jar jasper-runtime-5.5.23.jar.bak 

 

  • 初始化oozie
(*)生成oozie web console的war包:oozie-setup.sh prepare-war
(*)初始化数据库:ooziedb.sh create -sqlfile oozie.sql -run
(*)将不同任务依赖的共享jar包上传到HDFS:
      oozie-setup.sh sharelib create -fs hdfs://hadoop111:9000

(*)修改oozie-4.3.0/oozie-server/conf/server.xml,注释掉下面的记录: 

 

  • 启动oozie和Hadoop的historyserver
oozied.sh start
mr-jobhistory-daemon.sh start historyserver

 

  • 访问URL地址:http://192.168.88.111:11000/oozie/

分享到:
评论

相关推荐

    Hadoop+Spark精选课程

    Oracle中国有限公司高级技术顾问赵强老师大数据Hadoop+Spark精选课程。Hadoop、Spark和Storm,每个人都认为他们正在做一些与这些新的大数据技术相关的事情,但它不需要很长的时间遇到相同的模式。具体的实施可能有所...

    传智播客 赵强 Oracle课件

    赵强老师在传智播客的Oracle课程是专为IT专业人士和对数据库技术感兴趣的学员设计的一系列教学资料,旨在深入浅出地讲解Oracle的核心概念、功能以及实际操作技巧。 在赵强老师的课程中,你可以学到以下几个重要的...

    赵强老师的Oracle课件

    想要好好地学习Oracle数据库的朋友呀,你错过了她就太不值得了。里面有好多的Oracle操作命令可能你都没接触过吧。好了,话不多多说。坚信资料不错!你,值得拥有!OK.还有,之所有要你2分打赏,是我给了你这么好的...

    精通JSP编程 作者赵强 编

    精通JSP编程 作者赵强 编 12-18节

    精通JSP编程 作者赵强

    《精通JSP编程》是赵强先生的一部深入解析JSP技术的专业著作,该书针对JSP编程进行了全面且深入的讲解,旨在帮助读者掌握JSP的核心概念和技术,提升Web应用开发能力。根据提供的文件名列表,我们可以推测书籍的章节...

    [1120][赵强精通JSP编程][37M]

    根据提供的文件信息,我们可以推断出这是一份与Java Server Pages (JSP)相关的学习资料介绍,特别是关于赵强编写的《精通JSP编程》这本书的相关信息。下面将基于这个理解来生成相关知识点。 ### 一、JSP基础概念 ...

    Oracle学习笔记(传智播客 赵强)

    在Oracle数据库的学习中,SQL优化是一项至关重要的技能,因为它直接影响到数据库的性能和查询效率。...在实际工作中,结合索引优化、存储过程的使用以及适当的数据库设计,可以进一步提升系统性能。

    Oracle数据库赵强视频教程【3天】

    教程名称:Oracle 数据库赵强视频教程【3天】教程目录:【】Oracle安装与管理、SQL语句(赵强)【】Orcale存储过程jdbc与Orcale大文本操作等(赵强)【】SQL简单查询触发器视图(赵强)  资源太大,传百度网盘了,链接在...

    LoadRunner性能测试巧匠训练营-完整版(带目录)-赵强邹伟伟

    学习如何使用这些组件进行测试工作流是必要的。 3. **脚本录制与回放**:LoadRunner支持多种协议,如Web HTTP/HTML、Web Services、FTP等。你需要掌握如何使用Vuser Generator录制用户操作,生成测试脚本,并了解...

    day2013-0110-webLogic配置和集群(赵强).zip

    本资料包“day2013-0110-webLogic配置和集群(赵强).zip”包含了关于WebLogic的配置与集群搭建的详细教程,旨在帮助用户深入了解WebLogic的核心功能和管理技巧。 一、WebLogic基础配置 1. 安装与启动:首先,我们...

    10天掌握MongoDB

    MongoDB是一种流行的NoSQL数据库,它以其高性能、高可用性以及易扩展的特性在现代数据库系统中占据了一席之地。本文将从NoSQL的基础概念出发,逐步深入介绍MongoDB的核心特性、架构、安装、数据操作和管理等方面的...

    java代码-46 赖赵强

    但我们可以推测,这份代码可能是赖赵强个人项目的一部分,或者是他在学习或工作中解决某个问题的代码片段。由于描述中未包含具体的技术点,我们无法直接了解其具体内容,需要通过查看实际的源代码来获取更多信息。 ...

    游戏运营策划手册.pdf

    6. **数据分析**:利用大数据工具对用户行为进行深度分析,如用户活跃度、付费率、ARPU(平均每用户收入)、LTV(生命周期总价值)等指标,以评估运营效果并指导决策。 7. **社区建设**:建立和维护玩家社区,鼓励...

    信息存储技术的发展赵强.doc

    《信息存储技术的发展》 信息存储技术,作为信息技术的基石之一,从早期的岩画、古书,到现代的半导体、磁盘、光存储,再到先进的集群存储和虚拟化技术,其发展历程见证了人类社会的巨大变革。...

    赵强_微信购物首页改版用户调研1

    微信购物首页用户调研报告主要关注了微信购物首页用户的浏览动机、痛点以及不同用户群体的行为特征。报告通过定性和定量研究方法,包括一对一深访和问卷调查,收集了大量数据,旨在理解用户需求并优化用户体验。...

    二年级数学生活中的大数赵强PPT学习教案.pptx

    这篇PPT学习教案主要针对二年级的学生,旨在教授他们在生活中如何理解和使用大数。课程以实际生活中的例子引入,帮助...在教学过程中,教师可能会引导学生进行估算、比较和排序,培养他们的逻辑思维和问题解决能力。

Global site tag (gtag.js) - Google Analytics