本月博客排行
-
第1名
龙儿筝 -
第2名
lerf -
第3名
fantaxy025025 - johnsmith9th
- zysnba
- xiangjie88
年度博客排行
-
第1名
青否云后端云 -
第2名
宏天软件 -
第3名
gashero - wy_19921005
- vipbooks
- benladeng5225
- e_e
- wallimn
- javashop
- ranbuijj
- fantaxy025025
- jickcai
- gengyun12
- zw7534313
- qepwqnp
- 解宜然
- ssydxa219
- zysnba
- sam123456gz
- sichunli_030
- tanling8334
- arpenker
- gaojingsong
- kaizi1992
- xpenxpen
- 龙儿筝
- jh108020
- wiseboyloves
- ganxueyun
- xyuma
- xiangjie88
- wangchen.ily
- Jameslyy
- luxurioust
- mengjichen
- lemonhandsome
- jbosscn
- zxq_2017
- lzyfn123
- nychen2000
- forestqqqq
- wjianwei666
- ajinn
- zhanjia
- siemens800
- Xeden
- hanbaohong
- java-007
- 喧嚣求静
- mwhgJava
最新文章列表
Oozie Coordinator使用及详解
Oozie所支持工作流,工作流定义通过将多个Hadoop Job的定义按照一定的顺序组织起来,然后作为一个整体按照既定的路径运行。一个工作流已经定义了,通过启动该工作流Job,就会执行该工作流中包含的多个Hadoop Job,直到完成,这就是工作流Job的生命周期。那么,现在我们有一个工作流Job,希望每天半夜00:00启动运行,我们能够想到的就是通过写一个定时脚本来调度程序运行。如果我们有多个 ...
驭象者之Apache Oozie
(1)Apache Oozie是什么?
Oozie在英语中的释义指的是:驯象人,驭象者(多指缅甸那边的俗称),这个比喻相对与它的功能来说,还是很恰当的。
Apache Oozie是一个用来管理Hadoop任务的工作流调度系统,是基于有向无环图的模型(DAG)。Oozie支持大多数的Hadoop任务的组合,常见的有Java MapReduce,Streaming map-reduce,Pig,Hi ...
oozie工作流相关入门整理
Oozie支持工作流,其定义通过将多个Hadoop Job的定义按照一定的顺序组织起来,然后作为一个整体按照既定的路径运行。一个工作流已经定义了,通过启动该工作流Job,就会执行该工作流中包含的多个Hadoop Job,直到完成,这就是工作流Job的生命周期。
通过最简单的一个例子来了解oozie是如何运行的,运行oozie的服务器必须能够访问HDFS,可以提交hadoop m ...
oozie报错 start time is after or equal to coordinator job's pause time
安装了CDH5.2,配置了oozie的mysql数据元存储。运行coordinator时,发现不能运行
报以下错误:
start time is after or equal to coordinator job's pause time
最后GOOGLE解决了问题:
那是oozie 的mysql表字段值有问题
解决:
change table coord_jobs co ...
关于oozie调用shell的一个例子
完成的功能,执行t.sh,并且通过workflow像t.sh传递参数
workflow.xml
<workflow-app xmlns="uri:oozie:workflow:0.4" name="shell-wf">
<start to="shell-node"/>
<action ...
Oozie使用java启动外部包
在Oozie的workflow上面调用jar包,可以有两种方式,
一种是使用shell来调用:
<action name="user_action_info_q_node">
<shell xmlns="uri:oozie:shell-action:0.2">
<job-trac ...
Oozie Java代码运行Job
相关代码:
OozieClient oozieClient = new OozieClient("http://namenode:11000/oozie");
Properties conf = oozieClient.createConfiguration();
conf.setProperty(OozieClient.APP_PATH, "hdfs://nameno ...
Oozie运行Hive
1.运行Hive需要用到hive-site.xml文件以及对应版本的hive的jar包,于是将hive-site.xml文件和当前所用hive版本下相关的jar包上传到HDFS上面。
2.修改examples/apps/hive/workflow.xml文件,主要添加对hive-site.xml配置的支持
<job-xml>${hiveSitePath}</job-xml>
...
Oozie运行Hadoop
1.解压oozie目录下的oozie-client-3.3.2.tar.gz、oozie-examples.tar.gz、oozie-sharelib-3.3.2.tar.gz
2.拷贝examples目录到HDFS上面
hadoop fs –copyFromLocal examples /user/hadoop/
3.修改oozie目录下examples/apps/map-reduce/job.p ...
Oozie安装部署
1.oozie包的下载
3.0.*版本或者之前的版本是可以离线安装的(例如oozie-3.0.2-distro.tar.gz),在往上的版本(例如
oozie-3.3.2-distro.tar.gz和oozie-4.0.0-distro.tar.gz等)都是在线安装的版本,需要用到MAVEN工具,在安装过程中可能会碰到依赖问题,可以修改相关的POM文件。
2.解压相关tar包
tar -xzvf o ...
Oozie 自动retry和跳节点运行
对于一些Job,可能是由于临时的环境依赖关系,导致的调度失败。
比如说调用远程的WebService接口,Restful接口等。
或者是同步远程数据发生网络异常,这种情况,应该予以自动重跑。
在Oozie下面,是支持这样的操作的:
<workflow-app xmlns="uri:oozie:workflow:0.3" name="wf-name ...
hadoop oozie 报错
1.oozie报异常泄露预警
关闭oozie,需要将tomcat的server.xml的jvm监听关闭
2.oozie返回执行状态bug
需要添加配置
<property>
<name>mapreduce.fileoutputcommitter.marksuccesfuljobs</name>
<value>false</ ...
关于oozie时区的设置
oozie版本:oozie-4.0.0-cdh5.0.0-beta-1
oozie默认的时区是UTC,所以我们在定时跑任务的时候,如果设置的时间是当前时间,发现JOB并不会跑起来,而是处于PREA状态。如果需要JOB按照我们的设置的时间去跑该如何设置?
我们在配置任务的时候,在coordinator.xml中,有时区的配置,默认是timezone="UTC" ...
oozie CDH4和hadoop CDH4整合出现的问题(二)
hadoop版本:hadoop-2.0.0-cdh4.3.0
oozie版本:oozie-3.3.2-cdh4.3.0
在使用上述版本的hadoop和oozie进行开发时,启动hadoop后,NN节点上的进程有NameNode,ResourceManager,DN节点的进程有DataNode,NodeManager,hadoop启动正常,在上面执行自己写的M/R程序也没问题,但是当使用oozie提 ...
oozie CDH4和hadoop CDH4整合出现的问题(一)
最近在使用oozie和hadoop进行开发
hadoop版本:hadoop-2.0.0-cdh4.3.0
oozie版本:oozie-3.3.2-cdh4.3.0
在使用oozie执行里面的例子时,
oozie在向hadoop提交任务时报出了以下错误:
Caused by: com.google.protobuf.ServiceException: java.net.ConnectEx ...