出处: http://guoyunsky.iteye.com/blog/1243417
cloudera里面有基于Oozie的安装,但是通过sudo apt-get install oozie的方式.其中你要将cloudera hadoop的source放入sources.list.由于我升级了最新的Ubuntu.但对应的cloudera hadoop还没有相应的版本.所以添加sources.list无法成功.网上也没什么手动安装的资料,于是我就写点吧.参考来源: http://incubator.apache.org/oozie/quick-start.html#AG_Install
Oozie依赖hadoop,tomcat,ext(可选,如果需要查看web控制界面就需要安装).我这里Hadoop版本是0.20.2,tomcat版本是tomcat6,ext是ext-2.2.同时我这里安装的Oozie版本是3.0.2
1)先下载Oozie,下载地址:https://github.com/yahoo/oozie/downloads .我的下载路径是/home/guoyun/Downloads/oozie-3.0.2-distro.tar.gz
2)下载ext-2.2.zip,下载网址: http://code.google.com/p/eas/downloads/detail?name=Ext-2.2.zip&can=2&q= .我的下载路径是/home/guoyun/Downloads/ext-2.2.zip
3)安装tomcat,但Oozie依赖于通过$CATALINA_HOME/bin/startup.sh的方式启动Tomcat,所以通过Ubuntu自带的方式安装Tomcat貌似行不通(也就是sudo apt-get install tomcat6).于是还是手动上tomcat官网下载tomcat6.我的下载路径是/home/guoyun/Downloads/apache-tomcat-6.0.33.tar.gz
4)设置环境变量
vi ~/.bashrc
将OOZIE_HOME,CATALINA_HOME设置好,比如我这里是
export OOZIE_HOME=/home/guoyun/Downloads/oozie-3.0.2
export CATALINA_HOME=/home/guoyun/Downloads/apache-tomcat-6.0.33
设置好后运行命令:source ~/.bashrc.
这里可以验证设置是否成功,输入命令:$CATALINA_HOME/bin/startup.sh,然后浏览器里输入http://localhost:8080,如果浏览器里可以看到tomcat,则表示设置成功.下一步安装OOZIE
5)安装OOZIE
输入命令:$OOZIE_HOME/bin/oozie-setup.sh -hadoop 0.20.2 ${HADOOP_HOME} -extjs /home/guoyun/Downloads/ext-2.2.zip
其中0.20.2是你机器hadoop的版本
${HADOOP_HOME}是你机器上Hadoop的安装目录,我这里也是放到环境变量里.
/home/guoyun/Downloads/ext-2.2.zip就是刚下载的ext-2.2.zip所在路径.
运行这条命令Oozie会将hadoop相关jar和oozie等拷贝到Oozie中.同时得到以下结果则代表你安装成功:
New Oozie WAR file with added 'Hadoop JARs, ExtJS library' at /home/guoyun/hadoop/oozie-3.0.2/oozie- server/webapps/oozie.war
INFO: Oozie is ready to be started
如果报 Specified Oozie WAR '/xxx/oozie.war' already contains Hadoop JAR files 这种错误则表示你到oozie.war中已经包含了hadoop-xxx.jar.如此会导致extjs也安装不进去。解决到方法是到你对应到/xxx/oozie.war中删除掉hadoop-xxx.jar再重新安装即可.
6)启动OOZIE
这里你要先确定你的Tomcat没有在运行.输入命令:
$OOZIE_HOME/bin/oozie-run.sh
之后会看到一大把的输出,同时Oozie会启动Tomcat.当你看到
2011-11-8 15:41:21 org.apache.catalina.startup.Catalina start
信息: Server startup in 7365 ms
则表示Oozie启动成功.
7)查看web控制台
输入命令:
$OOZIE_HOME/bin/oozie admin -oozie http://localhost:11000/oozie -status
相关推荐
了解Oozie的基础概念对开发者来说至关重要,基础概念包括工作流、数据管道以及动作等。 - **工作流(Workflow)**:Oozie的工作流是一系列按照指定顺序执行的Hadoop作业(如MapReduce、Pig、Hive等)的集合。 - **...
1. **Workflow**:工作流模块是Oozie的基础,它定义了一系列有序的任务节点,通过控制流节点(如start、end、kill、decision、fork、join)和动作节点(如MapReduce、Pig、Hive、Shell等)来实现任务的顺序执行和...
OLAP 查询引擎Impala、Presto、Druid、Kudu、ClickHouse、Doris如果还有时间,可以学习数据治理相关的内容,如元数据管理,数据湖等阿特拉斯、猛烈大数据基础导论大数据基础导论大数据必备技能学习注文档中涉及的...
3. **协调器(Coordinator)**:除了基础的工作流程之外,oozie_demo可能还包含了`coordinator.xml`文件,用于定义基于时间或数据触发的工作流程实例。协调器允许你根据特定的时间间隔或数据可用性来自动启动工作...
#### 一、Spark基础概念及原理 **1.1 Spark简介** Apache Spark是一款专为大规模数据处理而设计的快速通用计算引擎。它支持多种编程语言如Scala、Java、Python等,并提供了高效的数据处理能力。Spark相较于...
5. **Hadoop生态**:Hadoop生态系统还包括其他关键组件,如HBase(分布式数据库)、Hive(数据仓库工具)、Pig(数据分析平台)、Sqoop(数据导入导出工具)和Oozie(工作流调度系统)等。 6. **大数据处理流程**:...
在Oozie系统中,用户可以安装和配置服务器,并获得关于基本概念、工作流、数据管道和操作的基础知识。本书深入介绍了如何编写和配置工作流,包括工作流的启动、运行、暂停和结束。此外,还涵盖了Oozie如何处理数据...
综上所述,这个课程系列全面覆盖了大数据处理和云计算的基础,提供了深入学习和实践Hadoop生态系统的宝贵资源。Oozie作为工作流管理系统,对于优化大数据任务调度和管理至关重要,是大数据项目中不可或缺的一部分。...
对于有一定基础或热衷于研究的人来说,可以在这些基础代码上进行修改和扩展,实现其他功能。 【沟通交流】: 有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 鼓励下载和使用,并欢迎大家互相学习,共同...
- Oozie与Zookeeper:了解工作流管理系统Oozie和协调服务Zookeeper,以及它们在Hadoop生态系统中的作用。 4. YARN详解: - YARN架构:理解YARN如何作为资源管理器,分离了任务调度和资源管理,提高集群利用率。 ...
通过学习和分析`hadoop-2.0.0-cdh4.2.1`的源码,开发者可以更好地理解Hadoop的工作原理,定制化开发,或者优化Hadoop集群的性能。同时,这对于解决生产环境中遇到的问题,以及进行大数据处理的算法设计都是非常有...
“hadoop权威指南”可能是指《Hadoop: The Definitive Guide》这本书,这是学习Hadoop的权威参考资料,覆盖了Hadoop的核心组件,如HDFS(Hadoop Distributed File System)和MapReduce,以及相关的生态系统工具,如...
1. HDFS:分布式文件系统,为大数据存储提供基础。 2. MapReduce:并行计算模型,用于处理和分析存储在HDFS上的数据。 3. YARN:资源管理系统,负责调度和管理集群中的计算资源。 4. Pig, Hive, Impala:数据查询和...
大数据、云计算系统高级架构师课程学习路线图 本课程学习路线图旨在帮助学员快速掌握大数据、云计算系统高级架构师的知识和技能。该课程涵盖了 Linux基础、Hadoop核心技术、Hive数据仓库、大数据协作框架等多个方面...
这个学习计划适合有一定编程基础,尤其是Java基础的程序员,通过系统学习和实践,可以逐步掌握大数据领域的核心技术,从而进入这一领域。对于零编程基础或寻求高级进阶学习的人来说,可能并不适用。如果对大数据感...
### Hadoop基础入门知识点详解 #### 一、Hadoop概览与背景介绍 **1.1 什么是Hadoop** Hadoop是由Apache基金会维护...通过上述内容的学习,初学者可以对Hadoop有一个全面的认识,并为进一步深入学习打下坚实的基础。
Hue集成了多种Hadoop生态工具,如HDFS浏览器、Hive查询编辑器、Oozie工作流设计器等,大大降低了大数据工具的学习曲线。通过Hue,用户可以轻松地执行SQL查询、监控作业状态、管理用户权限,甚至构建复杂的ETL(提取...
- **ETL数据清洗**、**Hive、Sqoop、Flume/Oozie**:熟悉数据处理流程。 - **大数据Web工具Hue、HBase、Storm、Spark**:学习使用这些工具进行数据分析和可视化。 - **Spark核心源码剖析**、**CM 5.3.x管理**、**CDH...
Hadoop 安装 学习 入门教程 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, ...
"God-Of-BigData" 是一个专注于...通过深入学习和实践"God-Of-BigData"提供的材料,你可以系统地掌握大数据的全貌,为你的职业发展奠定坚实的基础。无论是数据工程师、数据科学家还是业务分析师,都能从中受益匪浅。