安装HDFS插件
1.配置Hadoop环境变量,在/etc/profile文件末尾增加如下配置:
export HADOOP_HOME=/opt/cloudera/parcels/CDH export HADOOP_CONF_DIR=/etc/hadoop/conf.cloudera.yarn
执行命令source /etc/profile命令使其立即生效,建议退出终端重新登录,否则会在启动Azkaban Web服务找不到HADOOP_HOME问题。
2.由于CDH集群启用了Kerberos,安装HDFS插件需要使用到Kerberos账号
在KDC中创建一个azkaban/admin@FAYSON.COM 的用户,使用命令导出该用户的keytab文件放在/opt/cloudera/azkaban/目录下
xst -norandkey -k azkaban.keytab azkaban/admin@CLOUDERA.COM
3.修改CDH集群HDFS的core-stie.xml配置文件,增加azkaban代理用户
<property> <name>hadoop.proxyuser.azkaban.groups</name> <value>*</value> </property><property> <name>hadoop.proxyuser.azkaban.hosts</name> <value>*</value> </property>
安装HDFS插件
将已经编译好了HDFS的插件azkaban-hdfs-viewer-3.0.0.tar.gz拷贝至/opt/cloudera/azkaban/azkaban-web-server/plugins/viewer目录下
cp azkaban-hdfs-viewer-3.0.0.tar.gz /opt/cloudera/azkaban/azkaban-web-server/plugins/viewer/
进入plugins/views目录下解压azkaban-hdfs-viewer-3.0.0.tar.gz包并重命名为hdfs
进入hdfs/conf目录修改插件配置文件plugin.properties内容如下
viewer.name=HDFS viewer.path=hdfs viewer.order=1 viewer.hidden=false viewer.external.classpaths=extlib/* viewer.servlet.class=azkaban.viewer.hdfs.HdfsBrowserServlet hadoop.security.manager.class=azkaban.security.HadoopSecurityManager_H_2_0 azkaban.should.proxy=true proxy.user=hdfs/admin proxy.keytab.location=/opt/cloudera/azkaban/hdfs.keytab allow.group.proxy=true file.max.lines=1000
由于集群的Hadoop版本为hadoop2所以hadoop.security.manager.class需要指定为azkaban.security.HadoopSecurityManager_H_2_0
5.拷贝CDH集群中的依赖包至/opt/cloudera/azkaban/azkaban-web-server/extlib目录下
[root@ip-172-31-21-83 ~]# cd /opt/cloudera/parcels/CDH/jars/ [root@ip-172-31-21-83 jars]# scp commons-cli-1.2.jar hadoop-auth-2.6.0-cdh5.13.1.jar hadoop-common-2.6.0-cdh5.13.1.jar hadoop-hdfs-2.6.0-cdh5.13.1.jar protobuf-java-2.5.0.jar commons-configuration-1.7.jar hadoop-yarn-api-2.6.0-cdh5.13.1.jar hadoop-yarn-common-2.6.0-cdh5.13.1.jar /opt/cloudera/azkaban/azkaban-web-server/extlib/ [root@ip-172-31-21-83 jars]# scp htrace-core* protobuf-java-2.5.0.jar /opt/cloudera/azkaban/azkaban-web-server/extlib/
由于CDH集群Hadoop为2.x,所以需要将hdfs插件lib目录下的安全认证的jar包替换为2.x版本
将编译插件/root/azkaban-plugins/dist/hadoopsecuritymanager-yarn/jars目录下的azkaban-hadoopsecuritymanageryarn-3.0.0.jar包拷贝至/opt/cloudera/azkaban/azkaban-web-server/plugins/viewer/hdfs/lib/
重启Azkaban-web-server服务即可
相关推荐
Azkaban 的配置文件位于 `/opt/module/azkaban/conf` 目录下,其中包括 `azkaban.properties`、`executor.properties` 和 `web.properties` 等文件。 在 `azkaban.properties` 文件中,需要配置数据库连接信息: ``...
### Azkaban开发环境配置详解 #### 一、基础环境搭建 ##### JDK & Eclipse 配置 为了确保Azkaban开发环境能够顺利运行,首先需要完成JDK与Eclipse的基本配置。 1. **JDK环境配置** - **JDK保存地址** - 安装...
4. **配置Azkaban**:编辑`azkaban-executor-server-2.5.0`和`azkaban-web-server-2.5.0`目录下的配置文件,如`conf/azkaban.properties`,设置数据库连接信息、服务器端口等参数。 5. **启动服务**:分别启动...
- **磁盘挂载**:确保数据盘和系统盘挂载在不同的目录下,/var/log目录建议单独分区,容量建议在50G至150G之间,且需要在/etc/fstab文件中设置持久挂载。 #### 操作系统要求 CDH集群的搭建要求操作系统为RedHat或...
4. **获取安装包**:编译完成后,可以在指定目录下找到azkaban-exec-server和azkaban-web-server的安装包。 综上所述,Azkaban作为一个高效、灵活的工作流调度系统,在大数据处理领域具有广泛的应用前景。通过本文...
5. **启动服务**:在Azkaban的根目录下,使用`bin/azkaban-web-start.sh`启动Web服务器。 6. **验证运行**:访问配置的Web服务器地址,如果看到Azkaban的登录页面,说明Web服务器已成功启动。 7. **上传项目**:...
The Vagrantfile requires the plugin vagrant-triggers. To install the plugin run: $ vagrant plugin install vagrant-triggers 安装Docker的管理程序 Deis 在 vagrant,需要安装vagrant-triggers,由于网络...
`azkaban-hadoop-security-plugin-0.1.0-SNAPSHOT.tar.gz`是这个插件的编译版本,对于那些需要在安全环境中运行Azkaban的用户来说非常关键。 5. **Azkaban-DB**: Azkaban数据库用于存储工作流定义、执行历史等...
Azkaban是一个开源的工作流调度系统,用于大数据处理环境中的任务管理和调度。它能够方便地定义复杂的工作流,支持多种任务类型,如`command`、`java`等。其中,`command`类型任务通常用于执行shell命令或脚本,而`...
2. **解压服务器组件**:将`azkaban-exec-server-0.1.0-SNAPSHOT.tar.gz`和`azkaban-web-server-0.1.0-SNAPSHOT.tar.gz`解压到合适的目录,并配置相应的环境变量,如JAVA_HOME和AZKABAN_HOME。 3. **配置Azkaban**...
3. **配置Azkaban**:根据实际需求修改配置文件,如数据库连接、邮件服务器设置等。 4. **启动Azkaban**:执行启动脚本,启动Azkaban服务器。 5. **验证运行**:通过Web界面检查Azkaban是否正常运行,并测试基本...
在解压后,用户通常需要按照官方文档的指引配置环境变量,连接数据库,并启动Azkaban服务器。 使用Azkaban,IT专业人员可以构建高效的数据处理流程,提升工作效率,同时减少人为错误。对于大数据团队来说,掌握...
在构建大数据处理环境时,CM_CDH(Cloudera Manager + CDH)是一个常见的选择,它提供了一套全面的数据管理平台,集成了多种大数据服务,包括HDFS、Hadoop、HBase、Spark、Oozie、Sqoop、MapReduce(MR)、Zookeeper...
总结,DataX on Azkaban的结合是大数据环境下的一个重要实践,它充分利用了两个工具的优势,为数据同步提供了强大的服务化解决方案。对于需要处理大量数据的企业而言,这样的集成具有显著的价值,值得在实际项目中...
- 克隆完成后,会在当前目录下生成名为`azkaban`的文件夹。 2. **源码编译**: - 进入`azkaban`目录:`cd azkaban`。 - 执行编译命令:`./gradlew DistTar`。这一步会生成一系列用于部署的文件。 #### 三、...
在Windows环境下部署Azkaban时,你需要按照以下步骤进行: 1. 首先,解压这三个zip文件。 2. 安装并配置数据库,根据azkaban-db-0.1.0-SNAPSHOT.zip中的文档创建Azkaban所需的数据库和表。 3. 配置Azkaban Web...
2. **执行器插件**:定制作业执行器,以适应不同的运行环境或处理特殊任务,如分布式执行或资源限制。 3. **日志收集插件**:扩展日志收集和分析能力,例如集成ELK(Elasticsearch, Logstash, Kibana)堆栈进行实时...
在这样的背景下,我们需要理解SMTP的工作原理以及如何在Azkaban中配置它。SMTP服务器使用端口25进行通信,但某些网络环境,特别是云服务提供商,出于安全考虑可能会阻止此端口的出站连接。阿里云就是其中之一,它...
描述真实大数据集群下,azkaban调度得运维实践步骤。 特别是azkaban重启后得一些坑,例如executor在mysql中得元数据记录处理。启动步骤。