`

kettle配置hadoop cluster

    博客分类:
  • ETL
阅读更多

1.配置kettle支持的hadoop版本

修改data-integration\plugins\pentaho-big-data-plugin\plugin.properties中

active.hadoop.configuration=hdp23

支持的hadoop版本在data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations中列出

 

2.在kettle界面选择支持的hadoop版本

工具>Hadoop Distribution>


 

3.在Hadoop cluster配置页面填入相关信息(可参照ambari管理界面),然后点击“测试”,查看配置结果



 
 此处会碰到一些问题:

1).shim configuration verification红叉

解决办法:

将data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp23中的hadoop配置文件xml,替换为hadoop集群中的配置文件

比如core-site.xml、hbase-site.xml、mapred-site.xml、yarn-site.xml

 

2).user home directory access和verify user home permission红叉

1.(废弃)这个问题网上解决办法不多,hdfs用户为启动其进程时的用户,ambari默认用的是hdfs用户,所以需要将kettle拷贝到Hadoop的hdfs用户目录下。

我当时是在办公电脑上配置的,始终测试不通过。因为办公电脑用户不是hdfs,kettle始终用的是本机用户连接的Hadoop cluster。

 

2.在hdfs文件系统创建办公电脑的用户:

   hadoop fs -mkdir /user/用户名

 

4.测试通过后



 

 

 

  • 大小: 14.4 KB
  • 大小: 38.7 KB
  • 大小: 52.7 KB
分享到:
评论

相关推荐

    kettle集群配置需要

    在大型企业环境中,为了提高处理能力和可扩展性,Kettle可能需要配置成集群模式。在本场景中,我们关注的是如何配置Kettle以连接Oracle RAC(Real Application Clusters)集群。 Oracle RAC是一种高可用性和可伸缩...

    kettle的使用介绍

    - **4.1.5 配置Hadoop连接信息**:在Kettle中新建一个转换,在“主对象树”中选择“Hadoop cluster”,然后点击右键选择“New Cluster”,填写相关信息。 - **4.1.6 测试连接**:最后,点击“测试”按钮验证Hadoop...

    KETTLE工具的相关jar包 下载直接使用即可

    10. **其他插件库**:Kettle有一个开放的插件机制,很多社区开发的插件也会提供相应的jar包,如`pentaho-kettle-plugins-get-sql.jar`用于获取数据库表结构,`pentaho-kettle-plugins-hadoop-cluster-ui.jar`用于...

    Kettle将数据导入导Hive2

    前言  本来将数据导入到hive,但是不知道什么... 新建hadoop cluster连接  从集群里下载core-site.xml,hdfs-site.xml,yarn-site.xml,mapred-site.xml  覆盖kettle的plugins\pentaho-big-data-plugin\hadoop-co

    Kettle集群部署详解

    1. **文件准备**:首先,进入Kettle安装目录下的`pwd`文件夹,找到四个XML配置文件,其中一个是主服务器的配置文件`carte-config-master-8181.xml`。 ```xml <name>master1 <hostname>192.168.1.240 <port>...

    maven编译pentaho-big-data-plugin遇到的所有问题解决

    maven编译pentaho-big-data-plugin遇到的所有问题解决,pentaho6.0

    (完整word版)H3C大数据产品技术白皮书.doc

    - 数据ETL:利用工具如Sqoop进行关系数据库连接,Flume进行日志采集,Kettle执行ETL(提取、转换、加载)任务,实现数据的整合与预处理。 - 数据计算:MPP(Shared Nothing)架构的分布式数据库用于处理结构化数据,...

    H3C大数据产品技术白皮书.doc

    H3C大数据产品技术白皮书详尽地阐述了H3C在大数据领域的技术解决方案,主要涵盖其DataEngine产品线,包括HDP(Hadoop Distributed Platform)和MPP(Massively Parallel Processing)Cluster。该平台旨在为企业提供...

    云计算系统架构实战2

    1. **Hadoop**:Hadoop是Apache软件基金会的一个开源项目,它提供了分布式文件系统(HDFS)和MapReduce计算框架,使得大规模数据处理成为可能。 2. **NoSQL**:NoSQL(Not Only SQL)是非关系型数据库的统称,适用于...

    云计算系统架构实战1

    2. **OCFS2**:Oracle Cluster File System第二版,是一个集群文件系统,允许多台服务器访问同一文件系统,提供高可用性和负载均衡。 综上所述,《云计算系统架构实战1》深入介绍了大数据的背景、关键技术和相关...

Global site tag (gtag.js) - Google Analytics