`

kettle配置hadoop cluster

    博客分类:
  • ETL
阅读更多

1.配置kettle支持的hadoop版本

修改data-integration\plugins\pentaho-big-data-plugin\plugin.properties中

active.hadoop.configuration=hdp23

支持的hadoop版本在data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations中列出

 

2.在kettle界面选择支持的hadoop版本

工具>Hadoop Distribution>


 

3.在Hadoop cluster配置页面填入相关信息(可参照ambari管理界面),然后点击“测试”,查看配置结果



 
 此处会碰到一些问题:

1).shim configuration verification红叉

解决办法:

将data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp23中的hadoop配置文件xml,替换为hadoop集群中的配置文件

比如core-site.xml、hbase-site.xml、mapred-site.xml、yarn-site.xml

 

2).user home directory access和verify user home permission红叉

1.(废弃)这个问题网上解决办法不多,hdfs用户为启动其进程时的用户,ambari默认用的是hdfs用户,所以需要将kettle拷贝到Hadoop的hdfs用户目录下。

我当时是在办公电脑上配置的,始终测试不通过。因为办公电脑用户不是hdfs,kettle始终用的是本机用户连接的Hadoop cluster。

 

2.在hdfs文件系统创建办公电脑的用户:

   hadoop fs -mkdir /user/用户名

 

4.测试通过后



 

 

 

  • 大小: 14.4 KB
  • 大小: 38.7 KB
  • 大小: 52.7 KB
分享到:
评论

相关推荐

    kettle连接hadoop.pdf

    3. **配置Hadoop临时目录**:在Hadoop配置文件中设置临时目录位置。 4. **设置Hadoop集群信息**:包括SecondaryNameNode和NameNode服务的地址。 5. **用户权限**:如果遇到权限错误,需要在HDFS上创建对应用户的...

    使用kettle进行hadoop的mapreduce图形化开发

    使用kettle进行hadoop的mapreduce图形化开发..........

    kettle集群配置需要

    在大型企业环境中,为了提高处理能力和可扩展性,Kettle可能需要配置成集群模式。在本场景中,我们关注的是如何配置Kettle以连接Oracle RAC(Real Application Clusters)集群。 Oracle RAC是一种高可用性和可伸缩...

    kettle集群(cluster)在多个服务器上并发执行

    kettle集群(cluster)在多个服务器上并发执行 kettle集群(cluster)在多个服务器上并发执行是指通过将kettle部署在多个服务器上,实现分布式数据处理和排序的目的。这种方法可以大大提高数据处理的效率和速度,...

    Kettle简单参数化配置连接数据库

    本教程将详细介绍如何在Kettle中进行简单的参数化配置来连接数据库,以及如何通过Shell脚本来传递参数并调度Kettle作业。 首先,我们来看“Kettle简单参数化配置连接数据库”。在Kettle中,数据库连接通常需要提供...

    kettle 使用总结(包含基本应用,定义变量,hadoop,集群,资源库)

    kettle 使用总结(包含基本应用,定义变量,hadoop,集群,资源库) Kettle 是一款国外开源的 ETL 工具,纯 java 编写,可以在 Window、Linux、Unix 上运行,绿色无需安装,数据抽取高效稳定。Kettle 中有两种脚本...

    pentaho-hadoop-shims-cdh61-kar-9.1.2020.09.00-324.kar

    kettle 9.1 连接hadoop clusters (CDH 6.2) 驱动

    kettle 相关jar包

    在使用这些jar包时,通常需要将其配置到Java的类路径(Classpath)中,确保程序在运行时能够找到这些依赖。在开发或部署Kettle作业和转换时,可能还需要根据实际需求添加或调整jar包,例如,如果你的工作涉及到特定...

    kettle driver

    标题中的"kettle driver"指的是Kettle(Pentaho Data Integration,简称PDI)中的数据库驱动。...正确安装和配置这些驱动,可以确保Kettle能够无缝地与这些数据库系统进行交互,执行复杂的ETL任务。

    Kettle配置.docx

    "Kettle配置" Kettle 是一个功能强大且灵活的数据集成工具,能够满足各种数据integration需求。下面是对 Kettle 配置的详细解释: 创建数据源 在 Kettle 中,创建数据源是第一步,也是最重要的一步。创建数据源...

    Kettle运行jar及其mvn脚本及配置文件.rar

    【Kettle运行jar及其mvn脚本及配置文件.rar】是一个包含Kettle(Pentaho Data Integration,简称PDI)与Java集成所需资源的压缩包。这个包的主要目的是帮助开发者在Java项目中顺利运行Kettle作业或转换,通过Maven...

    kettle的使用介绍

    - **4.1.5 配置Hadoop连接信息**:在Kettle中新建一个转换,在“主对象树”中选择“Hadoop cluster”,然后点击右键选择“New Cluster”,填写相关信息。 - **4.1.6 测试连接**:最后,点击“测试”按钮验证Hadoop...

    kettle连接ClickHouse驱动包

    因此,当我们需要使用Kettle操作ClickHouse时,必须自定义配置和驱动程序来实现这一目标。 ClickHouse是一个高性能的列式数据库管理系统(Column-Oriented DBMS),特别适合于在线分析处理(OLAP)和大数据处理场景...

    java程序调用Kettle7.0 SAP输入组件配置

    Java 程序调用 Kettle7.0 SAP 输入组件配置 在 Kettle 7.0 版本中,SAP 输入组件作为插件形式加载,因此需要在 Java 程序中进行相应的配置和 jar 包引入,才能正确地调用 SAP 输入组件。本文将详细介绍如何在 Java ...

    Kettle配置

    ### Kettle环境配置详解 #### 一、Kettle简介与应用背景 Kettle是一款开源的数据集成工具,由Pentaho公司开发。它主要用于数据抽取、转换和加载(ETL),支持多种数据源,并且可以方便地进行数据清洗、转换等工作...

    kettle 常见问题分析

    在创建数据库连接时,可以通过Pooling选项卡配置连接池参数,如最大连接数和初始连接数,以优化性能。这样做可以减少数据库连接的开销,尤其是在处理大量并发操作时。 3. **事务处理** Kettle本身并不支持标准的...

    Kettle常用数据库连接驱动

    通过在Kettle作业或转换中配置正确的数据库连接,用户可以执行数据提取、清洗、转换和加载任务,实现数据的高效管理和分析。在实际使用中,选择合适的驱动版本取决于目标数据库的版本,以确保最佳的兼容性和性能。

    Kettle上连接HDFS,同步虚拟机上MySQL数据到HDFS

    这一过程不仅涉及到了Kettle与Hadoop之间的配置,还包含了对MySQL的权限设置以及数据同步的具体操作。掌握这些步骤对于大数据处理领域尤为重要,它可以帮助我们更有效地管理大规模数据集,提高数据处理效率。

Global site tag (gtag.js) - Google Analytics