kettle配置hadoop cluster - 知识汇总 - ITeye博客

`

zsg86

浏览: 37372 次
性别:
来自: 北京

最近访客更多访客>>

xmy20051643

xklc

l1012384516

zlf3865072

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

kettle配置hadoop cluster

博客分类：

ETL

阅读更多

1.配置kettle支持的hadoop版本

修改data-integration\plugins\pentaho-big-data-plugin\plugin.properties中

active.hadoop.configuration=hdp23

支持的hadoop版本在data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations中列出

2.在kettle界面选择支持的hadoop版本

工具>Hadoop Distribution>

3.在Hadoop cluster配置页面填入相关信息（可参照ambari管理界面），然后点击“测试”，查看配置结果

此处会碰到一些问题：

1）.shim configuration verification红叉

解决办法：

将data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp23中的hadoop配置文件xml，替换为hadoop集群中的配置文件

比如core-site.xml、hbase-site.xml、mapred-site.xml、yarn-site.xml

2）.user home directory access和verify user home permission红叉

1.（废弃）这个问题网上解决办法不多，hdfs用户为启动其进程时的用户，ambari默认用的是hdfs用户，所以需要将kettle拷贝到Hadoop的hdfs用户目录下。

我当时是在办公电脑上配置的，始终测试不通过。因为办公电脑用户不是hdfs，kettle始终用的是本机用户连接的Hadoop cluster。

2.在hdfs文件系统创建办公电脑的用户：

hadoop fs -mkdir /user/用户名

4.测试通过后

查看图片附件

分享到：

kettle导数据造成Postgresql锁表 | Java 应用性能调优实践

2017-09-28 10:15
浏览 4350
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

kettle连接hadoop.pdf: 3. **配置Hadoop临时目录**：在Hadoop配置文件中设置临时目录位置。 4. **设置Hadoop集群信息**：包括SecondaryNameNode和NameNode服务的地址。 5. **用户权限**：如果遇到权限错误，需要在HDFS上创建对应用户的...

使用kettle进行hadoop的mapreduce图形化开发: 使用kettle进行hadoop的mapreduce图形化开发..........

kettle集群配置需要: 在大型企业环境中，为了提高处理能力和可扩展性，Kettle可能需要配置成集群模式。在本场景中，我们关注的是如何配置Kettle以连接Oracle RAC（Real Application Clusters）集群。 Oracle RAC是一种高可用性和可伸缩...

kettle集群（cluster）在多个服务器上并发执行: kettle集群（cluster）在多个服务器上并发执行 kettle集群（cluster）在多个服务器上并发执行是指通过将kettle部署在多个服务器上，实现分布式数据处理和排序的目的。这种方法可以大大提高数据处理的效率和速度，...

Kettle简单参数化配置连接数据库: 本教程将详细介绍如何在Kettle中进行简单的参数化配置来连接数据库，以及如何通过Shell脚本来传递参数并调度Kettle作业。首先，我们来看“Kettle简单参数化配置连接数据库”。在Kettle中，数据库连接通常需要提供...

kettle 使用总结（包含基本应用，定义变量，hadoop,集群，资源库）: kettle 使用总结（包含基本应用，定义变量，hadoop，集群，资源库） Kettle 是一款国外开源的 ETL 工具，纯 java 编写，可以在 Window、Linux、Unix 上运行，绿色无需安装，数据抽取高效稳定。Kettle 中有两种脚本...

pentaho-hadoop-shims-cdh61-kar-9.1.2020.09.00-324.kar: kettle 9.1 连接hadoop clusters (CDH 6.2) 驱动

kettle 相关jar包: 在使用这些jar包时，通常需要将其配置到Java的类路径（Classpath）中，确保程序在运行时能够找到这些依赖。在开发或部署Kettle作业和转换时，可能还需要根据实际需求添加或调整jar包，例如，如果你的工作涉及到特定...

kettle driver: 标题中的"kettle driver"指的是Kettle（Pentaho Data Integration，简称PDI）中的数据库驱动。...正确安装和配置这些驱动，可以确保Kettle能够无缝地与这些数据库系统进行交互，执行复杂的ETL任务。

Kettle配置.docx: "Kettle配置" Kettle 是一个功能强大且灵活的数据集成工具，能够满足各种数据integration需求。下面是对 Kettle 配置的详细解释：创建数据源在 Kettle 中，创建数据源是第一步，也是最重要的一步。创建数据源...

Kettle运行jar及其mvn脚本及配置文件.rar: 【Kettle运行jar及其mvn脚本及配置文件.rar】是一个包含Kettle（Pentaho Data Integration，简称PDI）与Java集成所需资源的压缩包。这个包的主要目的是帮助开发者在Java项目中顺利运行Kettle作业或转换，通过Maven...

kettle的使用介绍: - **4.1.5 配置Hadoop连接信息**：在Kettle中新建一个转换，在“主对象树”中选择“Hadoop cluster”，然后点击右键选择“New Cluster”，填写相关信息。 - **4.1.6 测试连接**：最后，点击“测试”按钮验证Hadoop...

kettle连接ClickHouse驱动包: 因此，当我们需要使用Kettle操作ClickHouse时，必须自定义配置和驱动程序来实现这一目标。 ClickHouse是一个高性能的列式数据库管理系统（Column-Oriented DBMS），特别适合于在线分析处理（OLAP）和大数据处理场景...

java程序调用Kettle7.0 SAP输入组件配置: Java 程序调用 Kettle7.0 SAP 输入组件配置在 Kettle 7.0 版本中，SAP 输入组件作为插件形式加载，因此需要在 Java 程序中进行相应的配置和 jar 包引入，才能正确地调用 SAP 输入组件。本文将详细介绍如何在 Java ...

Kettle配置: ### Kettle环境配置详解 #### 一、Kettle简介与应用背景 Kettle是一款开源的数据集成工具，由Pentaho公司开发。它主要用于数据抽取、转换和加载（ETL），支持多种数据源，并且可以方便地进行数据清洗、转换等工作...

kettle 常见问题分析: 在创建数据库连接时，可以通过Pooling选项卡配置连接池参数，如最大连接数和初始连接数，以优化性能。这样做可以减少数据库连接的开销，尤其是在处理大量并发操作时。 3. **事务处理** Kettle本身并不支持标准的...

Kettle常用数据库连接驱动: 通过在Kettle作业或转换中配置正确的数据库连接，用户可以执行数据提取、清洗、转换和加载任务，实现数据的高效管理和分析。在实际使用中，选择合适的驱动版本取决于目标数据库的版本，以确保最佳的兼容性和性能。

Kettle上连接HDFS，同步虚拟机上MySQL数据到HDFS: 这一过程不仅涉及到了Kettle与Hadoop之间的配置，还包含了对MySQL的权限设置以及数据同步的具体操作。掌握这些步骤对于大数据处理领域尤为重要，它可以帮助我们更有效地管理大规模数据集，提高数据处理效率。

Global site tag (gtag.js) - Google Analytics