1.配置kettle支持的hadoop版本
修改data-integration\plugins\pentaho-big-data-plugin\plugin.properties中
active.hadoop.configuration=hdp23
支持的hadoop版本在data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations中列出
2.在kettle界面选择支持的hadoop版本
工具>Hadoop Distribution>
3.在Hadoop cluster配置页面填入相关信息(可参照ambari管理界面),然后点击“测试”,查看配置结果
此处会碰到一些问题:
1).shim configuration verification红叉
解决办法:
将data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp23中的hadoop配置文件xml,替换为hadoop集群中的配置文件
比如core-site.xml、hbase-site.xml、mapred-site.xml、yarn-site.xml
2).user home directory access和verify user home permission红叉
1.(废弃)这个问题网上解决办法不多,hdfs用户为启动其进程时的用户,ambari默认用的是hdfs用户,所以需要将kettle拷贝到Hadoop的hdfs用户目录下。
我当时是在办公电脑上配置的,始终测试不通过。因为办公电脑用户不是hdfs,kettle始终用的是本机用户连接的Hadoop cluster。
2.在hdfs文件系统创建办公电脑的用户:
hadoop fs -mkdir /user/用户名
4.测试通过后
相关推荐
在大型企业环境中,为了提高处理能力和可扩展性,Kettle可能需要配置成集群模式。在本场景中,我们关注的是如何配置Kettle以连接Oracle RAC(Real Application Clusters)集群。 Oracle RAC是一种高可用性和可伸缩...
- **4.1.5 配置Hadoop连接信息**:在Kettle中新建一个转换,在“主对象树”中选择“Hadoop cluster”,然后点击右键选择“New Cluster”,填写相关信息。 - **4.1.6 测试连接**:最后,点击“测试”按钮验证Hadoop...
10. **其他插件库**:Kettle有一个开放的插件机制,很多社区开发的插件也会提供相应的jar包,如`pentaho-kettle-plugins-get-sql.jar`用于获取数据库表结构,`pentaho-kettle-plugins-hadoop-cluster-ui.jar`用于...
前言 本来将数据导入到hive,但是不知道什么... 新建hadoop cluster连接 从集群里下载core-site.xml,hdfs-site.xml,yarn-site.xml,mapred-site.xml 覆盖kettle的plugins\pentaho-big-data-plugin\hadoop-co
1. **文件准备**:首先,进入Kettle安装目录下的`pwd`文件夹,找到四个XML配置文件,其中一个是主服务器的配置文件`carte-config-master-8181.xml`。 ```xml <name>master1 <hostname>192.168.1.240 <port>...
maven编译pentaho-big-data-plugin遇到的所有问题解决,pentaho6.0
- 数据ETL:利用工具如Sqoop进行关系数据库连接,Flume进行日志采集,Kettle执行ETL(提取、转换、加载)任务,实现数据的整合与预处理。 - 数据计算:MPP(Shared Nothing)架构的分布式数据库用于处理结构化数据,...
H3C大数据产品技术白皮书详尽地阐述了H3C在大数据领域的技术解决方案,主要涵盖其DataEngine产品线,包括HDP(Hadoop Distributed Platform)和MPP(Massively Parallel Processing)Cluster。该平台旨在为企业提供...
1. **Hadoop**:Hadoop是Apache软件基金会的一个开源项目,它提供了分布式文件系统(HDFS)和MapReduce计算框架,使得大规模数据处理成为可能。 2. **NoSQL**:NoSQL(Not Only SQL)是非关系型数据库的统称,适用于...
2. **OCFS2**:Oracle Cluster File System第二版,是一个集群文件系统,允许多台服务器访问同一文件系统,提供高可用性和负载均衡。 综上所述,《云计算系统架构实战1》深入介绍了大数据的背景、关键技术和相关...