原创文章,转载请注明出处:http://qq85609655.iteye.com/blog/2109124
最近,hadoop升级到了最新的2.4版本
使用ambari 部署完毕后。
使用开源的ETL工具Kettle,最新的版本是5.1
下载地址:http://jaist.dl.sourceforge.net/project/pentaho/Data%20Integration/5.1/pdi-ce-5.1.0.0-752.zip
最新的版本已经包含了hadoop的版本,不过是2.2.0的版本,这里存在版本冲突。尤其是MR2的
org.apache.hadoop.mapreduce.JobCounter.MB_MILLIS_MAPS等枚举属性多了,导致兼容问题的存在。。。
这里主要将,如何解决
首先对拷贝一致的版本包
cp /usr/lib/hadoop/hadoop-*[0-9].jar ${KETTLE_HOME}/plugins/pentaho-big-data-plugin/hadoop-configurations/hdp20/lib/client cp /usr/lib/hadoop-hdfs/hadoop-*[0-9].jar ${KETTLE_HOME}/plugins/pentaho-big-data-plugin/hadoop-configurations/hdp20/lib/client cp /usr/lib/hadoop-mapreduce/hadoop-*[0-9].jar ${KETTLE_HOME}/plugins/pentaho-big-data-plugin/hadoop-configurations/hdp20/lib/client cp /usr/lib/hadoop-yarn/hadoop-*[0-9].jar ${KETTLE_HOME}/plugins/pentaho-big-data-plugin/hadoop-configurations/hdp20/lib/client
拷贝一致的版本,同时删除hadoop-*2.2.0.2.0.6.0-76.jar的包
rm -f ${KETTLE_HOME}/plugins/pentaho-big-data-plugin/hadoop-configurations/hdp20/lib/client/hadoop-*2.2.0.2.0.6.0-76.jar
拷贝配置文件
cd /etc/hadoop/conf cp core-site.xml ${KETTLE_HOME}/plugins/pentaho-big-data-plugin/hadoop-configurations/hdp20 cp hdfs-site.xml ${KETTLE_HOME}/plugins/pentaho-big-data-plugin/hadoop-configurations/hdp20 cp mapred-site.xml ${KETTLE_HOME}/plugins/pentaho-big-data-plugin/hadoop-configurations/hdp20 cp yarn-site.xml ${KETTLE_HOME}/plugins/pentaho-big-data-plugin/hadoop-configurations/hdp20
到了这一步,基本上就完成了,执行Kettle的job试试。
发现报错
这个什么原因,查询是包${KETTLE_HOME}/plugins/pentaho-big-data-plugin/hadoop-configurations/hdp20/lib/client/hadoop-yarn-common-2.4.0.2.1.2.1-471.jar这个包不存在方法,可是通过反编译,明明存在呀。
百思不得其解,原来万恶的windows补丁造成的,这个补丁被先加载。。。
rm -f ${KETTLE_HOME}/plugins/pentaho-big-data-plugin/hadoop-configurations/hdp20/lib/hadoop2-windows-patch-01092014.jar
再尝试下,OK,完美!
相关推荐
Kettle,全称为Pentaho Data Integration(PDI),是一个开源的数据集成工具,它提供了图形化的界面来设计、运行和监控数据转换任务。Kettle5.1是该工具的一个版本,其源码对于理解Kettle的工作原理、进行二次开发...
PDI Kettle 最佳实践是对Pentaho Data Integration(PDI)中Kettle工具应用的高级指导,旨在帮助用户更高效地完成ETL(提取、转换和加载)任务。PDI Kettle是Pentaho套件中用于ETL的组件,广泛应用于数据整合、数据...
PDI,全称为Pentaho Data Integration,原名为Kettle,是一款强大的开源ETL(Extract-Transform-Load)工具。它的目标是实现数据的提取、转换和加载,以统一格式促进数据的捕获、清理和存储。PDI由多个组件构成,...
PDI Kettle 9.6.0.0 版本是通过源码编译得到的,这意味着用户可以自定义配置和优化,以适应特定的项目需求或环境。源码编译使得开发者能够深入理解内部工作原理,从而更好地调试和定制功能。 **2. Spoon客户端** ...
Kettle,全称为Pentaho Data Integration(PDI),是一款强大的ETL(Extract, Transform, Load)工具,常用于数据整合、清洗和迁移。在大型企业环境中,为了提高处理能力和可扩展性,Kettle可能需要配置成集群模式。...
PDI 9.4 下载地址: https://www.hitachivantara.com/en-us/products/pentaho-platform/data-integration-analytics/pentaho-community-edition.html https://sourceforge.net/projects/pentaho/
pentaho kettle PDI 9.2下载
Kettle工具pdi-ce-9.1最新版百度网盘下载,CSDN上传有大小限制,
Kettle,全称为Pentaho Data Integration(PDI),是一款强大的ETL(Extract, Transform, Load)工具,用于数据整合和迁移。它以其图形化的界面、灵活的数据处理能力和跨平台的特性深受用户喜爱。在9.2这个版本中,...
标题中的“利用PDI(Kettle)构造数据”指的是使用Pentaho Data Integration(PDI),也常被称为Kettle,来处理和转换数据的过程。PDI是一个开源的数据集成工具,它提供了一个图形化的界面,用于设计、执行和监控数据...
Kettle,又称为Pentaho Data Integration(PDI),是一个强大的开源ETL工具,以其灵活性和易用性受到广泛欢迎。本教程将详细介绍如何在Kettle中进行简单的参数化配置来连接数据库,以及如何通过Shell脚本来传递参数...
《Kettle(PDI)4.3源码编译与补充jar详解》 Kettle(PDI,也称为Spoon)是一款强大的数据集成工具,它允许用户通过图形化界面进行ETL(Extract, Transform, Load)操作。在4.3版本中,开发者可能会遇到在以Java ...
通过阅读《Kettle(pdi-ce-6.1.0.1-196)使用手册.doc》文档,你将能够了解到每个组件的具体用法、配置细节,以及如何结合实际项目需求来设计和实施数据处理流程。同时,文档中的截图将直观地展示每个步骤的操作界面...
在实际应用中,PDI通常与其他工具如Hadoop、Spark、Hive等一起使用,以实现大数据处理和分析的完整流程。此外,PDI还支持调度和监控,可以自动化执行数据处理任务,并提供详细的运行日志和性能报告。 总的来说,PDI...
PDI/Kettle数仓技术PDI/Kettle开源免费的ETL推送工具PDI/Kettle数据清洗PDI/Kettle数据抽取PDI/Kettle数据挖掘PDI/Kettle案例实战PDI/Kettle技巧PDI/Kettle9.1版本PDI/Kettle通用PDI/Kettle水壶技术适合人群: ...
kettle9.2下载,亲测可用pdi-ce-9.2.0.0-290
标题中的“pdi-ce-7.1.0.0-12_zip.zip”指的是Pentaho Data Integration(简称PDI,又称Kettle)的一个社区版(CE)的压缩包文件,版本号为7.1.0.0-12。PDI是用于数据集成和转换的开源工具,它允许用户在不同数据源...
《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》介绍的PDI(Kettle)是一种开源的 ETL 解决方案,书中介绍了如何使用PDI来实现数据的剖析、清洗、校验、抽取、转换、加载等各类常见的ETL类工作。 除了ODS/DW...
pentaho kettle PDI 9.2下载