最近在上hbase,数据是通过pentaho的数据集成工具spoon进入hbase的,这里还真是的感谢pentaho这家公司,他们这个工具真是神奇,就相当于spring,把所有的输出都整和进来了,包裹大数据这块,hadoop,hbase,hive等,周边系统。
我们就是要用spoon把数据从淘宝open平台拉下来写到hbase,然后通过MR做分析。但是pentaho最新的社区开源版本是4.4,
他集成的hadoop,hbase的版本都是偏低的。hadoop是。0.2.几的版本,hbase更是0.90.几的版本,所有跟我们搭建的集群就落后了。我们都是最新的版本,问题就来了,我们把zookeeper的集群地址做为参数是,spoon根本连不上,报什么
not a pair host:port,错误,后来发现连我自己的集群既然可,终于发现问题是zookeeper连上了。只是hbase在解析zookeeper上hbase注册的地址解析不对,导致的。所以你只要把pentaho集成的hbase版本替换回你所用的版本即可。
hbase在pentaho的插件目录下,路径为:E:\ETL\pdi-ce-4.4.0-stable\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations,这个目录下有4个文件,分别为cdh3,cdh4,这两个不用管,下面两个hadoop-20.,mapr,这两个目录下以及子目录,你会找到pentaho所集成的hbase的版本,你替换即可。就能通过pentaho写数据到hbase了。
相关推荐
1. **Kettle简介**:Pentaho Data Integration (PDI),也称为Kettle,是一个开源的数据集成平台,用于执行各种数据处理任务,如数据清洗、转换和加载等。 2. **Kettle配置MySQL数据抽取到HBase**: - 在Kettle中...
例如,Pentaho Data Integration可以与Hadoop生态系统无缝对接,处理HDFS、Hive、HBase等数据。 学习Pentaho教程时,你需要掌握以下几个关键点: 1. 熟悉PDI的转换和作业概念,学会设计和执行ETL流程。 2. 学习...
Kettle 是一个强大的数据集成工具,它允许用户在不同的数据源之间进行数据转换和迁移。在本文档中,我们将深入探讨如何使用 Kettle 5.3 版本连接到 HDFS 和 HBase,以及如何对 Kettle 5.2 的源码进行编译。 一、...
Pentaho是一个开源的商业智能平台,它提供了一套全面的数据集成和分析解决方案,特别适合在大数据环境中应用。通过这本书,读者可以了解到如何有效地运用Pentaho进行大数据分析。 书中的四个章节代码虽然不多,但每...
6. **大数据集成**:Pentaho Kettle 对Hadoop生态系统的良好支持,如HDFS、Hive、HBase,使得它可以轻松地与大数据平台交互,进行大规模数据处理。 7. **调度与监控**:Kettle 提供了Pan和Kitchen命令行工具,以及...
Hadoop配置(也称为垫片和Pentaho大数据自适应层)是与特定版本的Hadoop(以及相关工具:Hive,HBase,Sqoop,Pig等)进行通信所需的Hadoop库的集合。 它们被设计为易于配置。 如何建造 pentaho-hadoop-shims使用...
2. **Pentaho Business Analytics**:Pentaho同样是从报表工具起家,通过添加新的数据源来适应大数据环境。它能轻松连接到MongoDB、Cassandra等数据库,并提供Hadoop集群的数据抽取工具,如Kettle,使用户能够通过...
Kettle是一款强大的开源数据集成工具,由Pentaho公司开发,采用Java编写,具备跨平台性,可在Windows、Linux、Unix等操作系统上运行。Kettle以其高效稳定的数据抽取、转换和加载(ETL)能力而受到业界认可。它的设计...
这个插件是由Roland Bouman开发的,他是一位在数据集成和商业智能领域的开发者和顾问,曾参与“Pentaho Solutions”和“Pentaho Kettle Solutions”这两本书的编写。文档中提到了他的博客和Twitter账户,这意味着他...
Kettle,全称Pentaho Data Integration,是一款开源的数据集成工具。它的设计目标是提供图形化的用户界面,让非技术人员也能轻松操作。Kettle支持ETL(抽取、转换、加载)过程,具备丰富的数据转换步骤和连接器,能...
Kettle,全称为Pentaho Data Integration(PDI),是一款强大的数据集成工具,它允许用户通过图形化的界面来设计和执行ETL(提取、转换、加载)任务。在这个"Kettle使用es、大数据插件jar包.rar"压缩包中,包含的是...
Pentaho的“自适应大数据层”则增强了与各种大数据平台的集成,包括Hadoop发行版、NoSQL数据库如Cassandra和MongoDB,提供了一站式的业务分析解决方案。 RainStor数据库软件的升级注重安全性,增加了数据加密、数据...
在大数据场景下,Kettle支持与Hadoop、Hive、HBase等组件的集成,因此开发或使用大数据插件时,会涉及到特定的大数据库和框架的依赖。 描述中提到的“另附插件源码配置文档”,意味着提供了一份详细的指南,帮助...
- **Pentaho Data Integration (PDI)**:强大的数据集成工具,支持ETL(提取、转换、加载)过程。 - **Pentaho Business Analytics (BA)**:提供报表、仪表板和分析功能。 - **Pentaho Report Designer**:用于...
7. **大数据支持**:Kettle与Hadoop生态系统紧密集成,能够处理大规模数据,如通过Hadoop输入/输出步骤进行MapReduce操作,或者使用Pentaho Big Data Plugin处理Hive、HBase等。 8. **性能优化**:Kettle支持并行...
Kettle,也称为Pentaho Data Integration(PDI),是一款强大的ETL(Extract, Transform, Load)工具,专为数据集成而设计。它允许用户从各种数据源抽取、转换和加载数据,支持大数据处理和高可用性场景。在这个...
在IT行业中,Kettle(Pentaho Data Integration)是一款强大的数据集成工具,它允许开发者进行数据抽取、转换和加载(ETL)操作。Hive,则是Apache开发的一个数据仓库工具,能够将结构化的数据文件映射为一张数据库...
1. 数据集成能力:支持多种数据源接入,存储形式多样化,如HDFS、HIVE、HBASE等。 2. 数据治理能力:维护元数据,确保数据质量,建立数据血缘关系,形成数据目录,并监控数据使用。 3. 数据搜索和发现能力:提供类似...