`
yunmanfan
  • 浏览: 93598 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

pentaho集成hbase

 
阅读更多

最近在上hbase,数据是通过pentaho的数据集成工具spoon进入hbase的,这里还真是的感谢pentaho这家公司,他们这个工具真是神奇,就相当于spring,把所有的输出都整和进来了,包裹大数据这块,hadoop,hbase,hive等,周边系统。

 
我们就是要用spoon把数据从淘宝open平台拉下来写到hbase,然后通过MR做分析。但是pentaho最新的社区开源版本是4.4,
他集成的hadoop,hbase的版本都是偏低的。hadoop是。0.2.几的版本,hbase更是0.90.几的版本,所有跟我们搭建的集群就落后了。我们都是最新的版本,问题就来了,我们把zookeeper的集群地址做为参数是,spoon根本连不上,报什么
not a pair host:port,错误,后来发现连我自己的集群既然可,终于发现问题是zookeeper连上了。只是hbase在解析zookeeper上hbase注册的地址解析不对,导致的。所以你只要把pentaho集成的hbase版本替换回你所用的版本即可。
 
hbase在pentaho的插件目录下,路径为:E:\ETL\pdi-ce-4.4.0-stable\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations,这个目录下有4个文件,分别为cdh3,cdh4,这两个不用管,下面两个hadoop-20.,mapr,这两个目录下以及子目录,你会找到pentaho所集成的hbase的版本,你替换即可。就能通过pentaho写数据到hbase了。
分享到:
评论

相关推荐

    4.抽取mysql数据到hbase表中.docx

    1. **Kettle简介**:Pentaho Data Integration (PDI),也称为Kettle,是一个开源的数据集成平台,用于执行各种数据处理任务,如数据清洗、转换和加载等。 2. **Kettle配置MySQL数据抽取到HBase**: - 在Kettle中...

    pentaho教程

    例如,Pentaho Data Integration可以与Hadoop生态系统无缝对接,处理HDFS、Hive、HBase等数据。 学习Pentaho教程时,你需要掌握以下几个关键点: 1. 熟悉PDI的转换和作业概念,学会设计和执行ETL流程。 2. 学习...

    kettle5.3连接hdfs、hbase、kettle5.2源码编译

    Kettle 是一个强大的数据集成工具,它允许用户在不同的数据源之间进行数据转换和迁移。在本文档中,我们将深入探讨如何使用 Kettle 5.3 版本连接到 HDFS 和 HBase,以及如何对 Kettle 5.2 的源码进行编译。 一、...

    Pentaho for Big Data Analytics(2013)

    Pentaho是一个开源的商业智能平台,它提供了一套全面的数据集成和分析解决方案,特别适合在大数据环境中应用。通过这本书,读者可以了解到如何有效地运用Pentaho进行大数据分析。 书中的四个章节代码虽然不多,但每...

    pentaho-kettle-8.3 ETL数据开发

    6. **大数据集成**:Pentaho Kettle 对Hadoop生态系统的良好支持,如HDFS、Hive、HBase,使得它可以轻松地与大数据平台交互,进行大规模数据处理。 7. **调度与监控**:Kettle 提供了Pan和Kitchen命令行工具,以及...

    pentaho-hadoop-shims:Hadoop配置

    Hadoop配置(也称为垫片和Pentaho大数据自适应层)是与特定版本的Hadoop(以及相关工具:Hive,HBase,Sqoop,Pig等)进行通信所需的Hadoop库的集合。 它们被设计为易于配置。 如何建造 pentaho-hadoop-shims使用...

    Hadoop的顶级汇报、分析、可视化、集成和开发工具.pdf

    2. **Pentaho Business Analytics**:Pentaho同样是从报表工具起家,通过添加新的数据源来适应大数据环境。它能轻松连接到MongoDB、Cassandra等数据库,并提供Hadoop集群的数据抽取工具,如Kettle,使用户能够通过...

    Kettle的使用说明及下载地址.docx

    Kettle是一款强大的开源数据集成工具,由Pentaho公司开发,采用Java编写,具备跨平台性,可在Windows、Linux、Unix等操作系统上运行。Kettle以其高效稳定的数据抽取、转换和加载(ETL)能力而受到业界认可。它的设计...

    kettle 报表生成

    这个插件是由Roland Bouman开发的,他是一位在数据集成和商业智能领域的开发者和顾问,曾参与“Pentaho Solutions”和“Pentaho Kettle Solutions”这两本书的编写。文档中提到了他的博客和Twitter账户,这意味着他...

    大数据系列2020-数据迁移工具资料汇总(sqoop、kettle、datax).zip

    Kettle,全称Pentaho Data Integration,是一款开源的数据集成工具。它的设计目标是提供图形化的用户界面,让非技术人员也能轻松操作。Kettle支持ETL(抽取、转换、加载)过程,具备丰富的数据转换步骤和连接器,能...

    kettle使用es、大数据插件jar包.rar

    Kettle,全称为Pentaho Data Integration(PDI),是一款强大的数据集成工具,它允许用户通过图形化的界面来设计和执行ETL(提取、转换、加载)任务。在这个"Kettle使用es、大数据插件jar包.rar"压缩包中,包含的是...

    最受关注的13款大数据产品.pdf

    Pentaho的“自适应大数据层”则增强了与各种大数据平台的集成,包括Hadoop发行版、NoSQL数据库如Cassandra和MongoDB,提供了一站式的业务分析解决方案。 RainStor数据库软件的升级注重安全性,增加了数据加密、数据...

    kettle7.1大数据插件源码依赖全解决 另附插件源码配置文档

    在大数据场景下,Kettle支持与Hadoop、Hive、HBase等组件的集成,因此开发或使用大数据插件时,会涉及到特定的大数据库和框架的依赖。 描述中提到的“另附插件源码配置文档”,意味着提供了一份详细的指南,帮助...

    BI产品梳理

    - **Pentaho Data Integration (PDI)**:强大的数据集成工具,支持ETL(提取、转换、加载)过程。 - **Pentaho Business Analytics (BA)**:提供报表、仪表板和分析功能。 - **Pentaho Report Designer**:用于...

    BI Kettle文档汇集

    7. **大数据支持**:Kettle与Hadoop生态系统紧密集成,能够处理大规模数据,如通过Hadoop输入/输出步骤进行MapReduce操作,或者使用Pentaho Big Data Plugin处理Hive、HBase等。 8. **性能优化**:Kettle支持并行...

    kettle 开发视频文档2

    Kettle,也称为Pentaho Data Integration(PDI),是一款强大的ETL(Extract, Transform, Load)工具,专为数据集成而设计。它允许用户从各种数据源抽取、转换和加载数据,支持大数据处理和高可用性场景。在这个...

    kettle7.1连接hive1所需jar

    在IT行业中,Kettle(Pentaho Data Integration)是一款强大的数据集成工具,它允许开发者进行数据抽取、转换和加载(ETL)操作。Hive,则是Apache开发的一个数据仓库工具,能够将结构化的数据文件映射为一张数据库...

    最新大厂数据湖面试题,知识点总结.doc

    1. 数据集成能力:支持多种数据源接入,存储形式多样化,如HDFS、HIVE、HBASE等。 2. 数据治理能力:维护元数据,确保数据质量,建立数据血缘关系,形成数据目录,并监控数据使用。 3. 数据搜索和发现能力:提供类似...

Global site tag (gtag.js) - Google Analytics