在Kettle(PDI)跑Apache Spark作业 - 一个IT男的历程 - ITeye博客

`

qq85609655

浏览: 1097205 次
性别:
来自: 北京

最近访客更多访客>>

ssydxa219

yuanliangding

常好修

joeytang9118

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

gujunge：劝退。不支持两步验证登录、复制Session无效
Linux下SecureCRT的替代品：PAC Manager
huangtianleyuan：各位大神，有没有集成好的，请不吝赐教 qq：375249222 ...
在Web中集成Kettle
梦行Monxin商城系统：
Dapper，大规模分布式系统的跟踪系统
hunter123456：您好，请问一下，pentaho5.X 以上的版本，在服务器上建 ...
pentaho 4.8 添加 kettle 文件资源库的支持
hunter123456：你好！pentaho5上 cas 单点登录，除了修改appl ...
作为一个BI开发人员，我要发布报表，元数据，OLAP的模型到BI服务器

在Kettle(PDI)跑Apache Spark作业

博客分类：

hadoop

阅读更多

原创文章，转载请注明出处：http://qq85609655.iteye.com/blog/2205156

hadoop上要跑Apache Spark作业

使用的ETL工具是Kettle(PDI)

目前能够执行像mapreduce一样执行作业，插件以及demo在附近中

将附件解压

使用Apache Spark最大的原因是基于内存运算速度较快，性能较好，在实际应用中，Hive的使用范围比较广，需要将Hive基于Mapreduce的运算引擎切换为Apache Spark，在Apache Spark安装好后，执行如下命令，启动SparkSQL thrift JDBC/ODBC Server

./sbin/start-thriftserver.sh --master yarn --executor-memory 512m --hiveconf hive.server2.thrift.port=10050

使用Hive Driver JDBC连接SparkSQL和查询数据

SparkJob.zip (27.2 KB)
下载次数: 93

查看图片附件

分享到：

java线程wait和notifyAll方法的简单使用 | 升级Ambari到2.0，hadoop版本升级

2015-04-22 18:27
浏览 9223
评论(1)
分类:开源软件
查看更多

评论

1 楼 centhia 2015-11-06

您好，我想请问一下你的日志是怎么显示出来的？是这样的，我之前是在Kettle上跑mapreduce程序，集成后也能像你截图中那样，有运行过程（logging）输出，但是集成spark就没有，我查看过kettle包，里面有haoop包，没有spark包，所以我想问一下你是怎么集成spark到kettle的，谢谢~~

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

spark-pdi:Apache Spark 运行转换作为 Spark 作业的一部分的函数: "Spark-PDI" 是一个项目，它允许用户将 Pentaho Data Integration (PDI，也称为 Kettle) 转换运行在 Apache Spark 上，这样可以利用 Spark 的并行计算能力加速数据处理流程。PDI 是一个流行的数据集成工具，它提供了...

pentaho kettle PDI 9.2下载- 第一部分: pentaho kettle PDI 9.2下载

pentaho kettle PDI 9.2下载- 第二部分: pentaho kettle PDI 9.2下载

kettle pdi-ce-9.0.0.0-423: 2020年2月官方9.0最新版Kettle，百度网盘地址含取件码，可在Linux/Windows/Mac上解压后直接运行。

Kettle工具pdi-ce最新版百度网盘下载: Kettle工具pdi-ce-9.1最新版百度网盘下载，CSDN上传有大小限制，

kettle pdi-ce-9.0.0.0-423；百度网盘地址含提取码，可在Linux/Windows/Mac上解压后直接运行: springboot+maven项目集成kettle时，所需要的依赖。

Kettle pdi-ce-9.3.0.0-428.zip: pdi-ce-9.3.0.0-428.zip Kettle

2019年9月官方最新版Kettle pdi-ce-8.3.0.0-371: kettle2019版8.3.0.0-371压缩版本，pdi-ce-8.3.0.0-371.rar 源文件1.05G，超出最大上传文件大小上传的文件是解压后通过WinRAR重新压缩的，如果不能使用请及时回复

kettle pdi-ce-9.2.0.0-290.zip（百度网盘地址含取件码）WIN+MAC+LINUX: Pentaho Data Integration（原名 kettle），业界使用最广泛的企业级开源可视化 ETL 数据清洗系统，特别适合企业数据研究人员、DBA 等，用于企业内部系统间数据集成、搭建数据仓库等，既可处理主流数据库，也能处理...

kettle pdi-ce-9.0.0.0-423（百度网盘地址含取件码）2020年2月官方9.0最新版: 2020年2月官方9.0最新版Kettle，百度网盘地址含取件码，可在Linux/Windows/Mac上解压后直接运行。

Kettle （pdi-ce-6.1.0.1）常用组件使用手册: 7. **变量和参数**：Kettle支持使用变量和参数来动态配置作业和转换，这使得在不同环境下的部署和重用变得更加方便。 8. ** Spoon工具**：Spoon是Kettle的主要图形化开发工具，用户可以通过拖拽组件、配置属性、...

利用PDI(Kettle)构造数据: Pentaho Data Integration，简称PDI，或其别名Kettle，是一种业界广泛使用的开源数据集成工具，提供了强大的数据处理能力，使数据工程师和数据科学家能够轻松地实现数据抽取、转换和加载（ETL）过程。 PDI的设计...

kettle9.2下载，亲测可用pdi-ce-9.2.0.0-290: kettle9.2下载，亲测可用pdi-ce-9.2.0.0-290

ETL解决方案大PK：Apache NiFi、DataX、Kettle哪个更适合你？: ### ETL解决方案大PK：Apache NiFi、DataX、Kettle哪个更适合你？ #### 引言随着大数据时代的到来，企业对于数据的处理需求日益增加。为了更好地管理和利用这些数据，ETL（Extract-Transform-Load）作为一种常用...

pentaho-kettle9.5版本pdi-ce-9.5.0.1-261: pentaho-kettle是开源的etl工具，这个是自编译的kettle9.5版本pdi-ce-9.5.0.1-261，请使用JDK17运行，支持macos m1芯片 win,linux,解压就能用。如果有条件也可以自己编译，具体可以看我的csdn博客，kettle 从9.4 ...

java操作kettle(pdi-ce-8.2.0.0-342)的job、transf 使用的jar.zip: Java操作Kettle（PDI-CE-8.2.0.0-342）的Job和Transformation，主要涉及到的是Kettle（又称Pentaho Data Integration，简称PDI）的API使用，以及Java编程与Kettle集成的知识。PDI是一款强大的ETL（Extract, ...

kettle 7.1（pdi-ce-7.1.0）安装软件-百度网盘地址.txt: kettle7.1.0新版[ETL工具,可以在Windows、Linux、Unix上运行],kettle 7.1（pdi-ce-7.1.0）安装软件-百度网盘地址

pdi-ce-9.3.0.0-428a安装包-1（kettle）: 在实际应用中，PDI通常与其他工具如Hadoop、Spark、Hive等一起使用，以实现大数据处理和分析的完整流程。此外，PDI还支持调度和监控，可以自动化执行数据处理任务，并提供详细的运行日志和性能报告。总的来说，PDI...

Global site tag (gtag.js) - Google Analytics