Kettle 集群（cluster）在多个服务器（windows、linux）上并发执行 - lvjun106 - ITeye博客

`

lvjun106

浏览: 440388 次
性别:
来自: 芜湖

最近访客更多访客>>

jeffrey0411

meteor_shower

一直撸狗

gf_project

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

hefengjun1：还有屌丝啊
团队需要的6种人
z390174504：非常好啊......
maven中把依赖的JAR包一起打包
lq675964355：为什么我执行（生成的不以-jar-with-depend ...
maven中把依赖的JAR包一起打包
phoenix5870：怒赞一个！！！很棒！
maven中把依赖的JAR包一起打包
string2020：关键是，我想mvn package就打包好，请问，怎么做
maven中把依赖的JAR包一起打包

Kettle 集群（cluster）在多个服务器（windows、linux）上并发执行

博客分类：

kettle

阅读更多

【转：https://blog.csdn.net/lixuemei504/article/details/38271145】

目录

一、 Kettle的部署...3

二、服务器介绍...3

三、 carte相关配置文件说明...3

四、 carte服务开启...4

五、在kettle图形界面中对集群进行设定...5

六、基于kettle集群模式对数据库表进行排序...6

1、创建数据库连接...6

2、创建表输入...7

3、使用排序记录对数据库表中的数据进行排序处理。...8

七、表输出...9

八、执行转换...9

九、结果输出...10

关于kettle集群在单机上的测试可参考文档：http://www.cnblogs.com/inuyasha1027/p/3259402.html。这里主要介绍服务器分布在不同主机上的情况。

一、Kettle的部署

不管是linux下还是windows下部署kettle前提是机器上都已安装JDK。其次把kettle的安装文件解压后即可。Windows下启动spoon.bat；linux下启动spoon.sh。

二、服务器介绍

本实验使用的服务器：

127.0.0.1 lixuemei-PC

10.2.2.11 DBM011
10.4.2.12 DBM012
10.2.2.10 DBM010

三、carte相关配置文件说明

本实验开启的四个carte服务，其中一台为Master另外三台为Slave，来实现在Kettle的Spoon中对mysql数据库中数据表读取后，以集群方式来执行排序的过程。

Carte的配置文件所在路径：F:\BDE\kettle\data-integration\pwd

（1）主服务器（carte-config-master-8080.xml）的配置内容为：

<slaveserver>

<name>master1</name>

<hostname>lixuemei-PC</hostname>

<port>8080</port>

<master>Y</master>

</slaveserver>

其中<hostname>lixuemei-PC</hostname>表示以本机作为主服务器。在本机的C:\Windows\System32\drivers\etc\hosts 文件中添加内容：127.0.0.1 lixuemei-PC。相应的其他三个服务器上的hosts文件中也添加内容：10.200.4.163lixuemei-PC。

（2）子服务器（carte-config-8082.xml）的配置内容为：

<masters>

<slaveserver>

<name>master1</name>

<hostname>lixuemei-PC</hostname>

<port>8080</port>

<username>cluster</username>

<password>cluster</password>

<master>Y</master>

</slaveserver>

</masters>

<report_to_masters>Y</report_to_masters>

<slaveserver>

<name>slave2-8082</name>

<hostname>10.2.2.11</hostname>

<port>8082</port>

<username>cluster</username>

<password>cluster</password>

<master>N</master>

</slaveserver>

其中<hostname>10.2.2.11</hostname>为子服务器的ip。

同样方式设定其他自服务器（carte-config-8083.xml、carte-config-8085.xml）的配置内容。把更改好的windows下的pwd文件夹分别覆盖其他三个服务器上的相应文件夹。

四、carte服务开启

对于Windows运行：Carte.batIP address port

对于Linux运行：carte.shIP address port

图1所示启动windows上的主节点，并已启动成功。

图1 Master1

相似地，图2—图4在linux上启动其他三个子节点：

图2 Slave1-8085

图3 Slave2-8082

图4 Slave3-8083

五、在kettle图形界面中对集群进行设定

特别需要注意的是：服务器的名称一定要与pwd文件夹下面的配置文件<name>属性所对应的值是一致的。所新建的子服务器一定要在pwd文件夹下面要有对应的配置文件才可以。

图5所示配置好的主节点，需要在“是服务器吗”选项勾选。

图5 主节点配置

图6所示配置好的三个配置好的子节点，在"是主服务器吗？"这个选项中，因为它不是主服务器，所以不对其进行勾选。

图6 子节点配置

下图是将各个子服务器导入到集群中，命名为linux_test_cluster：

图7 kettle集群schemas设定

六、基于kettle集群模式对数据库表进行排序

1、创建数据库连接

点击【主对象树】下的【DB连接】进行创建数据库连接。

图8 数据库连接

2、创建表输入

在【核心对象】中的【输入】中把【表输入】拖到主窗口。双击工作区中的【表输入】图表就可以写对应的查询语句：

图9 创建表输入

3、使用排序记录对数据库表中的数据进行排序处理。

在【核心对象】中的【转换】中把【排序记录】拖到主窗口。双击工作表中的【排序记录】，设置需要排序的字段，具体如下图：

图10 排序记录设定

如果要实现的是集群并发的方式来对数据进行排序，需要右键单击【排序记录】后选择【集群】

图11 选择集群

确定后【排序记录】成如下情形：

图12 选择集群后结果

七、表输出

对于输出，我们输出到site数据库的kettle_rank_site_copy表：

图13 创建表输出

八、执行转换

执行转换时选择【集群方式执行】：

图14 集群方式执行

九、结果输出

图15 Master1输出

图16 slave1-8085输出

图17 slave2-8082输出

图18 slave3-8083输出

分享到：

关于架构优化和设计，架构师必须知道的事情 | 不怕出错，提高系统的健壮性

2018-07-18 13:59
浏览 939
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

kettle集群（cluster）在多个服务器上并发执行: kettle集群（cluster）在多个服务器上并发执行是指通过将kettle部署在多个服务器上，实现分布式数据处理和排序的目的。这种方法可以大大提高数据处理的效率和速度，特别是在大数据量的情况下。以下是kettle集群在...

kettle集群及动态集群设置: 集群设置是Kettle实现高可用性和扩展性的重要手段，允许在多台服务器上并行处理数据，提高处理效率。本文将详细解析Kettle的两种集群模式：固定数量子服务器的集群和动态集群。 ### 固定数量子服务器的集群 **使用...

Kettle的集群模式: 集群技术是Kettle集群模式的核心，它可以水平扩展数据转换，使它们能在多台服务器上并发执行，从而分担工作负载。一个集群配置（schema）由一个主服务器和多个子服务器组成，主服务器负责协调整个集群的操作。在...

kettle集群配置需要: 在大型企业环境中，为了提高处理能力和可扩展性，Kettle可能需要配置成集群模式。在本场景中，我们关注的是如何配置Kettle以连接Oracle RAC（Real Application Clusters）集群。 Oracle RAC是一种高可用性和可伸缩...

kettle多台服务器集群搭建和使用: 本文将详细介绍如何在多台服务器上搭建并使用Kettle集群。 **环境准备：** 假设我们有三台服务器： - 服务器A：IP地址为192.168.1.11，作为主服务器。 - 服务器B：IP地址为192.168.1.12，作为子服务器。 - 服务器...

kettle集群讲解: 在集群环境中，转换可以被配置为在多个服务器上并行运行。通过将转换划分为可并行执行的部分，Kettle可以显著提高处理大量数据的能力。 ### 2. 执行转换 #### 2.1 启动子服务器要让集群工作，首先需要启动子...

Kettle集群环境搭建: 2. **解压与重命名**：在目标服务器上执行以下命令，解压并重命名为`kettle`目录。 ```bash tar -zxvf dist.tar.gz mv dist kettle ``` #### 四、集群配置 Kettle集群的配置主要涉及两个方面：主节点配置和从...

Linux服务器部署kettle环境；以及测试步骤: ### Linux服务器部署Kettle环境及测试步骤详解 #### 一、Kettle简介 Kettle是一款开源的数据集成工具，主要用于ETL(Extract-Transform-Load)操作。它支持各种数据源和目标系统的数据提取、清洗、转换和加载。...

linux部署 kettle （超详细）: 然而，在生产环境中，由于Windows系统的限制以及对稳定性和性能的需求，通常会选择在Linux服务器上部署Kettle。本文将详细介绍如何在Linux环境下部署Kettle，并实现增量数据导入导出的功能。 #### 部署前准备 1. *...

kettle集群实例: - 完成转换的制作，并在需要使用集群的步骤上选择集群执行方式。示例转换步骤配置如下： - 数据源连接 - 转换逻辑 - 数据目标连接选择集群执行模式后，转换将在集群中并行执行。 ##### 6. 集群执行 - 执行...

Kettle集群.pdf: 其中，**Kettle集群**允许用户在一个或多个服务器上并行执行数据转换任务，显著提升了处理速度和效率。 #### 二、设计集群架构 ##### 2.1 定义Clusterschema Clusterschema是Kettle集群的核心组成部分，它定义了...

linux centos环境kettle部署与定时作业执行: Linux Centos 环境 Kettle 部署与定时作业执行是指在 Linux Centos 环境中部署 Kettle 工具，并配置定时作业执行。下面将详细介绍 Kettle 部署和定时作业执行的步骤。一、java 安装和配置在部署 Kettle 之前，...

Kettle_中的集群: 在处理大规模数据处理任务时，Kettle的集群功能显得尤为重要，它能充分利用多服务器资源，实现转换和步骤的并行执行，提高数据处理速度。 ### 1. 集群设计 #### 1.1 定义Cluster schema 在Kettle中，集群...

Kettle 动态集群的配置: Kettle动态集群是一种分布式计算架构，它允许将任务分配给多个节点执行，从而提高处理效率。这种集群模式支持节点的动态加入与退出，增强了系统的灵活性与可扩展性。 #### 三、动态集群配置步骤 ##### 1. 准备工作...

Kettle集群部署详解: 为了实现Kettle集群，我们需要在至少三台服务器上分别安装Kettle软件，并配置相应的参数，这三台服务器分别为Master服务器和两个从服务器（Slave）。 - **Master服务器**：192.168.1.240 - **Slave服务器1**：192....

Kettle在Linux的安装使用: 【Kettle在Linux的安装使用...总之，Kettle在Linux上的安装和使用涉及多个步骤，包括安装Java、配置环境变量、拷贝JAR文件以及转换和运行工作流。理解并遵循这些步骤，可以在Linux环境中有效地使用Kettle进行数据集成。

kettle8.2 windows与linux白屏问题解决.docx: - **Xulrunner**: 为Kettle提供了一个类似Firefox的环境，使其能够在Linux上正常运行图形界面。 3. **安装Xulrunner** - 首先下载Xulrunner压缩包，例如`xulrunner-1.9.2.28pre.en-US.linux-x86_64.tar`。 - ...

kettle集群搭建以及使用kettle将mysql数据转换为Hbase数据: Kettle集群主要由一个主Carte服务器和多个从Carte服务器组成，其结构类似于master-slave模式。主Carte服务器负责接收任务请求并将任务分配给各个从服务器执行，而从服务器完成任务后会将结果返回给主服务器进行汇总...

【kettle012】kettle访问FTP服务器文件并处理数据至PostgreSQL: 【Kettle012】Kettle访问FTP服务器文件并处理数据至PostgreSQL是关于使用Kettle（也称为Pentaho Data Integration，简称PDI）工具进行数据集成的一个具体实例。Kettle是一个开源的数据集成工具，它允许用户通过图形...

kettle 集群 carte: 在 Kettle 调用集群（cluster）进行分布式处理时，可以通过开启多个 Carte 服务进程来支持 ETL (Extract, Transform, Load) 任务的分发和执行。具体来说，Carte 允许远程监控，并且开启了转换集群的能力。 #### 二...

Global site tag (gtag.js) - Google Analytics