当前位置：代码迷 >> 综合 >> Kettle— 使用手册和ckettle也可以参考使用

详细解决方案

Kettle— 使用手册和ckettle也可以参考使用

热度：36 发布时间：2023-09-19 20:06:12.0

介绍

ETL是EXTRACT（抽取）、TRANSFORM（转换）、LOAD（加载）的简称，实现数据从多个异构数据源加载到数据库或其他目标地址，是数据仓库建设和维护中的重要一环，也是工作量较大的一块。Kettle是ETL中其中一个开源工具，基于纯Java开发。

kettle有两种脚本transformation（转换）和Job（作业）

Kettle有三个主要组件：Spoon、Kitchen、Pan

Spoon：是一个图形化的界面，可以让我们用图形化的方式开发转换和作业。windows选择Spoon.bat；Linux选择Spoon.sh

Kitchen：利用Kitchen可以使用命令行调用Job

Pan：利用Pan可以用命令行的形式调用Trans

Carte：Carte是一个轻量级的Web容器，用于建立专用、远程的ETL Server。

声明

1.Kettle最早叫做Kettle，后来该名为PDI，不过大多数人还是习惯于叫Kettle

2.我们这里使用的版本是最新的Kettle 8.1的版本

3.说明一下Kettle的帮助文档可以在Spoon中找到，如果有任何问题可以去帮组文档中查找

Kettle— 使用手册和ckettle也可以参考使用

运行PDI Client（Spoon）

PDI Client启动分为两种：一种是安装包方式安装，然后在菜单栏中启动，这种方式并不是我们想要的。另外一种是通过解压zip包，然后通过启动脚本spoon.bat或者spoon.sh启动Spoon。

如果正确启动，则出现的主界面应该是下面这样的。

Kettle— 使用手册和ckettle也可以参考使用

界面整体功能的介绍在Spoon的帮助文档中有详细的介绍，下图中的章节。

Kettle— 使用手册和ckettle也可以参考使用

Kettle的使用流程

1.创建一个简单的转换

首先这个转换的事例是把testdb数据库中的t_user表的数据拷贝到test表数据库中的user表。

1）创建一个转换

Kettle— 使用手册和ckettle也可以参考使用

2）连接到testdb和test数据库

Kettle— 使用手册和ckettle也可以参考使用

连接好以后应该会在DB连接中出现两个数据库连接。

Kettle— 使用手册和ckettle也可以参考使用

3）在核心对象中拖入一个表输入

Kettle— 使用手册和ckettle也可以参考使用

并对表输入进行属性设置。

Kettle— 使用手册和ckettle也可以参考使用

我的是：

Kettle— 使用手册和ckettle也可以参考使用

4）然后在核心对象中拖入插入/更新组件

Kettle— 使用手册和ckettle也可以参考使用

5）按住shift从表输入到插入/更新

Kettle— 使用手册和ckettle也可以参考使用

6）然后在对插入/更新进行配置，在用来查询的关键字中需要设置连接的字段。

Kettle— 使用手册和ckettle也可以参考使用

我的是：

Kettle— 使用手册和ckettle也可以参考使用

7）最后保存，并运行这个转换，看看是否正确。

Kettle— 使用手册和ckettle也可以参考使用

2.创建一个简单的作业

这个作业就是将之前的转换以定时执行的方式运行。

1）拖入开始组件，这里设置的间隔时间的3分钟

Kettle— 使用手册和ckettle也可以参考使用

2）拖入转换组件，将刚刚保存的转换文件配置到Transformation属性中。

Kettle— 使用手册和ckettle也可以参考使用

3）点击运行按钮，运行配置的作业。

3.连接资源库

在实际的团队开发过程中，不可能将自己的转换、作业和调度等配置存放在自己的电脑中。而Kettle的资源库正可以将我们的转换、作业等存储下来，构成一种协作平台。

转换任务在资源库中是以文件夹形式分组管理的，用户可以自定义文件夹名称。Kettle支持连接的资源库类型有三种：

1.Pentaho Repository：使用的是Kettle公司自己的服务器，一般自己公司不会使用

2.Database Repository：保存在数据库的资源库，通过用户名密码访问

3.File Repository：保存的服务器硬盘的资源库，不用密码就可以使用

1）连接资源库

点击右侧的Connect按钮，打开资源连接的Dialog，这里我们需要选择Other Repository

Kettle— 使用手册和ckettle也可以参考使用

然后在选择Database Repository，如下所示。

Kettle— 使用手册和ckettle也可以参考使用

2）配置数据库连接，点击Database Connection进行配置

Kettle— 使用手册和ckettle也可以参考使用

3）完成配置后，点击finish即可。配置完成后，数据库中会多出一些表，选择Connect Now。

Kettle— 使用手册和ckettle也可以参考使用

4）选择连接后，我们需要输入用户名密码，即可连接到指定的资源库。注意，这里的用户名密码默认是admin/admin（管理员）或者guest/guest（访问者）。然后在title上会显示连接的资源库。

注意：上面的连接配置不要使用中文，包括资源名等等。不然会出现资源库配置为灰色，而且没有Connect按钮。解决方案见Kettle常见错误。

4.使用资源库进行协作开发

1.转换或作业的导入导出

1）导入

当我们有转换或作业在外部需要导入到资源库时，我们可以选择文件—从XML文件导入，选择我们需要导入的文件。

Kettle— 使用手册和ckettle也可以参考使用

然后将文件保存，会弹出Save界面，选择保存的目录和文件名即可。

Kettle— 使用手册和ckettle也可以参考使用

2）导出

当我们需要将资源库中的作业和转换保存到本地使用时，我们可以选择文件—导出，进行导出。

Kettle— 使用手册和ckettle也可以参考使用

2.探索资源库

选择工具—资源库—探索资源库，可以连接到当前连接的资源库。

Kettle— 使用手册和ckettle也可以参考使用

下面就连接上的资源库。浏览Tab主要是资源库中存在的转换和作业

Kettle— 使用手册和ckettle也可以参考使用

在浏览的目录或者文件上可以进行以下的各种操作。在这里我实在是没有找不到access controll和历史版本查看的功能。

Kettle— 使用手册和ckettle也可以参考使用

3.资源连接库管理

在右侧的显示个人信息地方我们可以管理资源库。

Kettle— 使用手册和ckettle也可以参考使用

相关解决方案