WinWin7小编给大家分享的Kettle是一款纯Java编写的工具,可以在Windows、Linux和Unix操作系统上运行。它被广泛应用于数据处理和抽取的任务中,具有高效和稳定的特点。Kettle的主要功能是处理和转换大量的数据。它可以从各种数据源中提取数据,并进行清洗、转换和加载到目标系统中。Kettle支持多种数据格式,包括关系型数据库、平面文件、XML、JSON等。程序员可以通过简单的拖放操作来定义数据处理的流程,而无需编写复杂的代码。Kettle提供了丰富的数据处理功能,包括数据过滤、排序、聚合、连接等。
kettle工具干嘛用的
Kettle是国外免费的开源轻量级ETL工具,是基于Java语言开发的,可以在Windows.Linux,UNIX系统上运行,且绿色不需安装,可用于各种数据库之间的连接。Kettle工具主要有四个组件组成,分别是Spoon,Pan,Kitchen以及Carte组件,具体功能如下: *Spoon为集成开发软件,用于构建作业和转换,执行或调试作业和转换,还可以用于监控ETL操作性能。
kettle工具功能
1、集群允许转换以及转换中的步骤在多个服务器上并发执行;
2、数据处理功能也很强大,非常适合于各种数据处理功能;
3、可以用来实现数据的剖析、清洗、校验、抽取、转换和加载等各类常见的ETL类工作;
kettle教程
清理数据库连接的方法
1:清理shared.xml中的不用的数据库连接。(他的保存位置一般在用户主目录下边的.kettle目录中)
2:用文本编辑软件打开kjb,ktr文件删除用户到的connection项,保存。
使用方法
Kettle自己有三个主要组件:Spoon,Kitchen,Pan。其中Spoon是一个图形化的界面,用于windows的时候,先设置环境变量:pentaho_java_home,例如:C:\Program Files\Java\jdk1.7.0_25,其实就是你的java安装目录,1.6以上即可。windows下双击Spoon.bat就可以了,界面如下:
这里我建立了资源库,其实可以用文件形式存储,存储的结构都是xml,但是我还是觉得建立一个资源库比较好,以后看job等情况也比较简单,因为数据表的可读性比xml要好得多。建立资源库和文件资源库只需要把右上角的小加号点一下,就会出现如下如的界面:
选择第一个就是建立数据库版的资源库,之后:
之后:
测试通过之后点击OK就回到最开始的界面,这时候选择test数据库连接,然后出入你的工程(我是这么叫的)ID和name,这里要记住,因为以后kitchen调度的时候要输入这个参数。
在接下来弹出的框中都点“是”,然后会出现这个界面:
这步会在你的用户下建立很多表,所以最好单独给资源库建立一个用户,当然这是在oracle下,mysql下和DB2下最好也采用同样的方式,把资源库和其他库分开。
检查一下:
SQL> conn wings/wings@prism
已连接。
SQL> select count(1) from r_repository_log;
COUNT(1)
----------
0
SQL>
表已经建好了。回到最开始的界面,选择test,点击确定,然后就会出现登录对话框,用户密码默认都是admin,以后可以自己改。
kettle工具优缺点
优点: 可视化界面支持图形化GUI设计界面,组件多样性,支持http请求,上手简单支持拖拽,支持sql , 可以编写 js ,可以编写一些 java 代码,然后以工作流的形式流转。如果没有冲突可以并行执行,并行开发。在工具内可以查看 读 写 修改 输出 更新 拒绝 错误 等 一些参数,快速定位和纠错。
缺点: 面对特别复杂的业务逻辑,受制于 组件的使用情况。性能提升需要不断优化,线上部署多样式,但是没有完美的部署方案,暂定 Jenkins ,线上执行 打印日志 只能报 对错,不太详细。
Kettle具有良好的可扩展性和灵活性。用户可以通过编写自定义插件来扩展Kettle的功能,以满足特定的需求。Kettle还支持脚本编写,可以使用JavaScript或其他脚本语言来实现更复杂的数据处理逻辑。Kettle是一款功能强大、高效稳定的数据处理工具。它的纯Java编写和跨平台特性使得它可以在不同的操作系统上运行,而且通过可视化界面和简单的配置,用户可以轻松地完成复杂的数据处理和抽取任务。