版本:
Kettle:7.1.0.0-12
Hadoop:Hadoop 2.6.0-cdh5.10.2
1、启动Spoon
Spoon是Kettle图形化开发工具。
选择菜单“Tools”->“Hadoop Distribution...”,将“Cloudera CDH 5.10”选中,并点击“OK”。
重启Spoon,使得Shim被激活。
2、将Hadoop的配置文件复制到Kettle相应的目录中
在CDH中,hadoop所有组件的客户端配置文件都可以在/etc/中找到。
比如hdfs和yarn:
将core-site.xml,hdfs-site.xml,yarn-site.xml,mapred-site.xml等配置文件复制到Kettle的相应目录中。
注意要修改这些配置文件。比如hadoop节点的地址是不是正确等。然后重启Spoon。
3、配置Hadoop cluster
打开Spoon,创建一个Job或者Transformation。选择view。
在“Job 1”下,有一个“Hadoop Clusters”,选中点击右键,点击“New Cluster”。
填写相应的配置值。具体含义见下表。
选项 | 含义 |
---|---|
Cluster Name | 集群名称,自定义。 |
Storage | 指定存储类型。类型如下:HDFS,MapR,WASB |
Hostname (in selected storage section) | 存储的主机名/IP |
Port (in selected storage section) | 访问端口 |
Username (in selected storage section) | 访问用户 |
Password (in selected storage section) | 密码 |
Hostname (in JobTracker section) | JobTracker节点主机名/IP |
Port (in JobTracker section) | JobTracker节点访问端口 |
Hostname (in ZooKeeper section) | Zookeeper节点主机名 |
Port (in Zookeeper section) | Zookeeper节点访问端口 |
URL (in Oozie section) | Oozie客户端地址 |
点击“Test”。
显示对勾的说明测试成功,红×说明出现问题,黄三角是警告。应该是复制的hadoop配置文件的配置问题(上面这几个红叉不影响后面的使用,这块的排除暂且跳过)。
4、开发示例
创建“Transformation”,加入“Hadoop File Input”和“Table Output”,并命名为hadoop_input。
1)配置hadoop集群和数据库源
2)配置“Hadoop File Input”
原始文件如下:
复制到HDFS上去。
现在开始开发配置。
点击“Preview rows”,可以查看获取的内容。
点击“OK”保存配置。
3)配置“Table Output”
点击“OK”保存配置。
到此配置完成。
4)运行验证
如图,点击运行。
点击“RUN”。
运行成功!