极客时间-轻松学习，高效学习-极客邦

viptest 置顶

2019-01-09

在“数据分析实战交流群”，老师分享了额外干货资料：“Kettle的操作视频”，有入群需求的，可加我的微信：imonica1010，和老师及同学们交流数据分析的学习心得。

由于申请人数太多，进群免费但设置了一道小门槛，欢迎加我，了解入群规则。

 3

 13
林

2019-01-09

实际操作完成，说下操作过程中注意事项：
1、下载安装jdk1.8+，注意配置系统JAVA_HOME环境变量
2、下载Kettle
3、如果你用的是MySQL,导入数据时会报Driver class 'org.gjt.mm.mysql.Driver' could not be found, make sure the 'MySQL' driver (jar file) is installed. org.gjt.mm.mysql.Driver错误。此时需要到https://dev.mysql.com/downloads/file/?id=468318%20下载后，解压出mysql-connector-java-5.1.41-bin.jar 包，放到pdi-ce-8.2.0.0-342\data-integration\lib目录即可。

展开

 1

 12
云深不知处

2019-06-09

大约三年大数据工程师工作，从最开始的数据集成（sqoop、代码、商用软件ETL工具等），将数据汇聚到数据仓库，理解业务，清洗应用需要的数据。数据集成是将多源（多系统）、多样（结构化、非结构化、半结构化）、多维度数据整合进数据仓库，形成数据海洋，更好的提供业务分析系统的数据服务，通过数仓的数据集成，达到数据共享的效果，降低对原始业务系统的影响，同时加快数据分析工作者的数据准备周期。数据集成最开始就是原始系统的数据，照样搬到数据仓库，这种类型工作长期实施，容易疲劳失去兴趣，理解业务需求，通过自己的数据集成、清洗、数据分析，提供有意思的数据，就是挖金子过程，应该也是一件有趣的事情。

作者回复: 很好的分享，很多人都在做数据集成的工作，时间长了难免失去兴趣，相反数据分析会更有价值，能从数据中提炼金子



 8
程序员小熊猫

2019-01-21

老师前面讲了ELT比ETL更方便，结果后面介绍的是ETL。。。

 1

 8
JingZ

2019-01-09

#2019/1/9 Kettle数据集成

1、安装jdk：官网http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html，下载mac版的JDK，下载后，直接安装。终端验证java-version~

2、安装Kettle：https://sourceforge.net/projects/pentaho/files/Data%20Integration/
下载最新pdi-ce-8.2.0.0-342.zip压缩包，直接生成data integration文件夹

3、下载数据库驱动：https://dev.mysql.com/downloads/connector/j/
mysql-connector-java-5.1.41.tar.gz解压，但是出现了query-cache-size问题，重新下载最新mysql-connector-java-8.0.13.tar.gz，又出现找不到jar文件。重启也不行～最后两个文件都放在了data integration/lib里面，貌似就可以了，这块还需再探索

4、打开终端，启动Kettle：sh spoon.sh打开Spoon，开始文本输入和表输出了

5、安装MySQL，同时安装了MySQL WorkBench建立数据库wucai和表score，目前出现表输出Unexpected batch update error committing the database connection和org.pentaho.di.core.exception.KettleDatabaseBatchException问题，可能是对SQL设置问题，还需debug

接触新工具，还需多实践

展开

作者回复: 加油~ 不错的整理



 7
奔跑的徐胖子

2019-03-22

希望有如我一般的使用Mac的屌丝注意，安装完了Kettle之后，要去mysql官网下载驱动，这个驱动不能用最新版本的，要用老版本的才能连接数据库，我用的是5.1.46

作者回复: 感谢分享

 1

 5
GGYY

2019-01-29

“we were unable to find any new incoming fields”

这里试试在“内容”一栏，吧编码方式改一下。默认为 DOS



 5
lingmacker

2019-01-18

为什么我获取字段会出现 we were unable to find any new incoming fields! 错误啊？



 5
veical

2019-01-10

加载就是把转换后的数据从中间层(stage层，通常是一个数据库或数据库集群)导入数据分析层，然后才能在模型中用这些干净的数据进行数据分析

作者回复: 对的



 5
Yafei

2019-03-13

Deepin linux
1. 安装 openjdk
2. 0. 下载kettle zip包，解压即可。
2. 下载 mysql jdbc driver(https://dev.mysql.com/downloads/connector/j/),解压將 mysql-connector-java-8.0.15 (我用的这个版本) 放入 ‘data-integration/lib/’ 目录下。
3. sudo apt-get install mysql ，安装完后如果使用 root 用户，注意是否能以localhost登录，创建一个数据库用来测试，并创建一个table，表名随意，字段能对应到你的数据即可。
4. 运行脚本 spoon.sh 打开 kettle, 添加 text input ，双击 -- 添加数据文件 -- 切换到‘内容’ -- 修改分隔符为tab -- 修改格式为 Unix（如不修改会找不到字段） -- 切换到‘字段’ --获取字段

展开



 4
Chino

2019-01-21

文本文件输入那里获取字段出错误了出错原因拿去搜了下还什么都搜不出来求教啊
we were unable to find any new incoming fields

 1

 2
杨名流

2019-01-20

按照视频操作，获取不到文本文件字段，怎么解决？



 2
qinggeouye

2019-11-12

1、搭环境(open jdk , mysql 8.0 , mysql-connector for java, kettle)
2、启动 kettle , 实操 ...

作者回复: 嗯加油~



 1
羊小看

2019-08-27

目前我们做的业务需求比较多，一个需求有时会关联五六张表，所以我们特别希望可以先做转换，做成大宽表，入仓，可以直接用。
老师说的先加载再转换，是适用于做数据挖掘时吗？

作者回复: 两种方式都适用于数据挖掘的情况



 1
旭霁

2019-03-19

数据库 MySQL 操作
本地登录
mysql -u root -p

创建数据库 wucai
CREATE DATABASE wucai;

查询数据库
show databases;

切换/进入数据库 wucai
use wucai;

创建数据库表 score。包含 create_time、name、Chinese、English、Math 五个字段。
CREATE TABLE score (create_time VARCHAR(255) NULL, name VARCHAR(255) NULL, Chinese VARCHAR(255) NULL, English VARCHAR(255) NULL, Math VARCHAR(255) NULL);

查询数据库表
show tables;

展开

作者回复: God Job



 1
james

2019-01-28

使用postgresql的朋友, 记得再spoon中给表字段加引号



 1
任欣

2019-01-10

我理解的数据集成其实就是将不同来源的数据，转化为同意数据源，并存放在一起的一个过程。就像我们在做数据分析的时候将excel数据与挖掘的文本数据进行合并，并且分析的过程。老师文中讲述的是大的项目需要自动化的实现。所以etl elt模型以及kettle datax这些工具会辅助过程快速高效完成。老师怎么看。



 1
Viola

2019-01-09

monica很赞啊，老师在群里发送了小视频，第一时间更新在文章里，👍



 1
Lin_嘉杰

2019-01-09

对数据集成的理解仅限于对多个来源的数据源，比如csv，mysql，nosql，excel等，尽可能完整集合成一个全面的数据库，方便后续数据挖掘。

 1

 1
苹果

2020-01-16

#centos7 mysql 5.7
操作成功，分享开心下，步骤老师也讲挺细的，也需要在kettke 的lib/中加入 mysql-connector-java-5.1.46-bin.jar，我就分享出mysql的操作吧，参考而已：CREATE TABLE scores (
create_time char(20) NOT NULL,
name char(20) NOT NULL,
Chinese int NOT NULL,
English INT NOT NULL,
Math INT NOT NULL )
ENGINE= InnoDB;
总结：该集成工具。类似flume的作用，对接数据源的上下游，载入自己编写的jar文件，整个就更友好些，

展开



