• viptest 置顶
    2019-01-09
    在“数据分析实战交流群”,老师分享了额外干货资料:“Kettle的操作视频”,有入群需求的,可加我的微信:imonica1010,和老师及同学们交流数据分析的学习心得。

    由于申请人数太多,进群免费但设置了一道小门槛,欢迎加我,了解入群规则。
     3
     13
  • 林
    2019-01-09
    实际操作完成,说下操作过程中注意事项:
    1、下载安装jdk1.8+,注意配置系统JAVA_HOME环境变量
    2、下载Kettle
    3、如果你用的是MySQL,导入数据时会报Driver class 'org.gjt.mm.mysql.Driver' could not be found, make sure the 'MySQL' driver (jar file) is installed. org.gjt.mm.mysql.Driver错误。此时需要到https://dev.mysql.com/downloads/file/?id=468318%20下载后,解压出mysql-connector-java-5.1.41-bin.jar 包,放到pdi-ce-8.2.0.0-342\data-integration\lib目录即可。
    展开
     1
     12
  • 云深不知处
    2019-06-09
    大约三年大数据工程师工作,从最开始的数据集成(sqoop、代码、商用软件ETL工具等),将数据汇聚到数据仓库,理解业务,清洗应用需要的数据。数据集成是将多源(多系统)、多样(结构化、非结构化、半结构化)、多维度数据整合进数据仓库,形成数据海洋,更好的提供业务分析系统的数据服务,通过数仓的数据集成,达到数据共享的效果,降低对原始业务系统的影响,同时加快数据分析工作者的数据准备周期。数据集成最开始就是原始系统的数据,照样搬到数据仓库,这种类型工作长期实施,容易疲劳失去兴趣,理解业务需求,通过自己的数据集成、清洗、数据分析,提供有意思的数据,就是挖金子过程,应该也是一件有趣的事情。

    作者回复: 很好的分享,很多人都在做数据集成的工作,时间长了难免失去兴趣,相反数据分析会更有价值,能从数据中提炼金子

    
     8
  • 程序员小熊猫
    2019-01-21
    老师前面讲了ELT比ETL更方便,结果后面介绍的是ETL。。。
     1
     8
  • JingZ
    2019-01-09
    #2019/1/9 Kettle数据集成

    1、安装jdk:官网http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html,下载mac版的JDK,下载后,直接安装。终端验证java-version~

    2、安装Kettle:https://sourceforge.net/projects/pentaho/files/Data%20Integration/
    下载最新pdi-ce-8.2.0.0-342.zip压缩包,直接生成data integration文件夹

    3、下载数据库驱动:https://dev.mysql.com/downloads/connector/j/
    mysql-connector-java-5.1.41.tar.gz解压,但是出现了query-cache-size问题,重新下载最新mysql-connector-java-8.0.13.tar.gz,又出现找不到jar文件。重启也不行~最后两个文件都放在了data integration/lib里面,貌似就可以了,这块还需再探索

    4、打开终端,启动Kettle:sh spoon.sh打开Spoon,开始文本输入和表输出了

    5、安装MySQL,同时安装了MySQL WorkBench建立数据库wucai和表score,目前出现表输出Unexpected batch update error committing the database connection和org.pentaho.di.core.exception.KettleDatabaseBatchException问题,可能是对SQL设置问题,还需debug

    接触新工具,还需多实践
    展开

    作者回复: 加油~ 不错的整理

    
     7
  • 奔跑的徐胖子
    2019-03-22
    希望有如我一般的使用Mac的屌丝注意,安装完了Kettle之后,要去mysql官网下载驱动,这个驱动不能用最新版本的,要用老版本的才能连接数据库,我用的是5.1.46

    作者回复: 感谢分享

     1
     5
  • GGYY
    2019-01-29
    “we were unable to find any new incoming fields”

    这里试试在“内容”一栏,吧编码方式改一下。默认为 DOS
    
     5
  • lingmacker
    2019-01-18
    为什么我获取字段会出现 we were unable to find any new incoming fields! 错误啊?
    
     5
  • veical
    2019-01-10
    加载就是把转换后的数据从中间层(stage层,通常是一个数据库或数据库集群)导入数据分析层,然后才能在模型中用这些干净的数据进行数据分析

    作者回复: 对的

    
     5
  • Yafei
    2019-03-13
    Deepin linux
    1. 安装 openjdk
    2. 0. 下载kettle zip包,解压即可。
    2. 下载 mysql jdbc driver(https://dev.mysql.com/downloads/connector/j/),解压將 mysql-connector-java-8.0.15 (我用的这个版本) 放入 ‘data-integration/lib/’ 目录下。
    3. sudo apt-get install mysql ,安装完后如果使用 root 用户,注意是否能以localhost登录,创建一个数据库用来测试,并创建一个table,表名随意,字段能对应到你的数据即可。
    4. 运行脚本 spoon.sh 打开 kettle, 添加 text input ,双击 -- 添加数据文件 -- 切换到‘内容’ -- 修改分隔符为tab -- 修改格式为 Unix(如不修改会找不到字段) -- 切换到‘字段’ --获取字段
    展开
    
     4
  • Chino
    2019-01-21
    文本文件输入那里获取字段出错误了 出错原因拿去搜了下 还什么都搜不出来 求教啊
    we were unable to find any new incoming fields
     1
     2
  • 杨名流
    2019-01-20
    按照视频操作,获取不到文本文件字段,怎么解决?
    
     2
  • qinggeouye
    2019-11-12
    1、搭环境(open jdk , mysql 8.0 , mysql-connector for java, kettle)
    2、启动 kettle , 实操 ...

    作者回复: 嗯 加油~

    
     1
  • 羊小看
    2019-08-27
    目前我们做的业务需求比较多,一个需求有时会关联五六张表,所以我们特别希望可以先做转换,做成大宽表,入仓,可以直接用。
    老师说的先加载再转换,是适用于做数据挖掘时吗?

    作者回复: 两种方式都适用于数据挖掘的情况

    
     1
  • 旭霁
    2019-03-19
    数据库 MySQL 操作
    本地登录
    mysql -u root -p

    创建数据库 wucai
    CREATE DATABASE wucai;

    查询数据库
    show databases;

    切换/进入数据库 wucai
    use wucai;

    创建数据库表 score。包含 create_time、name、Chinese、English、Math 五个字段。
    CREATE TABLE score (create_time VARCHAR(255) NULL, name VARCHAR(255) NULL, Chinese VARCHAR(255) NULL, English VARCHAR(255) NULL, Math VARCHAR(255) NULL);

    查询数据库表
    show tables;
    展开

    作者回复: God Job

    
     1
  • james
    2019-01-28
    使用postgresql的朋友, 记得再spoon中给表字段加引号
    
     1
  • 任欣
    2019-01-10
    我理解的数据集成其实就是将不同来源的数据,转化为同意数据源,并存放在一起的一个过程。 就像我们在做数据分析的时候将excel数据与挖掘的文本数据进行合并,并且分析的过程。老师文中讲述的是大的项目需要自动化的实现。所以etl elt模型以及kettle datax这些工具会辅助过程快速高效完成。 老师怎么看。
    
     1
  • Viola
    2019-01-09
    monica很赞啊,老师在群里发送了小视频,第一时间更新在文章里,👍
    
     1
  • Lin_嘉杰
    2019-01-09
    对数据集成的理解仅限于对多个来源的数据源,比如csv,mysql,nosql,excel等,尽可能完整集合成一个全面的数据库,方便后续数据挖掘。
     1
     1
  • 苹果
    2020-01-16
    #centos7 mysql 5.7
    操作成功,分享开心下,步骤老师也讲挺细的,也需要在kettke 的lib/中加入 mysql-connector-java-5.1.46-bin.jar,我就分享出mysql的操作吧,参考而已:CREATE TABLE scores (
    create_time char(20) NOT NULL,
    name char(20) NOT NULL,
    Chinese int NOT NULL,
    English INT NOT NULL,
    Math INT NOT NULL )
    ENGINE= InnoDB;
    总结:该集成工具。类似flume的作用,对接数据源的上下游,载入自己编写的jar文件,整个就更友好些,
    展开
    
    
我们在线,来聊聊吧