数据分析实战45讲
陈旸
清华大学计算机博士
立即订阅
17314 人已学习
课程目录
已完结 48 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 你为什么需要数据分析能力?
免费
第一模块:数据分析基础篇 (16讲)
01丨数据分析全景图及修炼指南
02丨学习数据挖掘的最佳路径是什么?
03丨Python基础语法:开始你的Python之旅
04丨Python科学计算:用NumPy快速处理数据
05丨Python科学计算:Pandas
06 | 学数据分析要掌握哪些基本概念?
07 | 用户画像:标签化就是数据的抽象能力
08 | 数据采集:如何自动化采集数据?
09丨数据采集:如何用八爪鱼采集微博上的“D&G”评论
10丨Python爬虫:如何自动化下载王祖贤海报?
11 | 数据科学家80%时间都花费在了这些清洗任务上?
免费
12 | 数据集成:这些大号一共20亿粉丝?
13 | 数据变换:考试成绩要求正态分布合理么?
14丨数据可视化:掌握数据领域的万金油技能
15丨一次学会Python数据可视化的10种技能
16丨数据分析基础篇答疑
第二模块:数据分析算法篇 (20讲)
17 丨决策树(上):要不要去打篮球?决策树来告诉你
18丨决策树(中):CART,一棵是回归树,另一棵是分类树
19丨决策树(下):泰坦尼克乘客生存预测
20丨朴素贝叶斯分类(上):如何让机器判断男女?
21丨朴素贝叶斯分类(下):如何对文档进行分类?
22丨SVM(上):如何用一根棍子将蓝红两色球分开?
23丨SVM(下):如何进行乳腺癌检测?
24丨KNN(上):如何根据打斗和接吻次数来划分电影类型?
25丨KNN(下):如何对手写数字进行识别?
26丨K-Means(上):如何给20支亚洲球队做聚类?
27丨K-Means(下):如何使用K-Means对图像进行分割?
28丨EM聚类(上):如何将一份菜等分给两个人?
29丨EM聚类(下):用EM算法对王者荣耀英雄进行划分
30丨关联规则挖掘(上):如何用Apriori发现用户购物规则?
31丨关联规则挖掘(下):导演如何选择演员?
32丨PageRank(上):搞懂Google的PageRank算法
33丨PageRank(下):分析希拉里邮件中的人物关系
34丨AdaBoost(上):如何使用AdaBoost提升分类器性能?
35丨AdaBoost(下):如何使用AdaBoost对房价进行预测?
36丨数据分析算法篇答疑
第三模块:数据分析实战篇 (7讲)
37丨数据采集实战:如何自动化运营微博?
38丨数据可视化实战:如何给毛不易的歌曲做词云展示?
39丨数据挖掘实战(1):信用卡违约率分析
40丨数据挖掘实战(2):信用卡诈骗分析
41丨数据挖掘实战(3):如何对比特币走势进行预测?
42丨当我们谈深度学习的时候,我们都在谈什么?
43丨深度学习(下):如何用Keras搭建深度学习网络做手写数字识别?
第四模块:数据分析工作篇 (2讲)
44丨如何培养你的数据分析思维?
45丨求职简历中没有相关项目经验,怎么办?
加餐 (1讲)
加餐丨在社交网络上刷粉刷量,技术上是如何实现的?
结束语 (1讲)
结束语丨当大家都在讲知识和工具的时候,我更希望你重视思维和实战
数据分析实战45讲
登录|注册

02丨学习数据挖掘的最佳路径是什么?

陈旸 2018-12-19
上一节中,我给你分享了数据分析的全景图,其中最关键的部分就是数据挖掘,那什么是数据挖掘呢?
想象一下,茫茫的大海上,孤零零地屹立着钻井,想要从大海中开采出宝贵的石油。
对于普通人来说,大海是很难感知的,就更不用说找到宝藏了。但对于熟练的石油开采人员来说,大海是有坐标的。他们对地质做勘探,分析地质构造,从而发现哪些地方更可能有石油。然后用开采工具,进行深度挖掘,直到打到石油为止。
大海、地质信息、石油对开采人员来说就是数据源、地理位置、以及分析得到的结果。
而我们要做的数据挖掘工作,就好像这个钻井一样,通过分析这些数据,从庞大的数据中发现规律,找到宝藏。

数据挖掘,从知识清单开始

我们第一天学开车的时候一定不会直接上路,而是要你先学习基本的知识,然后再进行上车模拟。
只有对知识有全面的认知,才能确保在以后的工作中即使遇到了问题,也可以快速定位问题所在,然后找方法去对应和解决。
所以我列了一个数据挖掘的知识清单,分别是数据挖掘的基本流程、十大算法和数学原理,以此来开启我们的学习之旅。

数据挖掘的基本流程

在正式讲数据挖掘知识清单之前,我先和你聊聊数据挖掘的基本流程。
数据挖掘的过程可以分成以下 6 个步骤。
商业理解:数据挖掘不是我们的目的,我们的目的是更好地帮助业务,所以第一步我们要从商业的角度理解项目需求,在这个基础上,再对数据挖掘的目标进行定义。
数据理解:尝试收集部分数据,然后对数据进行探索,包括数据描述、数据质量验证等。这有助于你对收集的数据有个初步的认知。
数据准备:开始收集数据,并对数据进行清洗、数据集成等操作,完成数据挖掘前的准备工作。
模型建立:选择和应用各种数据挖掘模型,并进行优化,以便得到更好的分类结果。
模型评估:对模型进行评价,并检查构建模型的每个步骤,确认模型是否实现了预定的商业目标。
上线发布:模型的作用是从数据中找到金矿,也就是我们所说的“知识”,获得的知识需要转化成用户可以使用的方式,呈现的形式可以是一份报告,也可以是实现一个比较复杂的、可重复的数据挖掘过程。数据挖掘结果如果是日常运营的一部分,那么后续的监控和维护就会变得重要。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《数据分析实战45讲》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(185)

  • Alex王伟健 置顶
    https://mubu.com/doc/y6YuGg_UA0
    有些挺耳熟,不过都还给老师了。工作中或者生活中多用应该就忘得少了

    编辑回复: 赞

    2018-12-19
    36
  • 三年二班邱小东
    老师你好,数学原理里面的内容需要到什么程度,才可以呢?数学这一模块是我很担心的,因为数学实在不怎么样。不知道有什么书籍可以提升这个方面的知识呢。以后常用的也就是这十大算法吗?

    作者回复: 如果很多人都有这个情况的话,我想抽个时间,给你整理一篇“白话数学基础:数学基础不好的人,如何理解数据挖掘算法”

    2018-12-19
    6
    98
  • Cathy
    体会:
        ①学渣与学霸最大的区别不是智商,而是学习方法和学习态度。作为一名计算机出身的工科女,曾经差点溺死在各类算法的海洋里,目前初入社会做产品,又差点迷失在数据的大山。个人还需要调整自己的学习方法和学习态度。
        ②当前个人接触的仅仅是数据收集、数据处理、数据分析、数据展现,看到老师的数据挖掘6步骤,感觉深奥许多,期待老师后续的详细讲解。
    课后思考:
        对于思考题,我想到了沃尔玛 “啤酒和尿布” 经典案例。沃尔玛正是将Apriori算法引入到POS机数据分析中,从而获得了营销上奇迹。简单说来就是在一个数据集中,找到经常出现的商品组合。当然Apriori算法的计算量很大,当商品数据量大时效率低,FP-Tree算法优化了该算法。

    作者回复: 总结的不错👍

    2018-12-19
    30
  • JingZ
    (1)数据挖掘学习方法体会:有了知识清单,相当于有了一个系统思维在那,对快速识别问题的确很有帮助~很好的方法方便实践,就像巴菲特和芒格的投资是使用的公司尽调清单一样,MECE的解决问题
    (2)基于电商商品的关联进行推荐从而提高销售的话,个人认为是Apriori算法,其为了提取频繁项集和一定置信度的关联规则,即用户购买了X产品有多大概率去买Y,根据置信度高的原则推荐

    作者回复: 总结的很好,大家可以看下。尤其是用到了MECE原则👍

    2018-12-19
    19
  • vincent
    数学太差,毕业很久了怎么学习呢?

    作者回复: 不用担心,很多人都有这个问题。我觉得你可以尝试:
    1、培养兴趣:兴趣是最好的老师,我们大自然的很多科学都是和数学相关,比如为什么雪花是六边形?
    2、刻意训练:你不需要通过做项目来做完整的数学训练,比如你和朋友去吃饭的时候,你可以脑算下一共花了多少钱?很多时候,心算是数学的一个能力
    3、价值暗示:数学可以帮你很多,尤其是在算法效率、代码质量上。很明显,数学好的人,写出来的算法效率也更高。
    所以一个代码完成后,你可以问自己个问题:还有没有更好的方法?

    2018-12-19
    19
  • Key.
    理解了数据比选择算法建立模型更重要。我觉得电商网站可以采用Apriori算法,因为通过挖掘频繁项集,可以探索到物品之间的联系,从而为商家提供销售思路!

    作者回复: 是的,Aprior是个挖掘商品关联关系的常用算法

    2018-12-19
    12
  • 五岳寻仙
    总结与思考:

    1. 商业理解:如老师之前所讲,数据挖掘是工具,要么帮我批处理,要么拓展我们思考的规模。也就是说问题本身是人能够处理得了的,只是受限与时间太长或者规模太大,需要借助计算机。人工智能是人思考的放大,如果一个问题人都想不通,指望借助人工智能算法解决,目前恐怕还不现实。遇到问题,首先要“商业理解”,形成一个思路,然后考虑如何借助算法。
    2. 问题归类:要解决的问题是属于分类,回归,聚类,还是关联分析等。每种类别的问题都有相对应的算法。不过有时候,对数据做不同的处理,能使问题适用于不同的算法。
    3. 数据准备:数据准备已经能提现个人思想了,处理常规的缺失值处理、标准化/归一化,更重要的是所谓的“特征工程”,它决定了数据呈现的方式。同样的数据,呈现方式不同,算法学到的东西也不同。
    4. 模型评估。有很多不同的评估指标,需要根据具体问题选择。模型的训练是一个最优化问题,目标不同,优化的方向也不同。

    课后思考题:

    根据老师文中讲到的方法,我觉得有如下这些方法可以用来做商品间关联分析:

    1. Apriori:文中提到是通过挖掘频繁项集,来揭示商品间关系。(不太了解这个算法,期待后续学习)
    2. KNN:通过临近商品,判断该商品的特征。我不确定是否试用,但感觉应该能解释商品间的相似性。

    以上是自己对课程的理解,有不对的地方,请老师和大家指正。
    2018-12-19
    11
  • HxScript
    文中的引子我深有体会:
    我本科就是学的石油工程。油藏的勘探、储量预测、钻井、采油的确对应了数据挖掘的发现业务中的key points、收集业务中的相关数据并建模、再将模型反代入业务进行模型持续的评估、输出可视化的数据分析结论以及报告。

    我们在储量预测(数据建模)的时候,也有很多针对不同应用场景的不同方法,增产期用什么、断块油藏用什么模型(将数据分类用什么、对数据进行关联分析用什么算法)


    再回答电商网站挖掘商品间的关联关系,提高销售额的问题:
    根据Apriori算法的描述,电商的推荐系统(大家熟知的啤酒尿片)应该就是用其建立的。
    当然也可能不止这一种,可能还会用分类算法,对用户分群建立用户画像,某一类用户画像,又通过pagerank算法,发现该用户画像下,出现概率高的商品,并进行推荐。

    以上是自己的浅薄理解,有误还望童靴们和老师指正~
    2018-12-19
    10
  • captain
    陈老师好~我是一名产品经理。目前掌握了简单的python语法,sql语句,在工作中主要使用Tableau作为数据分析工具。希望陈老师推荐下一些书籍(数据分析和统计学)谢谢

    作者回复: 《利用Python进行数据分析》(使用Python的人可以看看)
    《Pentaho Kettle解决方案》(ETL工程师会用到)
    《精益数据分析》(商业模式画布,如何构建数据指标体系)
    《Tableau数据可视化实战》(这个你应该会了)
    《看穿一切数字的统计学》
    《写给所有人的极简统计学》

    2018-12-19
    6
  • 花生
    觉得最难的不是算法,而是数据到算法选择过程中的衔接工作,比如特征工程。还有就是得到分析结果并不难,解释结果怎么来的,合理性分析很难。
    2019-02-11
    5
  • Robin
    apriori
    2018-12-20
    5
  • Chen
    决策树这块,C4.5和CART主要不同在哪呢?一般什么时候用C4.5,什么时候用CART呢?
    CART即是分类树,又是回归树,是即可以解决分类问题,又可以解决回归问题吗?怎么用呢?
    2018-12-26
    4
  • sarach

    一直对数据挖掘感兴趣,但没有找到合适的学习方法,通过这节课 系统的对数据挖掘算法整体有了个认识;希望之后的每一天都可以进步·~

    课后思考题:
    我觉得可以采用 ‘朴素贝叶斯(Naive Bayes)’ 对商品进行分类;
                           ‘ KNN ’ 商品的分类 邻近算法 知道有哪些相关的 分类;
                           使用关联Apriori 算法 对购买过相关品类的人进行推荐;来提升销售额;
    麻烦老师点评是否正确?
    2018-12-19
    4
  • 双木公子
    发现我天然具有学数据挖掘的条件,基础数学理论知识掌握的比较牢固,算法中的图论知识也比较感兴趣。
    2019-01-20
    3
  • 香ᝰAmyTian
    强烈要求老师整理一篇“白话数学基础:数学基础不好的人,如何理解数据挖掘算法”, 不然感觉后来会越来越迷茫的。 谢谢老师

    作者回复: 可以 多谢反馈 我和运营沟通下 争取做个专题出来

    2018-12-24
    3
  • 十二先森
    我大学不是计算机专业,学习这个概率和统计学从哪方面下手

    作者回复: 感谢关注,其实高中的时候,我们也会接触简单的概率论知识。这里你可以带着问题,去思考。先知道每个概念代表的意义即可,如果不能推导公式,没有关系。不影响你对“条件概率”“联合概率”的理解,也不会影响你使用这些工具,因为在python中都有相应的类库
    在使用的基础上,如果你想进一步探索概率论的原理,可以自己推导下这些公式,也可以多做一些相关练习,来加强自己的理解

    2018-12-19
    3
  • 凛冬里的匍匐者
    C4.5算法中的剪枝是什么意思?机器学习中的梯度下降法是不是也是以最优化方法为数学基础的?
    2018-12-19
    3
  • 追梦小乐
    咦 ,怎么没有隐马尔科夫HMM?

    作者回复: 这里只介绍十大经典算法,有一些算法没有放进去,深度学习,HMM这些确实用的也比较多

    2019-01-01
    2
  • denzel.mffl
    https://mubu.com/doc/fplKTT3Gln
    楼上推荐的幕布真是个好应用,总结特别方便,理解也更加深刻了,还可以导出思维导图。

    作者回复: 幕布确实很好用,我也是看到留言中不少人在用👍

    2018-12-23
    2
  • Louie Zhang
    可以使用Apriori算法得到各样品之间关联的程度大小,关联性越大,那么可将该对应商品捆绑销售,可达到提升销售额的目的。还望老师批评指正,谢谢!
    2018-12-21
    2
收起评论
99+
返回
顶部