数据分析实战 45 讲
陈旸
清华大学计算机博士
123928 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 49 讲
第二模块:数据分析算法篇 (20讲)
第四模块:数据分析工作篇 (2讲)
数据分析实战 45 讲
15
15
1.0x
00:00/00:00
登录|注册

02丨学习数据挖掘的最佳路径是什么?

PageRank
Apriori
EM
K-Means
CART
Adaboost
KNN
SVM
朴素贝叶斯(Naive Bayes)
C4.5
最优化方法
图论
线性代数
概率论与数理统计
连接分析
关联分析
聚类算法
分类算法
上线发布
模型评估
模型建立
数据准备
数据理解
商业理解
数据挖掘的数学原理
数据挖掘的十大算法
数据挖掘的基本流程
学习数据挖掘的最佳路径是什么?

该思维导图由 AI 生成,仅供参考

上一节中,我给你分享了数据分析的全景图,其中最关键的部分就是数据挖掘,那什么是数据挖掘呢?
想象一下,茫茫的大海上,孤零零地屹立着钻井,想要从大海中开采出宝贵的石油。
对于普通人来说,大海是很难感知的,就更不用说找到宝藏了。但对于熟练的石油开采人员来说,大海是有坐标的。他们对地质做勘探,分析地质构造,从而发现哪些地方更可能有石油。然后用开采工具,进行深度挖掘,直到打到石油为止。
大海、地质信息、石油对开采人员来说就是数据源、地理位置、以及分析得到的结果。
而我们要做的数据挖掘工作,就好像这个钻井一样,通过分析这些数据,从庞大的数据中发现规律,找到宝藏。

数据挖掘,从知识清单开始

我们第一天学开车的时候一定不会直接上路,而是要你先学习基本的知识,然后再进行上车模拟。
只有对知识有全面的认知,才能确保在以后的工作中即使遇到了问题,也可以快速定位问题所在,然后找方法去对应和解决。
所以我列了一个数据挖掘的知识清单,分别是数据挖掘的基本流程、十大算法和数学原理,以此来开启我们的学习之旅。

数据挖掘的基本流程

在正式讲数据挖掘知识清单之前,我先和你聊聊数据挖掘的基本流程。
数据挖掘的过程可以分成以下 6 个步骤。
商业理解:数据挖掘不是我们的目的,我们的目的是更好地帮助业务,所以第一步我们要从商业的角度理解项目需求,在这个基础上,再对数据挖掘的目标进行定义。
数据理解:尝试收集部分数据,然后对数据进行探索,包括数据描述、数据质量验证等。这有助于你对收集的数据有个初步的认知。
数据准备:开始收集数据,并对数据进行清洗、数据集成等操作,完成数据挖掘前的准备工作。
模型建立:选择和应用各种数据挖掘模型,并进行优化,以便得到更好的分类结果。
模型评估:对模型进行评价,并检查构建模型的每个步骤,确认模型是否实现了预定的商业目标。
上线发布:模型的作用是从数据中找到金矿,也就是我们所说的“知识”,获得的知识需要转化成用户可以使用的方式,呈现的形式可以是一份报告,也可以是实现一个比较复杂的、可重复的数据挖掘过程。数据挖掘结果如果是日常运营的一部分,那么后续的监控和维护就会变得重要。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

学习数据挖掘的最佳路径需要掌握概率论、数理统计、线性代数、图论和最优化方法等数学原理。本文介绍了数据挖掘的基本流程和十大经典算法,包括C4.5、朴素贝叶斯、SVM、KNN、Adaboost、CART、Apriori、K-Means、EM和PageRank。这些算法在数据挖掘领域中得票最高,是数据挖掘的灵魂和精华部分。文章为读者提供了数据挖掘的知识清单和算法分类,为学习数据挖掘提供了指导和方向。同时,强调了理解数据挖掘的方法需要深刻了解其背后的数学原理,如概率论、数理统计、线性代数、图论和最优化方法。这些知识的掌握将有助于读者更好地运用数据挖掘在实际工作中。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《数据分析实战 45 讲》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(254)

  • 最新
  • 精选
  • Alexander
    置顶
    https://mubu.com/doc/y6YuGg_UA0 有些挺耳熟,不过都还给老师了。工作中或者生活中多用应该就忘得少了

    编辑回复: 赞

    2018-12-19
    2
    55
  • 三年二班邱小东
    老师你好,数学原理里面的内容需要到什么程度,才可以呢?数学这一模块是我很担心的,因为数学实在不怎么样。不知道有什么书籍可以提升这个方面的知识呢。以后常用的也就是这十大算法吗?

    作者回复: 如果很多人都有这个情况的话,我想抽个时间,给你整理一篇“白话数学基础:数学基础不好的人,如何理解数据挖掘算法”

    2018-12-19
    21
    222
  • Cathy
    体会: ①学渣与学霸最大的区别不是智商,而是学习方法和学习态度。作为一名计算机出身的工科女,曾经差点溺死在各类算法的海洋里,目前初入社会做产品,又差点迷失在数据的大山。个人还需要调整自己的学习方法和学习态度。 ②当前个人接触的仅仅是数据收集、数据处理、数据分析、数据展现,看到老师的数据挖掘6步骤,感觉深奥许多,期待老师后续的详细讲解。 课后思考: 对于思考题,我想到了沃尔玛 “啤酒和尿布” 经典案例。沃尔玛正是将Apriori算法引入到POS机数据分析中,从而获得了营销上奇迹。简单说来就是在一个数据集中,找到经常出现的商品组合。当然Apriori算法的计算量很大,当商品数据量大时效率低,FP-Tree算法优化了该算法。

    作者回复: 总结的不错👍

    2018-12-19
    2
    78
  • captain
    陈老师好~我是一名产品经理。目前掌握了简单的python语法,sql语句,在工作中主要使用Tableau作为数据分析工具。希望陈老师推荐下一些书籍(数据分析和统计学)谢谢

    作者回复: 《利用Python进行数据分析》(使用Python的人可以看看) 《Pentaho Kettle解决方案》(ETL工程师会用到) 《精益数据分析》(商业模式画布,如何构建数据指标体系) 《Tableau数据可视化实战》(这个你应该会了) 《看穿一切数字的统计学》 《写给所有人的极简统计学》

    2018-12-19
    42
  • vincent
    数学太差,毕业很久了怎么学习呢?

    作者回复: 不用担心,很多人都有这个问题。我觉得你可以尝试: 1、培养兴趣:兴趣是最好的老师,我们大自然的很多科学都是和数学相关,比如为什么雪花是六边形? 2、刻意训练:你不需要通过做项目来做完整的数学训练,比如你和朋友去吃饭的时候,你可以脑算下一共花了多少钱?很多时候,心算是数学的一个能力 3、价值暗示:数学可以帮你很多,尤其是在算法效率、代码质量上。很明显,数学好的人,写出来的算法效率也更高。 所以一个代码完成后,你可以问自己个问题:还有没有更好的方法?

    2018-12-19
    33
  • JingZ
    (1)数据挖掘学习方法体会:有了知识清单,相当于有了一个系统思维在那,对快速识别问题的确很有帮助~很好的方法方便实践,就像巴菲特和芒格的投资是使用的公司尽调清单一样,MECE的解决问题 (2)基于电商商品的关联进行推荐从而提高销售的话,个人认为是Apriori算法,其为了提取频繁项集和一定置信度的关联规则,即用户购买了X产品有多大概率去买Y,根据置信度高的原则推荐

    作者回复: 总结的很好,大家可以看下。尤其是用到了MECE原则👍

    2018-12-19
    25
  • Key.
    理解了数据比选择算法建立模型更重要。我觉得电商网站可以采用Apriori算法,因为通过挖掘频繁项集,可以探索到物品之间的联系,从而为商家提供销售思路!

    作者回复: 是的,Aprior是个挖掘商品关联关系的常用算法

    2018-12-19
    2
    19
  • 香ᝰAmyTian
    强烈要求老师整理一篇“白话数学基础:数学基础不好的人,如何理解数据挖掘算法”, 不然感觉后来会越来越迷茫的。 谢谢老师

    作者回复: 可以 多谢反馈 我和运营沟通下 争取做个专题出来

    2018-12-24
    10
  • 双木公子
    发现我天然具有学数据挖掘的条件,基础数学理论知识掌握的比较牢固,算法中的图论知识也比较感兴趣。

    作者回复: 很好!

    2019-01-20
    5
  • ①②③④⑤⑥⑦
    老师有没有比较好的推荐的python基础学习的书,或者课程。谢谢

    作者回复: 推荐两本Python书:《Python编程:入门到实践》《流畅的Python》

    2019-09-27
    4
收起评论
显示
设置
留言
99+
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部