数据分析实战45讲
陈旸
清华大学计算机博士
立即订阅
17314 人已学习
课程目录
已完结 48 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 你为什么需要数据分析能力?
免费
第一模块:数据分析基础篇 (16讲)
01丨数据分析全景图及修炼指南
02丨学习数据挖掘的最佳路径是什么?
03丨Python基础语法:开始你的Python之旅
04丨Python科学计算:用NumPy快速处理数据
05丨Python科学计算:Pandas
06 | 学数据分析要掌握哪些基本概念?
07 | 用户画像:标签化就是数据的抽象能力
08 | 数据采集:如何自动化采集数据?
09丨数据采集:如何用八爪鱼采集微博上的“D&G”评论
10丨Python爬虫:如何自动化下载王祖贤海报?
11 | 数据科学家80%时间都花费在了这些清洗任务上?
免费
12 | 数据集成:这些大号一共20亿粉丝?
13 | 数据变换:考试成绩要求正态分布合理么?
14丨数据可视化:掌握数据领域的万金油技能
15丨一次学会Python数据可视化的10种技能
16丨数据分析基础篇答疑
第二模块:数据分析算法篇 (20讲)
17 丨决策树(上):要不要去打篮球?决策树来告诉你
18丨决策树(中):CART,一棵是回归树,另一棵是分类树
19丨决策树(下):泰坦尼克乘客生存预测
20丨朴素贝叶斯分类(上):如何让机器判断男女?
21丨朴素贝叶斯分类(下):如何对文档进行分类?
22丨SVM(上):如何用一根棍子将蓝红两色球分开?
23丨SVM(下):如何进行乳腺癌检测?
24丨KNN(上):如何根据打斗和接吻次数来划分电影类型?
25丨KNN(下):如何对手写数字进行识别?
26丨K-Means(上):如何给20支亚洲球队做聚类?
27丨K-Means(下):如何使用K-Means对图像进行分割?
28丨EM聚类(上):如何将一份菜等分给两个人?
29丨EM聚类(下):用EM算法对王者荣耀英雄进行划分
30丨关联规则挖掘(上):如何用Apriori发现用户购物规则?
31丨关联规则挖掘(下):导演如何选择演员?
32丨PageRank(上):搞懂Google的PageRank算法
33丨PageRank(下):分析希拉里邮件中的人物关系
34丨AdaBoost(上):如何使用AdaBoost提升分类器性能?
35丨AdaBoost(下):如何使用AdaBoost对房价进行预测?
36丨数据分析算法篇答疑
第三模块:数据分析实战篇 (7讲)
37丨数据采集实战:如何自动化运营微博?
38丨数据可视化实战:如何给毛不易的歌曲做词云展示?
39丨数据挖掘实战(1):信用卡违约率分析
40丨数据挖掘实战(2):信用卡诈骗分析
41丨数据挖掘实战(3):如何对比特币走势进行预测?
42丨当我们谈深度学习的时候,我们都在谈什么?
43丨深度学习(下):如何用Keras搭建深度学习网络做手写数字识别?
第四模块:数据分析工作篇 (2讲)
44丨如何培养你的数据分析思维?
45丨求职简历中没有相关项目经验,怎么办?
加餐 (1讲)
加餐丨在社交网络上刷粉刷量,技术上是如何实现的?
结束语 (1讲)
结束语丨当大家都在讲知识和工具的时候,我更希望你重视思维和实战
数据分析实战45讲
登录|注册

06 | 学数据分析要掌握哪些基本概念?

陈旸 2018-12-26
美国明尼苏达州一家 Target 百货被客户投诉,这名客户指控 Target 将婴儿产品优惠券寄给他的女儿,而他女儿还是一名高中生。但没多久这名客户就来电道歉,因为女儿经他逼问后坦承自己真的怀孕了。
Target 百货寄送婴儿产品优惠券绝非偶然之举,他们发现妇女在怀孕的情况下,购买的物品会发生变化,比如护手霜会从有香味的改成无味的,此外还会购买大量维生素等保健品。通过类似的关联分析,Target 构建了一个“怀孕预测指数”,通过这个指数预测到了顾客已经怀孕的情况,并把优惠券寄送给她。
那么顾客怀孕与商品之间的关联关系是如何被发现的呢?
实际上他们都是用的 Apriori 算法,该算法是由美国学者 Agrawal 在 1994 年提出的。他通过分析购物篮中的商品集合,找出商品之间的关联关系。利用这种隐性关联关系,商家就可以强化这类购买行为,从而提升销售额。
这就是数据分析的力量,人们总是从数据分析中得到有价值的信息,啤酒和尿布的故事也是个经典的案例。如今在超市中,我们还能看到不少组合的套装打包在一起卖,比如宝洁的产品:飘柔洗发水 + 玉兰油沐浴露、海飞丝洗发水 + 舒肤佳沐浴露等等。
商品的捆绑销售是个很有用的营销方式,背后都是数据分析在发挥作用。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《数据分析实战45讲》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(94)

  • JingZ
    AA

    项目经历:
    作为一个致力成为公募基金的行业研究员,平时会用excel做底稿处理数据作图分析趋势,然后写成深度报告。

    最近在分析疫苗行业批签发的数据,从官网复制到excel中,10年数据,每年5500条数据,然后在excel处理写公式数据清洗除去重复的数据,统一单位,统一格式,预处理完之后,数据透视表选择变量来看批签发数据趋势,最后做出各类条形图、饼图、雷达图等等,写成报告做成ppt路演😀😀在处理数据时急需用python加快效率
    2018-12-26
    1
    30
  • xiao豪
    答案AA
    第二题
    分类是已知多个类型,输入一个数据就能自动将它归类。
    聚类则是将特征相似的数据划分出来。
    自然语音处理文本语言相关的问题

    将两个毫不相关的物品关联起来,这是关联规则发现。


    我觉得数据挖掘的最大价值是洞察人性。
    2018-12-26
    1
    16
  • Conan
    两题都选A。
    追女孩的例子真是一目了然:)

    作者回复: 哈哈 很多人想让我做一个白话数学基础的介绍,所以我先把这些概念用“追女孩”的例子解释了下

    2018-12-26
    12
  • frazer
    这是找女朋友要AA么?
    2018-12-26
    9
  • 蜘蛛的梦呓
    相亲网站

    构建数据仓库
    首先我们通过各种渠道获得各大网站的女孩信息数据,这时的数据是不能直接用来分析的。我们需要通过数据清洗,去除重复的女孩数据,去除描述失实的干扰数据,并且填充缺失值(如:165填充为165cm)。
    然后,为了方便分析,我们需要数据集成,即把各大网站清洗后的相亲数据存储在一个地方。
    当然,有些数据度量单位不一致,这时就需要我们通过数据变换,变成统一的度量单位,最后就能形成我们的数据仓库了。

    数据挖掘
    由于相亲网站的数据量比较庞大,多到你看不过来(比如:5W 条),这时,你就可以使用聚类算法了,它帮你把这些女孩的数据,根据群组特性分成多个群组,比如分成 5个组。再对每个群组的特性进行了解,进行决策,5W → 5个群组的决策,成功实现降维,提升效率。

    商业智能
    通过构建数据仓库和数据挖掘之后,我们已经得到了相当多的数据,但是上帝不会告诉我们规律!我们需要知道心仪的女孩是谁?这就需要商业智能了,商业智能可以说是,基于数据仓库,经过数据挖掘,找到心仪女孩的过程,它能告诉你追到她的成功率有多大,辅助你的决策。
    2018-12-26
    7
  • Alex王伟健
    A,A
    从看似毫无关系的数据中提炼出金子
    幕布笔记:
    https://mubu.com/doc/grrP8_KQ60
    2018-12-26
    6
  • 大萌
    1、A
    2、A
    数据挖掘自我理解:
           随着互联网的发展,数据量越来越大与模型算法的不断完善,在这些基础之上,数据挖掘的崛起是必不可少的。简单来说,数据挖掘就是在沙子里淘金子一样,在一大堆数据中,找寻数据的规律,得到我们想知道的某种结果,从而让数据发挥价值,而不是单纯的只是数据而已。
    项目经历:
           毕业半年,个人是从计算机转数据分析岗位,之前对数学知识所知甚少,接触的第一个项目是用户画像,所谓用户画像就是标签的汇总,从用户不同维度的信息当中提取有价值的特征从而构建标签库,最后从标签库探索信息,从而构建用户画像。
           也算是走了一个完整的数据分析流程,从最开始的数据理解、数据预处理、特征选择、以及构建画像时运用到的聚类算法,实现不同人群的划分,使每类用户都具有一些鲜明的特征,从而提高产品服务或者是提升利润。
    我看老师在目录中也有用户画像的标题,希望能从老师这获取用户画像的建议和思路来验证自己的方向是否正确,也希望跟着老师学习更多的数据挖掘知识。
    2018-12-27
    3
  • Chen
    老师好,明年要校招,看到有很多的职位,有商业智能、数据分析、数据挖掘等的几大岗位,它们之间有很多的区别,但又感觉很像。我想做的是使用python进行数据分析,使用机器学习的算法进行模型训练,我应该怎么去识别适合我的职位呢?
    2018-12-26
    3
  • 皮蛋
    没太明白聚类和分类区别
    2019-02-19
    2
    2
  • FORWARD―MOUNT
    回答问题:如何理解数据挖掘的价值的?

    数据挖掘的价值,其实这是个很大的话题。正因为我做的是数据挖掘的行业,深刻理解一个互联网产品是怎样的一个演变流程,数据如何驱动运营,如何影响决策,最终决定产品走向。这些都是数据挖掘在做支撑。对于电商行业,可以通过数据挖掘引导采购,识别爆款等等,数据挖掘不止赋能于业务部门,更是从公司战略层面给与重大决策支持,以及评估业务上的重大策略效果。
    2019-01-20
    2
  • 蜘蛛的梦呓
    有一天,你的朋友介绍一个女孩给你,告诉你她的元数据(即身高,样貌,联系方式、兴趣、爱好等),这些女孩属性的集合就是数据元。
    经过朋友介绍,见面后,感觉不错,想要继续发展,你朋友的信息已经不够用了,你需要更多的信息。
    你根据她的微博、朋友圈,通过关联分析,找到她的闺蜜,然后,收买她的闺蜜,为你监控她的一举一动,帮你营造合适的表白时机。
    2018-12-26
    2
  • 舒成
    老师讲的整个流程都走了一遍,我一边看文稿,一边回忆自己的工作,对做的工作内容界定更清晰了。比如数据预处理中有选择数据子集的概念和特征工程的概念,这是决定分析预测结果最重要的一步。
    今晚8:30咱们直播见!老师开直播了,大家快来围观!
    2018-12-26
    2
  • qinggeouye
    1. A : Knowledge Discovery in DataBase
    2. A : Priori Algorithm

    作者回复: 对的

    2019-11-03
    1
    1
  • 羊小看
    AA
    类别标签已知,可以分类,生成分类模型,用于判断无分类标签的新数据;类别标签未知,可以聚类,用于将人群分成几组,做用户画像,根据人群的不同特征来做针对性营销。
    2019-05-18
    1
  • 杰之7
    通过这一节的学习,理解了商业智能,数据仓库,数据挖掘的的原理。一句话,通过对仓库中的数据进行数据挖掘,产生有价值的内容就是商业智能。

    在数据挖掘的过程中,有分类,聚类,关联分析,预测四种情况。通过对训练集的训练之后,对测试集进行测试,达到自动分类的作用。物以类聚,通过事物的相似度,进行聚类。通过对商品之间的相关性进行统计计算,就是关联分析。对过去产生的数据,对将可能发生的数据进行预测,就是预测分析。

    AA。
    2019-01-29
    1
  • 柚子
    两题都选A。
    对数据挖掘的理解:数据挖掘是从海量数据中寻找规律和价值,从而更好地服务商业。但是这些数据基于特定环境下的历史数据,而要预测和挖掘的是未来的价值,所以我觉得数据挖掘应该是基于未来和过去的大环境和人们行为变化不大的理想情况下进行的
    2019-01-19
    1
  • 程序员小熊猫
    A A
    KDD: knowledge discovery in database

    数据挖掘的价值:
    世界上的数据实在是太庞大了,各种各样的数据都有,数据挖掘的价值就在于从这些数据中找到我想要的东西,所以首先要确定的是我的目标,我想要什么,带着目的去数据中找寻规律,去挖掘我想要的东西
    2019-01-09
    1
  • EICKE
    元数据和数据元 的区别就像是故弄玄虚 生造的概念。
    2019-01-07
    1
  • 修行者
    # 两题都是A
    # 数据挖掘的价值
    没做过数据挖掘相关的项目,对数据挖掘确实没有很多的认识,我理解的数据挖掘的价值是在大规模数据中,发现数据之间的关系,然后以可视化的形式展现出来,为用户或者商业提供决策帮助,或者描述出相对应的用户画像,可以进一步商业推荐,产生商业上的价值

    # 整理的笔记
    个人博客:https://bodycoder101.github.io/

    # 数据分析需要掌握的概念

    ## 什么是BI、DW、DM?

    - 商业智能(Business Intelligence,BI):基于数据仓库,经过了数据挖掘后,得到了商业价值的过程
    - 数据仓库(Data Warehouse,DW):数据仓库将多个数据源进行汇总、整理,数据仓库量比较庞大,相比数据库是升级的概念
    - 数据挖掘(Data Mining,DM):包括分类、聚类、预测、关联分析等任务,从数据仓库中得到有用的信息,绘制成商业报告

    ## 元数据 VS 数据元

    - 元数据(MetaData): 描述其他数据的数据,也称为“中介数据”
        - 比如说图书的信息,包含书名、作者等
    - 数据元(Data Element):最小的数据单元
        - 在图书这个元数据中,书名、作者、出版社都是数据元

    ## 数据挖掘的流程

    英文解释为 Knowledge Discovery in Database,KDD,数据库中的知识发现
    包含**分类、聚类、预测和关联分析**

    - 分类:通过训练得到一个分类模型,然后用这个模型对其他的数据进行分类
    - 聚类:聚类就是将数据自动聚类成几个类别,聚在一起的相似度大
    - 预测:通过当前和历史数据来预测未来趋势
    - 关联分析:发现数据中的关联规则,典型应用在购物篮分析

    KDD 过程:
    输入数据 -> 数据预处理 -> 数据挖掘 -> 后处理 -> 信息

    数据预处理通常包括:
    - 数据清洗:去除重复数据,去噪声
    - 数据集成:将多个数据源数据统一存放在数据存储中
    - 数据变换:将数据转换成合适的数据挖掘形式,比如相同的计量单位

    数据后处理:将模型预测的结果进一步处理导出

    > 上帝不会告诉我们规律,而是展示给我们数据
    2019-01-02
    1
  • 毛毛
    听了老师的这几节课,感觉有点上瘾。之前只是做一些大数据开发相关的业务,现在看了老师的数据分析,清晰易懂而且感觉老师对数据分析起来就跟玩儿是的,很是佩服。比我订阅的其他栏目更有学习的冲动。谢谢!
    2018-12-29
    1
收起评论
94
返回
顶部