数据分析思维课
郭炜
前易观 CTO
38045 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 40 讲
数据分析思维课
15
15
1.0x
00:00/00:00
登录|注册

09 | 数据抽样:大数据来了还需要抽样么?

前k条数据被选取后,第k+1条数据要么被选取替代为前k条中的一条,要么不被选取,概率为k/n
如果被选中,在原集合序列中的n条数据中随机选择一条,替换为第k条的新数据
定义第k条数据选中的概率为:k/n
读到于第k条数据时:
将1~n条数据,存入待定长为n的集合序列,从这个序列里随机抽取k条数据,每条被抽取的概率为:k/n
过采样和欠采样
蓄水池算法
合理的抽样方法可以有效提升计算效率
大数据也要了解数据的构成,可以进行合理抽样
大数据下的统计分析也可以沿用小数据的抽样算法
整群抽样
分层抽样
系统抽样
简单随机抽样
附录:蓄水池算法明细
大数据中的抽样算法
大数据是否要抽样?
小数据下的抽样
数据抽样

该思维导图由 AI 生成,仅供参考

数据给你一双看透本质的眼睛,这里是《数据分析思维课》,我是郭炜。
今天我们来聊聊数据抽样。无论在小数据时代还是大数据时代里,数据抽样都是非常常见的数据分析手段。人口普查、调查问卷、人工智能训练的过采样等等都是抽样的方式。我们之前学到的随机对照分布、直方图,散点图等等内容,它们数据的来源其实大部分也都是来自抽样数据形成的数据。
用好了数据抽样,你就不必大费周章去拿到每一个人的数据,可以“四两拨千斤”,在非常复杂的数据环境里面找到合适的数据结论。所以我把数据抽样称作数据分析方法的“涡轮加速器”,用好它你可以快速地收集到你想要的数据,从而更好地指导你的工作和生活。

小数据下的抽样

数据抽样其实可以分成小数据抽样和大数据抽样,我们先从最常见的小数据抽样入手。小数据抽样有 4 种比较常见的方式,它们分别是简单随机抽样、系统抽样、分层抽样和整群抽样。为了便于你理解,我把这四种抽样放在一个情景下来给你讲解。
大情景是这样子的:印度的新冠肺炎疫情现在很严重,我们想知道大概印度新冠肺炎疫情发病率是多少。
这件事情我们该怎么做呢?让所有印度人都做一遍新冠测试是不太可能的,我们只能选取其中一小部分人来做测试。具体涉及选哪部分人的问题上,我们可以有四种不同的方式去选择:
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

在大数据时代,数据抽样仍然是一种常见的数据分析手段。本文介绍了小数据抽样的四种常见方式:简单随机抽样、系统抽样、分层抽样和整群抽样,并阐述了每种抽样方法的特点和适用场景。同时,文章还探讨了大数据时代为何仍需要抽样的三个主要原因:数据分析目标、数据质量要求和数据量级增长。此外,文章还介绍了大数据中的抽样算法,包括蓄水池算法、过采样和欠采样。这些抽样方法在大数据计算中发挥着重要作用,有助于解决大数据分析问题。 文章首先通过一个统计印度新冠肺炎疫情的例子,介绍了数据抽样的概念,并详细讲解了小数据抽样的四种方法。随后,探讨了大数据时代为何仍需要抽样的三个主要原因,并阐述了大数据中的抽样算法,包括蓄水池算法、过采样和欠采样。通过这些内容,读者可以深入了解数据抽样在大数据时代的重要性和应用价值。 总的来说,本文通过实际案例和技术原理,全面介绍了数据抽样在大数据时代的重要性和应用方法,为读者提供了实用的数据抽样指导,帮助他们更好地理解和应用抽样方法进行数据分析。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《数据分析思维课》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(18)

  • 最新
  • 精选
  • 80分
    过采样只是简单的复制数据,并没有增加新的信息,可能会导致模型过拟合;而欠采样又有可能造成数据缺失。

    作者回复: 是,不过两害取其轻也只能如此

    2021-09-17
    4
    8
  • 敏🌸
    哈哈哈越来越难,留言越来越少,看的越来越有意思,能看懂的越来越少

    作者回复: 哈哈,尽量深入浅出

    2021-11-08
    3
  • 不求
    计算机编程语言的随机如果和自然世界的随机是相同的话,那么是不是就是预言家了?

    作者回复: 那就不是随机了,对么

    2021-12-25
    2
  • 进化菌
    没想到,小数据下的抽样还分基本的随机抽样、系统抽样、分层抽样和整群抽样。大数据下的抽样有蓄水池抽样,欠采样和过采样。 抽样,其实用的挺广的吧,比如疫情下局部核酸的检测,比如过年全国回家人数的抽样,比如城市里单身人数的抽样……

    作者回复: 是的,很基本的数据手段

    2021-08-16
    2
  • geigei
    有多少人工就有多少智能 哈哈 人工智能就是个小娃娃 长成啥样就看背后的人教他什么了

    作者回复: 是的!

    2021-10-27
    1
  • Haoz
    长见识了,想到一个跟最近疫情比较相关的抽样例子,最近几次做的核酸检测都是 10 个人的样本放在同一根试管中,然后进行检测,可以极大提升检测的速度以及降低成本

    作者回复: 那样本要分成多份测试吧,要不10个人全算阳性就惨了。

    2021-10-23
    1
  • Geek9578
    过采样和欠采样很有用。请问过采样的缺点有哪些?

    作者回复: 究竟不是所有数据,很可能出现偏差,特别是整体数据分布不确定的情况下。

    2021-12-02
  • lijia_toby
    老师把采样讲的真清楚,我在工作中确实用到了蓄水池算法。但我们的额外需求是要将池子里的数据去重,而且是分布式的蓄水池抽样。我没想清楚如何在分布式的环境下保存当前已经抽取的数量n,不知道老师有更优雅的实现代码吗?想学习一下

    作者回复: 没太懂你的意思,可以用分布式数据库或者缓存来做这个事情,不用重复造轮子

    2021-08-30
  • 长脖子树
    代码里咋写了 前面K个印度人直接进入水池 我怀疑这是歧视 [手动狗头]

    作者回复: 额。。。游泳池,或者换成大房子?

    2021-08-19
  • 那时刻
    大数据的采样方法,蓄水池算法以及过采样欠采样,是需要先了解数据分布之后,才能判断采用哪种采样方法?这样理解,对不? 另外,在大数据场景下,是否有重复采样的情况呢?

    作者回复: 第一个问题,是的,不过要提前利用领域知识来给出结论,否则就是一个悖论,如果你要知道分布就要统计分析,如果你要统计分析那么就要抽样。 第二个问题,如果在数据源没有处理好的情况下,有这个可能的,一般处理数据都会去重。

    2021-08-16
    4
收起评论
显示
设置
留言
18
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部