09 | 数据抽样:大数据来了还需要抽样么?
该思维导图由 AI 生成,仅供参考
小数据下的抽样
- 深入了解
- 翻译
- 解释
- 总结
在大数据时代,数据抽样仍然是一种常见的数据分析手段。本文介绍了小数据抽样的四种常见方式:简单随机抽样、系统抽样、分层抽样和整群抽样,并阐述了每种抽样方法的特点和适用场景。同时,文章还探讨了大数据时代为何仍需要抽样的三个主要原因:数据分析目标、数据质量要求和数据量级增长。此外,文章还介绍了大数据中的抽样算法,包括蓄水池算法、过采样和欠采样。这些抽样方法在大数据计算中发挥着重要作用,有助于解决大数据分析问题。 文章首先通过一个统计印度新冠肺炎疫情的例子,介绍了数据抽样的概念,并详细讲解了小数据抽样的四种方法。随后,探讨了大数据时代为何仍需要抽样的三个主要原因,并阐述了大数据中的抽样算法,包括蓄水池算法、过采样和欠采样。通过这些内容,读者可以深入了解数据抽样在大数据时代的重要性和应用价值。 总的来说,本文通过实际案例和技术原理,全面介绍了数据抽样在大数据时代的重要性和应用方法,为读者提供了实用的数据抽样指导,帮助他们更好地理解和应用抽样方法进行数据分析。
《数据分析思维课》,新⼈⾸单¥59
全部留言(18)
- 最新
- 精选
- 80分过采样只是简单的复制数据,并没有增加新的信息,可能会导致模型过拟合;而欠采样又有可能造成数据缺失。
作者回复: 是,不过两害取其轻也只能如此
2021-09-1748 - 敏🌸哈哈哈越来越难,留言越来越少,看的越来越有意思,能看懂的越来越少
作者回复: 哈哈,尽量深入浅出
2021-11-083 - 不求计算机编程语言的随机如果和自然世界的随机是相同的话,那么是不是就是预言家了?
作者回复: 那就不是随机了,对么
2021-12-252 - 进化菌没想到,小数据下的抽样还分基本的随机抽样、系统抽样、分层抽样和整群抽样。大数据下的抽样有蓄水池抽样,欠采样和过采样。 抽样,其实用的挺广的吧,比如疫情下局部核酸的检测,比如过年全国回家人数的抽样,比如城市里单身人数的抽样……
作者回复: 是的,很基本的数据手段
2021-08-162 - geigei有多少人工就有多少智能 哈哈 人工智能就是个小娃娃 长成啥样就看背后的人教他什么了
作者回复: 是的!
2021-10-271 - Haoz长见识了,想到一个跟最近疫情比较相关的抽样例子,最近几次做的核酸检测都是 10 个人的样本放在同一根试管中,然后进行检测,可以极大提升检测的速度以及降低成本
作者回复: 那样本要分成多份测试吧,要不10个人全算阳性就惨了。
2021-10-231 - Geek9578过采样和欠采样很有用。请问过采样的缺点有哪些?
作者回复: 究竟不是所有数据,很可能出现偏差,特别是整体数据分布不确定的情况下。
2021-12-02 - lijia_toby老师把采样讲的真清楚,我在工作中确实用到了蓄水池算法。但我们的额外需求是要将池子里的数据去重,而且是分布式的蓄水池抽样。我没想清楚如何在分布式的环境下保存当前已经抽取的数量n,不知道老师有更优雅的实现代码吗?想学习一下
作者回复: 没太懂你的意思,可以用分布式数据库或者缓存来做这个事情,不用重复造轮子
2021-08-30 - 长脖子树代码里咋写了 前面K个印度人直接进入水池 我怀疑这是歧视 [手动狗头]
作者回复: 额。。。游泳池,或者换成大房子?
2021-08-19 - 那时刻大数据的采样方法,蓄水池算法以及过采样欠采样,是需要先了解数据分布之后,才能判断采用哪种采样方法?这样理解,对不? 另外,在大数据场景下,是否有重复采样的情况呢?
作者回复: 第一个问题,是的,不过要提前利用领域知识来给出结论,否则就是一个悖论,如果你要知道分布就要统计分析,如果你要统计分析那么就要抽样。 第二个问题,如果在数据源没有处理好的情况下,有这个可能的,一般处理数据都会去重。
2021-08-164