极客时间-轻松学习，高效学习-极客邦

80分
2021-09-17
过采样只是简单的复制数据，并没有增加新的信息，可能会导致模型过拟合；而欠采样又有可能造成数据缺失。
作者回复: 是，不过两害取其轻也只能如此
共 4 条评论
8
敏🌸
2021-11-08
哈哈哈越来越难，留言越来越少，看的越来越有意思，能看懂的越来越少
作者回复: 哈哈，尽量深入浅出
3
不求
2021-12-25
计算机编程语言的随机如果和自然世界的随机是相同的话，那么是不是就是预言家了？
作者回复: 那就不是随机了，对么
2
进化菌
2021-08-16
没想到，小数据下的抽样还分基本的随机抽样、系统抽样、分层抽样和整群抽样。大数据下的抽样有蓄水池抽样，欠采样和过采样。抽样，其实用的挺广的吧，比如疫情下局部核酸的检测，比如过年全国回家人数的抽样，比如城市里单身人数的抽样……
作者回复: 是的，很基本的数据手段
2
geigei
2021-10-27
有多少人工就有多少智能哈哈人工智能就是个小娃娃长成啥样就看背后的人教他什么了
作者回复: 是的！
1
Haoz
2021-10-23
长见识了，想到一个跟最近疫情比较相关的抽样例子，最近几次做的核酸检测都是 10 个人的样本放在同一根试管中，然后进行检测，可以极大提升检测的速度以及降低成本
作者回复: 那样本要分成多份测试吧，要不10个人全算阳性就惨了。
1
Geek9578
2021-12-02
过采样和欠采样很有用。请问过采样的缺点有哪些？
作者回复: 究竟不是所有数据，很可能出现偏差，特别是整体数据分布不确定的情况下。
lijia_toby
2021-08-30
老师把采样讲的真清楚，我在工作中确实用到了蓄水池算法。但我们的额外需求是要将池子里的数据去重，而且是分布式的蓄水池抽样。我没想清楚如何在分布式的环境下保存当前已经抽取的数量n，不知道老师有更优雅的实现代码吗？想学习一下
作者回复: 没太懂你的意思，可以用分布式数据库或者缓存来做这个事情，不用重复造轮子
长脖子树
2021-08-19
代码里咋写了前面K个印度人直接进入水池我怀疑这是歧视 [手动狗头]
作者回复: 额。。。游泳池，或者换成大房子？
那时刻
2021-08-16
大数据的采样方法，蓄水池算法以及过采样欠采样，是需要先了解数据分布之后，才能判断采用哪种采样方法？这样理解，对不？另外，在大数据场景下，是否有重复采样的情况呢？
作者回复: 第一个问题，是的，不过要提前利用领域知识来给出结论，否则就是一个悖论，如果你要知道分布就要统计分析，如果你要统计分析那么就要抽样。第二个问题，如果在数据源没有处理好的情况下，有这个可能的，一般处理数据都会去重。
共 4 条评论