• 80分
    2021-09-17
    过采样只是简单的复制数据,并没有增加新的信息,可能会导致模型过拟合;而欠采样又有可能造成数据缺失。

    作者回复: 是,不过两害取其轻也只能如此

    共 4 条评论
    8
  • 敏🌸
    2021-11-08
    哈哈哈越来越难,留言越来越少,看的越来越有意思,能看懂的越来越少

    作者回复: 哈哈,尽量深入浅出

    
    3
  • 不求
    2021-12-25
    计算机编程语言的随机如果和自然世界的随机是相同的话,那么是不是就是预言家了?

    作者回复: 那就不是随机了,对么

    
    2
  • 进化菌
    2021-08-16
    没想到,小数据下的抽样还分基本的随机抽样、系统抽样、分层抽样和整群抽样。大数据下的抽样有蓄水池抽样,欠采样和过采样。 抽样,其实用的挺广的吧,比如疫情下局部核酸的检测,比如过年全国回家人数的抽样,比如城市里单身人数的抽样……

    作者回复: 是的,很基本的数据手段

    
    2
  • geigei
    2021-10-27
    有多少人工就有多少智能 哈哈 人工智能就是个小娃娃 长成啥样就看背后的人教他什么了

    作者回复: 是的!

    
    1
  • Haoz
    2021-10-23
    长见识了,想到一个跟最近疫情比较相关的抽样例子,最近几次做的核酸检测都是 10 个人的样本放在同一根试管中,然后进行检测,可以极大提升检测的速度以及降低成本

    作者回复: 那样本要分成多份测试吧,要不10个人全算阳性就惨了。

    
    1
  • Geek9578
    2021-12-02
    过采样和欠采样很有用。请问过采样的缺点有哪些?

    作者回复: 究竟不是所有数据,很可能出现偏差,特别是整体数据分布不确定的情况下。

    
    
  • lijia_toby
    2021-08-30
    老师把采样讲的真清楚,我在工作中确实用到了蓄水池算法。但我们的额外需求是要将池子里的数据去重,而且是分布式的蓄水池抽样。我没想清楚如何在分布式的环境下保存当前已经抽取的数量n,不知道老师有更优雅的实现代码吗?想学习一下

    作者回复: 没太懂你的意思,可以用分布式数据库或者缓存来做这个事情,不用重复造轮子

    
    
  • 长脖子树
    2021-08-19
    代码里咋写了 前面K个印度人直接进入水池 我怀疑这是歧视 [手动狗头]

    作者回复: 额。。。游泳池,或者换成大房子?

    
    
  • 那时刻
    2021-08-16
    大数据的采样方法,蓄水池算法以及过采样欠采样,是需要先了解数据分布之后,才能判断采用哪种采样方法?这样理解,对不? 另外,在大数据场景下,是否有重复采样的情况呢?

    作者回复: 第一个问题,是的,不过要提前利用领域知识来给出结论,否则就是一个悖论,如果你要知道分布就要统计分析,如果你要统计分析那么就要抽样。 第二个问题,如果在数据源没有处理好的情况下,有这个可能的,一般处理数据都会去重。

    共 4 条评论
    