数据分析思维课
郭炜
前易观 CTO
38045 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 40 讲
数据分析思维课
15
15
1.0x
00:00/00:00
登录|注册

04 | 随机对照试验:章鱼保罗真的是“预言帝”么?

结果倒推前期数据的产生过程
弹痕分析
结论与实际情况存在偏差
对照试验
随机
随机排列的重要性
奶茶试验
验证非常大的数据规律
例如计算机的随机数
产生的过程看似随机,实际上是确定的
用户反馈调查的“伪随机”问题
人脑在选择随机数时的规避
辨认幸存者偏差的方法
幸存者偏差的事情
数据分析方法和缘起的理解
对“沉默的数据”留一个心眼
学会“发现错误”
注意不能犯同样的“错误”
与随机对照试验的区别
例子
定义
重点
原理
用途
伪随机
生活中的“伪随机”
思考题
总结
幸存者偏差
随机对照试验
随机
数据分析思维课

该思维导图由 AI 生成,仅供参考

数据给你一双看透本质的眼睛,这里是《数据分析思维课》,我是郭炜。
你在生活中是否遇到过这样的现象:你参加了个小型聚会,竟然遇到了同月同日出生的人,你慨叹有缘的时候,可能并不知道这只是一个高概率事件?新做的一个界面 UI,用户调查显示客户满意度明显高于老版本,你的领导却跟你说这是“幸存者偏差”?以及,你觉得曾经在南非世界杯上“成功预测”德国小组赛赛果的“预言帝”章鱼保罗,真的有预测能力吗?
要真正了解这背后的玄机,就要理解作为数据分析界最伟大的原理之一的“随机对照试验”。不过在进入正题之前,你先要弄清楚一个重要的概念——“随机”。你可能觉得这个很简单,“随机”不就是要确保每个个体被抽取的概率相同么?但是生活中充斥着太多的“伪随机”,会影响我们的判断结果。那到底什么是伪随机呢?我们接着往下看。

你认为的随机其实都是“伪随机”

我们来玩一个小游戏:你现在闭上眼睛,马上在 0 到 20 之间想一个数,然后我来猜。好,想好了吧?我可以告诉你,大概率你不会选 5 和 15 这两个数字。不信的话,你不妨试一试,或者和朋友们玩一下这个小游戏。
为什么我会这么确信你大概率不会选 5 和 15 呢,因为人脑在选择随机数的时候,会刻意规避一些有规律的数字,这反而让这些随机数变得“不随机”了。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

本文通过介绍“随机对照试验”原理,揭示了“伪随机”现象对数据分析的影响。作者以“章鱼保罗”预测世界杯赛果和用户调查满意度为例,指出了“伪随机”现象的普遍存在。文章以“奶茶试验”为例,详细解释了随机对照试验的原理和重要性。通过随机分组和对照组设置,随机对照试验能够验证数据的真实性,解决了在不确定问题下的验证难题。文章通过生动的案例和简洁的语言,向读者阐释了数据分析中的“随机对照试验”原理和应用,对于理解数据分析思维具有重要的指导意义。此外,文章还介绍了幸存者偏差的概念,强调了在数据分析中避免采用非随机结果来证明观点的重要性。最后,文章提出了思考题,鼓励读者分享在工作和学习中遇到的幸存者偏差的事情,并探讨如何辨认出这种偏差。整体而言,本文通过深入浅出的方式,引导读者了解数据分析中的关键概念,提高对数据分析方法和缘起的理解,帮助读者在生活中做出更有效的决策。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《数据分析思维课》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(56)

  • 最新
  • 精选
  • 回会灰
    知乎上人均年薪百万就是典型的幸存者偏差吧?

    作者回复: 是,积极发言的人都是有成就的人

    2021-08-18
    3
    39
  • 那时刻
    请问老师,文中提到随机分组遵从双盲设计的前提条件,也就是研究者和受试者双方均无法知晓分组结果。在女士品茶的实验中,费希尔是研究者,而受试者是女士,例子中貌似费希尔是知道分组结果的?我的理解是他知道哪些奶茶先放红茶?不知哪里哪里有误解。

    作者回复: 你说的对! 这个实验中的确有这个瑕疵,它是第一次起源,所以还没有后续那么严格的要求,是逐步发展到现在很科学定义的。

    2021-08-04
    2
    17
  • 芳菲
    “中考有50%的人上不了高中”很多人看到这个结论都觉得不可思议,说现在上高中怎么这么难了,不像自己以前大家都能上高中。 这其实就是幸存者偏差,高中升学率一直是差不多50%,只是因为身边的人都上了就误以为原来升学率高,现在低。

    作者回复: 是的,如何解读数据,其实更重要

    2021-08-06
    3
    11
  • Geek_7ef8cd
    在《原因与结果的经济学》这本书中有系统的了解随机对照试验的出现背景和使用目的。面对一件事情的发生,人类总想要探究这件事发生的原因。于是人们基于推理判断认为可能是某个原因A导致了B事件的发生,如果有一个平行时空,那我们在另一个平行时空中观察一下,如果没有A,B就不会发生,那么可以说明A是B事件发生的原因。但是,现实世界没有平行时空,怎么创造与事实相反的反事实呢?方案就是创造随机对照试验,随机分为两个组,一个实验组,一个对照组。实验组就是模拟平行时空的“反事实”。重要的在于,如何科学分组,让两个组内的样本水平在各维度一致。

    作者回复: 补充的好!

    2021-10-15
    8
  • 轮子制造者
    事实上,“沉默的数据”永远要比实验数据更多,一定意义上来说我们得到的结论都存在一定的“偏差”,也就是通俗意义上讲的“认知局限”,只不过随着大数据的不断发展,这种局限性和偏差越来越小。

    作者回复: 是的!

    2021-08-21
    8
  • 钱鹏 Allen
    为什么大美女的男朋友都很丑?标题下一通分析,其实该选题就选择了一个大家都很诧异的点,因为我们倾向俊男靓女。 为什么考试没过?为什么他拿到offer了?这些问题不是好奇问题的答案,更多是想宣泄情绪。 用数据分析自己的结果,我们更能理性从容面对结果。

    作者回复: 是的!

    2021-08-14
    8
  • Flychen
    我们村二狗子大学毕业找不到工作,去工地搬砖了个,所以上学无用 用单个个体得出某结论,非常荒谬,这个过程忽略了沉默的数据 还有女博士,前几年似乎被黑的也挺狠

    作者回复: 是的,新闻就是为了博取眼球,不仔细鉴别的话,大家就落入数据陷阱当中了。

    2021-08-07
    8
  • 微秒
    老师,我们以奶茶实验作为例子,这里的随机性我理解是通过随机排列和单次概率为50%构成的,但是对照组体现在哪里呢??

    作者回复: 对照组是那些区分不出来奶茶的妇人们,这个实验瑕疵是实验者可能知道结果,不算双盲,不过作为提出思路的鼻祖,规则都是后期完善的

    2021-08-04
    2
    8
  • Reeves
    随机对照受限数据采集的样本数,但是抛开这一点,我们采集到的数据的真实性或有效性也很关键,特别是在做调研或访谈的时候,往往人们表现出来的东西都是自我过滤过的,这是心理学层面上的了,我们一直说数据不会说谎,但是数据可能本身就是错误的。这种现象怎么处理呢?我个人比较倾向于从行为上去获取数据而不是从语言表述上。

    作者回复: 同意!不要看别人说了什么,而要看对方做了什么

    2021-09-26
    6
  • 不再是入门水平python的小宇
    记得大学毕业毕业论文答辩的时候,我做的是问卷调查的形式,答辩那天老师问我,你如何保证你做的问卷是随机的有效的?当时我的论文是关于校园贷的一个话题,我说我随机在不同宿舍楼、图书馆发放问卷,结合老师这次讲的内容,我想了想,当时我的问卷能够完整给出“答案”,形成“有效”样本的数据其实都是伪随机的,因为完整填问卷的就是可能对网贷有了解的,没有了解的同学可能并没有怎么好好填。

    作者回复: 是的,准确调研问卷调查是一个学问,心理学,统计学和业务综合才可以做的很优秀,否则就不会走这么多调研公司存在了

    2021-08-23
    4
收起评论
显示
设置
留言
56
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部