04 | 随机对照试验:章鱼保罗真的是“预言帝”么?
郭炜
该思维导图由 AI 生成,仅供参考
数据给你一双看透本质的眼睛,这里是《数据分析思维课》,我是郭炜。
你在生活中是否遇到过这样的现象:你参加了个小型聚会,竟然遇到了同月同日出生的人,你慨叹有缘的时候,可能并不知道这只是一个高概率事件?新做的一个界面 UI,用户调查显示客户满意度明显高于老版本,你的领导却跟你说这是“幸存者偏差”?以及,你觉得曾经在南非世界杯上“成功预测”德国小组赛赛果的“预言帝”章鱼保罗,真的有预测能力吗?
要真正了解这背后的玄机,就要理解作为数据分析界最伟大的原理之一的“随机对照试验”。不过在进入正题之前,你先要弄清楚一个重要的概念——“随机”。你可能觉得这个很简单,“随机”不就是要确保每个个体被抽取的概率相同么?但是生活中充斥着太多的“伪随机”,会影响我们的判断结果。那到底什么是伪随机呢?我们接着往下看。
你认为的随机其实都是“伪随机”
我们来玩一个小游戏:你现在闭上眼睛,马上在 0 到 20 之间想一个数,然后我来猜。好,想好了吧?我可以告诉你,大概率你不会选 5 和 15 这两个数字。不信的话,你不妨试一试,或者和朋友们玩一下这个小游戏。
为什么我会这么确信你大概率不会选 5 和 15 呢,因为人脑在选择随机数的时候,会刻意规避一些有规律的数字,这反而让这些随机数变得“不随机”了。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
本文通过介绍“随机对照试验”原理,揭示了“伪随机”现象对数据分析的影响。作者以“章鱼保罗”预测世界杯赛果和用户调查满意度为例,指出了“伪随机”现象的普遍存在。文章以“奶茶试验”为例,详细解释了随机对照试验的原理和重要性。通过随机分组和对照组设置,随机对照试验能够验证数据的真实性,解决了在不确定问题下的验证难题。文章通过生动的案例和简洁的语言,向读者阐释了数据分析中的“随机对照试验”原理和应用,对于理解数据分析思维具有重要的指导意义。此外,文章还介绍了幸存者偏差的概念,强调了在数据分析中避免采用非随机结果来证明观点的重要性。最后,文章提出了思考题,鼓励读者分享在工作和学习中遇到的幸存者偏差的事情,并探讨如何辨认出这种偏差。整体而言,本文通过深入浅出的方式,引导读者了解数据分析中的关键概念,提高对数据分析方法和缘起的理解,帮助读者在生活中做出更有效的决策。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《数据分析思维课》,新⼈⾸单¥59
《数据分析思维课》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(56)
- 最新
- 精选
- 回会灰知乎上人均年薪百万就是典型的幸存者偏差吧?
作者回复: 是,积极发言的人都是有成就的人
2021-08-18339 - 那时刻请问老师,文中提到随机分组遵从双盲设计的前提条件,也就是研究者和受试者双方均无法知晓分组结果。在女士品茶的实验中,费希尔是研究者,而受试者是女士,例子中貌似费希尔是知道分组结果的?我的理解是他知道哪些奶茶先放红茶?不知哪里哪里有误解。
作者回复: 你说的对! 这个实验中的确有这个瑕疵,它是第一次起源,所以还没有后续那么严格的要求,是逐步发展到现在很科学定义的。
2021-08-04217 - 芳菲“中考有50%的人上不了高中”很多人看到这个结论都觉得不可思议,说现在上高中怎么这么难了,不像自己以前大家都能上高中。 这其实就是幸存者偏差,高中升学率一直是差不多50%,只是因为身边的人都上了就误以为原来升学率高,现在低。
作者回复: 是的,如何解读数据,其实更重要
2021-08-06311 - Geek_7ef8cd在《原因与结果的经济学》这本书中有系统的了解随机对照试验的出现背景和使用目的。面对一件事情的发生,人类总想要探究这件事发生的原因。于是人们基于推理判断认为可能是某个原因A导致了B事件的发生,如果有一个平行时空,那我们在另一个平行时空中观察一下,如果没有A,B就不会发生,那么可以说明A是B事件发生的原因。但是,现实世界没有平行时空,怎么创造与事实相反的反事实呢?方案就是创造随机对照试验,随机分为两个组,一个实验组,一个对照组。实验组就是模拟平行时空的“反事实”。重要的在于,如何科学分组,让两个组内的样本水平在各维度一致。
作者回复: 补充的好!
2021-10-158 - 轮子制造者事实上,“沉默的数据”永远要比实验数据更多,一定意义上来说我们得到的结论都存在一定的“偏差”,也就是通俗意义上讲的“认知局限”,只不过随着大数据的不断发展,这种局限性和偏差越来越小。
作者回复: 是的!
2021-08-218 - 钱鹏 Allen为什么大美女的男朋友都很丑?标题下一通分析,其实该选题就选择了一个大家都很诧异的点,因为我们倾向俊男靓女。 为什么考试没过?为什么他拿到offer了?这些问题不是好奇问题的答案,更多是想宣泄情绪。 用数据分析自己的结果,我们更能理性从容面对结果。
作者回复: 是的!
2021-08-148 - Flychen我们村二狗子大学毕业找不到工作,去工地搬砖了个,所以上学无用 用单个个体得出某结论,非常荒谬,这个过程忽略了沉默的数据 还有女博士,前几年似乎被黑的也挺狠
作者回复: 是的,新闻就是为了博取眼球,不仔细鉴别的话,大家就落入数据陷阱当中了。
2021-08-078 - 微秒老师,我们以奶茶实验作为例子,这里的随机性我理解是通过随机排列和单次概率为50%构成的,但是对照组体现在哪里呢??
作者回复: 对照组是那些区分不出来奶茶的妇人们,这个实验瑕疵是实验者可能知道结果,不算双盲,不过作为提出思路的鼻祖,规则都是后期完善的
2021-08-0428 - Reeves随机对照受限数据采集的样本数,但是抛开这一点,我们采集到的数据的真实性或有效性也很关键,特别是在做调研或访谈的时候,往往人们表现出来的东西都是自我过滤过的,这是心理学层面上的了,我们一直说数据不会说谎,但是数据可能本身就是错误的。这种现象怎么处理呢?我个人比较倾向于从行为上去获取数据而不是从语言表述上。
作者回复: 同意!不要看别人说了什么,而要看对方做了什么
2021-09-266 - 不再是入门水平python的小宇记得大学毕业毕业论文答辩的时候,我做的是问卷调查的形式,答辩那天老师问我,你如何保证你做的问卷是随机的有效的?当时我的论文是关于校园贷的一个话题,我说我随机在不同宿舍楼、图书馆发放问卷,结合老师这次讲的内容,我想了想,当时我的问卷能够完整给出“答案”,形成“有效”样本的数据其实都是伪随机的,因为完整填问卷的就是可能对网贷有了解的,没有了解的同学可能并没有怎么好好填。
作者回复: 是的,准确调研问卷调查是一个学问,心理学,统计学和业务综合才可以做的很优秀,否则就不会走这么多调研公司存在了
2021-08-234
收起评论