01 | 平均值:不要被骗了,它不能代表整体水平
该思维导图由 AI 生成,仅供参考
- 深入了解
- 翻译
- 解释
- 总结
本文通过讲解平均值的概念和局限性,强调了平均值在某些情况下无法代表整体水平。作者指出平均值容易受到极端值的影响,在不均匀分布或正态分布的情况下,平均值缺乏客观性。文章还提到了分组结论和整体平均值的差异,强调了分组中的平均数更具参考价值。通过举例说明,作者阐述了整体平均值不能代表各分组情况,分组结论和整体平均值结论可能会有较大差异。文章以技术分析为主线,通过数学题和实际案例,深入浅出地解释了平均值的局限性和应用场景,为读者提供了对数据分析思维的启发和引导。 文章通过引入辛普森悖论,强调了平均值的局限性和数据分析中的误区。辛普森悖论告诉我们,在分组比较中占优势的一方,在总评中可能是失势的一方,强调了分组结论和整体平均值结论可能会大相径庭。作者还提到了平均值的敏感性,以及整体平均值在数据分布不均匀时缺乏意义。通过NBA球员命中率和游戏付费率的例子,阐述了平均值的局限性和误导性,强调了在数据分析中需要细分数据来获取更准确的结论。 总的来说,本文通过深入的技术分析和生动的案例,向读者展示了平均值的局限性和辛普森悖论的启示,引导读者在数据分析中不仅仅依赖整体平均值,而是要结合数据分布情况和分组结论,以获取更准确的分析结果。文章语言生动,观点鲜明,适合对数据分析感兴趣的读者阅读。
《数据分析思维课》,新⼈⾸单¥59
全部留言(60)
- 最新
- 精选
- Troy@InfoQ_0a1dfd515153置顶单从投球命中率会不会也不够,假如A跟B上场时间差不多,A的总得分是415而B是330,这样看A是更有得分能力
作者回复: 你说的对!数据分析是最后是用结果说话的,进球时间效率以及其它队友进球和防守配合情况要通盘考虑,而且要看整体球队,而不是某个明星球员,要看整个赛季而不是某场比赛,这就是辛普森悖论教给我们的。
2021-07-31422 - 夜路破晓之前只是从量的角度理解辛普森悖论,比如生活当中存在一类聪明人,在整体水平较低的模块占据优势,因此获得重视,但对基础模块的提升只是浅尝辄止,那么有很可能导致个人整体水平不高或者存在上限,因而走不远。 看完这篇文章对辛普森悖论的本质有了更进一步的了解。人们在认识世界方面,由于客观条件的限制必然存在着多种视角,沟通交流就是对建立在对多种角度融合的基础上。那么,据此我们是不是可以一个结论,即由于辛普森悖论的存在,某些沟通交流必然是徒劳的。也就说正如文章中提及的只有对符合均匀分布和正态分布的整体使用均值才有意义,沟通交流只有基于共识才能有效,否则人们要么在寻求达成共识的路上,要么话不投机半句多。
作者回复: 赞同!后面讲聚类和关联算法背后的哲学逻辑也会提到,断舍离,人的一生非常短暂,在值得投入的人和事情上面深度投入,不值得的事情一分钟都嫌多。
2021-07-31237 - 大林 Kralite问题出在球员的出手数上,也就是命中率的分母。 1. A球员的出手数,两分球:三分球=5:1;B球员的分母上,两分球 : 三分球=2 : 3。 2. A球员的两分球命中率每提升1%,相当于三分球提升5%,相当于整体命中率的提升0.83%;但B球员的两分球命中率每提升1%,相当于三分球提升0.67%,相当于整体命中率提升0.4%。 3. 同样是两分球命中率,A的两分球命中率的“质”是要更高的,每1%都是更“值钱”的。 再看A和B的整体命中率: 1. 整体命中率,可以看做是命中率较高的部分(两分球)去弥补命中率较低的部分(三分球),最终达到一个平衡点。 2. 对A来说,他用两分球命中率去弥补三分球命中率的过程中,因为他两分球命中率的“质”更高,只需少量弥补就能达到平衡点;但对B来说,他的两分球命中率因为不那么“值钱”,吭哧吭哧弥补了三分球命中率很多,才能达到平衡点。 4. A的平衡点,最终反而高于了B的平衡点。 直接比较命中率其实暗含了一个前提:将A的1%和B的1%放到一个天平上,它们是等价的。 但问题在于,A的1%是要比B的1%更“重”的,天平并不平衡!
作者回复: 是的!
2021-08-30628 - 万折必东辛普森悖论推演 ①买彩票能中小奖,和买彩票能中大奖是两回事。 经常中小奖的人,因为坚信中奖多了总能碰上大奖,所以买得越多亏的越狠 ②和女朋友吵架输了不丢人,你稳住了感情这盘大局。 大男子主义每次都赢了女人,在讲三从四德的古代可以自在逍遥,男女平等的现代基本被爱判处终身孤寂 ③招聘广告上的薪资最好调低10%-20%去看,如果招聘公司放出来的是员工平均薪资,极有可能是被少数高薪员工拉高了的薪资
作者回复: 哈哈哈,例子举得不错!👍
2021-09-07223 - 80分辛普森悖论让我重新思考整体与个体的关系。整体的平均值不一定能代表整体,还要考虑个体是否符合均匀分布或正态分布。用平均值来评价缺乏起伏的一生无可厚非,对于大起大落的人生则有失公允。 但我们还远未到盖棺定论的时候。依据辛普森悖论的提示,找到隐藏在整体平均值下的分组平均值,也就找到了自己的优势和劣势。你可以选择填补自己的短板,也可以根据比较优势理论,将资源投入到你更擅长的事情上,猛投2分球。哪种选择更好?这是另一个价值观上的取舍,但至少要先认识到自己有选择。
作者回复: 是的!思考很深刻
2021-09-12214 - mtfelix大侠的课,对活法也极有启发呀。赢一堆鸡毛蒜皮,不如一把大的。
作者回复: 数据思维,其实思维启发更是一大部分,知识是死的,思维是活的,要听我亲自录的音更有感觉,哈哈
2021-08-0112 - 第一装甲集群司令克莱斯特先胖不算胖,后胖压倒炕。 打麻将开局顺风顺水,一堆屁胡。 然后人家几把大胡,是最后赢家!
作者回复: 哈哈,先胖趋势不能代表整体水平。
2021-07-309 - 一老师,请教两个问题, 1.辛普森悖论是否可以理解为:整体平均值与分组平均值不一致时,分组平均值更具代表性? 2.原因是否是因为:分母不同,不能直接合并分组平均值为整体平均值,因为分母较大的分组会稀释分母较小的分组在整体中的占比。
作者回复: 1. 代表性是一个业务定义,不好说 整体和局部的谁更有代表性。辛普森悖论是说局部与整体分布不同,如何抉择还是需要我们来选择,一不能一叶障目不见泰山,也不能局部胜利全局失利。人类的经验和智慧也体现在这里。 2. 是的,分析的对
2021-08-288 - Lemon、就像打游戏,分三路推掉了六个塔,最后还是输了,因为对手只在中路推了4个塔就打到家门口了
作者回复: 哈哈,王者高手啊。
2021-08-075 - 公号-技术夜未眠赢得了每一场战役,却最终输掉了整个战争。
作者回复: 是的,要有格局
2021-07-3025