数据分析思维课
郭炜
前易观 CTO
38045 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 40 讲
数据分析思维课
15
15
1.0x
00:00/00:00
登录|注册

01 | 平均值:不要被骗了,它不能代表整体水平

质与量是两个维度的数据,合并成质的数据会出错
分组比较中占优势的一方,在总评中可能是失势的一方
分组平均数更具参考价值
忽略数据分布情况,只提平均值是没有意义的
整体平均值在均匀分布或正态分布情况下有意义
不能代表整体水平
受极端值影响
加权平均值
调和平均值
平方平均值
几何平均值
算术平均值
平均值和辛普森悖论的例子
辛普森悖论的启示
分组结论的重要性
平均值的价值情况
平均值的种类和短板
辛普森悖论的启示
分组结论的重要性
平均值的价值情况
算术平均值的短板
平均值的种类
课后思考
小结
分组结论和整体平均值不是一回事
平均值不能代表整体水平
数据分析思维课

该思维导图由 AI 生成,仅供参考

数据给你一双看透本质的眼睛,这里是《数据分析思维课》,我是郭炜。
我们在日常生活中经常会遇到这种情况,看到某些统计报告里面说,“某市的人均住房面积是 120 平米”“计算机行业人均年收入超过 50 万元”。你看完这个数据之后,倒吸一口凉气,然后去微博感叹:“对不起,我又给大家拖后腿了”“对不起,我又被幸福了”。
你不必为此焦虑,我只能奉劝你,以后看到这么不专业的统计报告就别看了。来,我带你看看准确客观的平均值统计应该是怎样的。首先,你得知道平均值究竟是什么。
从概念上看,平均值有很多种。单从数学上来说,就有算术平均值、几何平均值、平方平均值、调和平均值、加权平均值等等。所以当有人和你说平均值的时候,你要留个心眼问问他,你这说的是哪个平均值呀?
当然,我们日常生活中提到的平均值都默认是“算术平均值”,也就是“一组数据中所有数据之和再除以数据的个数”。这个概念不难理解,你在小学的时候就开始学了。不过看到这里,你可以先结合我们上面的例子想想,算术平均值有什么短板吗?
我先给一道极其简单的数学题,你可以先想想。我们有 3 个数,他们分别是 0,1,20,这三个数的平均值不难算,是 (0+1+20)/3=7,那 7 这个平均值和之前的三个数是不是差距挺大呢?是不是有些不客观呢?
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

本文通过讲解平均值的概念和局限性,强调了平均值在某些情况下无法代表整体水平。作者指出平均值容易受到极端值的影响,在不均匀分布或正态分布的情况下,平均值缺乏客观性。文章还提到了分组结论和整体平均值的差异,强调了分组中的平均数更具参考价值。通过举例说明,作者阐述了整体平均值不能代表各分组情况,分组结论和整体平均值结论可能会有较大差异。文章以技术分析为主线,通过数学题和实际案例,深入浅出地解释了平均值的局限性和应用场景,为读者提供了对数据分析思维的启发和引导。 文章通过引入辛普森悖论,强调了平均值的局限性和数据分析中的误区。辛普森悖论告诉我们,在分组比较中占优势的一方,在总评中可能是失势的一方,强调了分组结论和整体平均值结论可能会大相径庭。作者还提到了平均值的敏感性,以及整体平均值在数据分布不均匀时缺乏意义。通过NBA球员命中率和游戏付费率的例子,阐述了平均值的局限性和误导性,强调了在数据分析中需要细分数据来获取更准确的结论。 总的来说,本文通过深入的技术分析和生动的案例,向读者展示了平均值的局限性和辛普森悖论的启示,引导读者在数据分析中不仅仅依赖整体平均值,而是要结合数据分布情况和分组结论,以获取更准确的分析结果。文章语言生动,观点鲜明,适合对数据分析感兴趣的读者阅读。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《数据分析思维课》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(60)

  • 最新
  • 精选
  • Troy@InfoQ_0a1dfd515153
    置顶
    单从投球命中率会不会也不够,假如A跟B上场时间差不多,A的总得分是415而B是330,这样看A是更有得分能力

    作者回复: 你说的对!数据分析是最后是用结果说话的,进球时间效率以及其它队友进球和防守配合情况要通盘考虑,而且要看整体球队,而不是某个明星球员,要看整个赛季而不是某场比赛,这就是辛普森悖论教给我们的。

    2021-07-31
    4
    22
  • 夜路破晓
    之前只是从量的角度理解辛普森悖论,比如生活当中存在一类聪明人,在整体水平较低的模块占据优势,因此获得重视,但对基础模块的提升只是浅尝辄止,那么有很可能导致个人整体水平不高或者存在上限,因而走不远。 看完这篇文章对辛普森悖论的本质有了更进一步的了解。人们在认识世界方面,由于客观条件的限制必然存在着多种视角,沟通交流就是对建立在对多种角度融合的基础上。那么,据此我们是不是可以一个结论,即由于辛普森悖论的存在,某些沟通交流必然是徒劳的。也就说正如文章中提及的只有对符合均匀分布和正态分布的整体使用均值才有意义,沟通交流只有基于共识才能有效,否则人们要么在寻求达成共识的路上,要么话不投机半句多。

    作者回复: 赞同!后面讲聚类和关联算法背后的哲学逻辑也会提到,断舍离,人的一生非常短暂,在值得投入的人和事情上面深度投入,不值得的事情一分钟都嫌多。

    2021-07-31
    2
    37
  • 大林 Kralite
    问题出在球员的出手数上,也就是命中率的分母。 1. A球员的出手数,两分球:三分球=5:1;B球员的分母上,两分球 : 三分球=2 : 3。 2. A球员的两分球命中率每提升1%,相当于三分球提升5%,相当于整体命中率的提升0.83%;但B球员的两分球命中率每提升1%,相当于三分球提升0.67%,相当于整体命中率提升0.4%。 3. 同样是两分球命中率,A的两分球命中率的“质”是要更高的,每1%都是更“值钱”的。 再看A和B的整体命中率: 1. 整体命中率,可以看做是命中率较高的部分(两分球)去弥补命中率较低的部分(三分球),最终达到一个平衡点。 2. 对A来说,他用两分球命中率去弥补三分球命中率的过程中,因为他两分球命中率的“质”更高,只需少量弥补就能达到平衡点;但对B来说,他的两分球命中率因为不那么“值钱”,吭哧吭哧弥补了三分球命中率很多,才能达到平衡点。 4. A的平衡点,最终反而高于了B的平衡点。 直接比较命中率其实暗含了一个前提:将A的1%和B的1%放到一个天平上,它们是等价的。 但问题在于,A的1%是要比B的1%更“重”的,天平并不平衡!

    作者回复: 是的!

    2021-08-30
    6
    28
  • 万折必东
    辛普森悖论推演 ①买彩票能中小奖,和买彩票能中大奖是两回事。 经常中小奖的人,因为坚信中奖多了总能碰上大奖,所以买得越多亏的越狠 ②和女朋友吵架输了不丢人,你稳住了感情这盘大局。 大男子主义每次都赢了女人,在讲三从四德的古代可以自在逍遥,男女平等的现代基本被爱判处终身孤寂 ③招聘广告上的薪资最好调低10%-20%去看,如果招聘公司放出来的是员工平均薪资,极有可能是被少数高薪员工拉高了的薪资

    作者回复: 哈哈哈,例子举得不错!👍

    2021-09-07
    2
    23
  • 80分
    辛普森悖论让我重新思考整体与个体的关系。整体的平均值不一定能代表整体,还要考虑个体是否符合均匀分布或正态分布。用平均值来评价缺乏起伏的一生无可厚非,对于大起大落的人生则有失公允。 但我们还远未到盖棺定论的时候。依据辛普森悖论的提示,找到隐藏在整体平均值下的分组平均值,也就找到了自己的优势和劣势。你可以选择填补自己的短板,也可以根据比较优势理论,将资源投入到你更擅长的事情上,猛投2分球。哪种选择更好?这是另一个价值观上的取舍,但至少要先认识到自己有选择。

    作者回复: 是的!思考很深刻

    2021-09-12
    2
    14
  • mtfelix
    大侠的课,对活法也极有启发呀。赢一堆鸡毛蒜皮,不如一把大的。

    作者回复: 数据思维,其实思维启发更是一大部分,知识是死的,思维是活的,要听我亲自录的音更有感觉,哈哈

    2021-08-01
    12
  • 第一装甲集群司令克莱斯特
    先胖不算胖,后胖压倒炕。 打麻将开局顺风顺水,一堆屁胡。 然后人家几把大胡,是最后赢家!

    作者回复: 哈哈,先胖趋势不能代表整体水平。

    2021-07-30
    9
  • 老师,请教两个问题, 1.辛普森悖论是否可以理解为:整体平均值与分组平均值不一致时,分组平均值更具代表性? 2.原因是否是因为:分母不同,不能直接合并分组平均值为整体平均值,因为分母较大的分组会稀释分母较小的分组在整体中的占比。

    作者回复: 1. 代表性是一个业务定义,不好说 整体和局部的谁更有代表性。辛普森悖论是说局部与整体分布不同,如何抉择还是需要我们来选择,一不能一叶障目不见泰山,也不能局部胜利全局失利。人类的经验和智慧也体现在这里。 2. 是的,分析的对

    2021-08-28
    8
  • Lemon、
    就像打游戏,分三路推掉了六个塔,最后还是输了,因为对手只在中路推了4个塔就打到家门口了

    作者回复: 哈哈,王者高手啊。

    2021-08-07
    5
  • 公号-技术夜未眠
    赢得了每一场战役,却最终输掉了整个战争。

    作者回复: 是的,要有格局

    2021-07-30
    2
    5
收起评论
显示
设置
留言
60
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部