数据分析思维课
郭炜
前易观 CTO
38045 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 40 讲
数据分析思维课
15
15
1.0x
00:00/00:00
登录|注册

06 | 数据分布:房子应该是买贵的还是买便宜的?

附录
课后思考
总结
拉普拉斯分布
正态分布
数据分布与生活工作

该思维导图由 AI 生成,仅供参考

数据给你一双看透本质的眼睛,这里是《数据分析思维课》,我是郭炜。
在上一节课里,我们聊了聊直方图和幂分布。其实一提到数据分布,你首先会想到过去在课堂上学的二次分布、柏松分布等等分布。学习的这些分布对你考试很有帮助,但是在生活当中我们其实用得不多。
其实在实际生活当中,我们最常见的是正态分布和拉普拉斯分布,这两个分布反映了现实生活当中隐藏在数据背后的“势”。了解这些数据的趋势,才可以让你更好地了解实际的工作和生活本身。
为什么说这两个分布会更实用呢?
比方说,一座城市的市民身高或者体重分布就是符合正态分布的。再比如说,极客时间所有用户的日均播放时长,它也会是一个正态分布的曲线。
正态分布既然这么常见,那么一个城市的房价也应该和这个城市市民的身高一样,是正态分布的。但现实往往是明明只隔了一条街,房价相差巨大,有的时候差价甚至会高达数倍。这就像 100 人里,突然出来 10 个姚明一样让人费解。这个时候,就轮到拉普拉斯分布出场了。
今天这节课,我就以正态分布和拉普拉斯分布为例,给你讲下数据分布以及怎样用数据分布理解我们生活和工作中的“大势”。

正态分布

我们先来看正态分布。正态分布就是你在课本里曾经学过的那个两头低、中间高然后左右轴对称的钟形曲线。最早用正态曲线描述数据的人,就是那位你我都熟知的德国著名数学家高斯,为了纪念他,有时候我们也把正态分布称为高斯分布。在德国,十马克的纸币上都留有高斯的头像和正态分布的曲线,如下图所示。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

本文介绍了正态分布和拉普拉斯分布在实际生活中的应用。作者首先解释了正态分布的特点和应用,以中国人的平均身高为例,说明了如何利用正态分布进行数据推算。接着,作者提到了中心极限定理,强调了它与大数定律的区别。最后,作者以极客时间用户收听音频时长为例,说明了如何利用正态分布进行用户等级分布和费用估算。通过这些实际案例,读者可以了解到数据分布对生活和工作的影响,以及如何运用数据分布进行决策和估算。 此外,文章还介绍了拉普拉斯分布的特点和应用,指出了拉普拉斯分布的“凸”字形的塔尖儿曲线特征,以及其在金融领域和股票收益率衡量中的应用。作者强调了数据分布模型是否适用于现有市场情况的重要性,并提出了在买房等决策中应用正态分布和拉普拉斯分布的建议。 总的来说,本文通过生动的案例和实际应用,向读者展示了正态分布和拉普拉斯分布在现实生活和工作中的重要性和应用价值。读者可以从中了解到数据分布对决策的影响,以及如何根据数据分布模型做出更为正确的决策。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《数据分析思维课》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(34)

  • 最新
  • 精选
  • 80分
    正态分布是我每一次学都会感到神奇,但每一次都记不住具体算法的知识。斯科特·佩奇的《模型思维》里有一章用很多例子讲解了正态分布的结构、逻辑和功能,常读常新。

    作者回复: 不错,太棒了,这本书我还没有读过,来去学习下

    2021-09-15
    12
  • 那时刻
    请问老师文中提到:只要我们算出来极客时间的每一个用户的日均平均时长(就是所谓的总体均值),再根据误差范围设定标准差,就可以根据随机抽样和中心极限定理,得出来每个不同等级的用户的数量。中心极限定理是得到样本和的分布,每个等级的用户数量是怎么求的呢?另外如何根据误差范围设定标准差?麻烦老师给一个比较详细的例子。

    作者回复: 这其实就是根据实际数据制作一个正态分布图,首先获得了平均值,然后根据统计不同时间分布确定整体正态分布,确定了模型,后面的问题就可以套用公式啦

    2021-08-09
    3
    6
  • 海林Lin
    拉普拉斯分布和幂律分布的区别是什么呢?

    作者回复: 你可以把拉普拉斯分布理解成对称的幂率分布。

    2021-08-09
    2
    6
  • 芳菲
    高考成绩一分一段表应该是基本符合正态分布的,高分段和低分段人数少,中间段人数多

    作者回复: 卷子比较合适的是这样的,如果过难就不是了

    2021-08-09
    4
    5
  • 流月
    信息流个性化推荐中若目标为ctr,在使用排序模型后,会使item曝光偏向于拉普拉斯分布,在上线模型到达到分值过程中的这段时间ctr曲线也为拉普拉斯分布

    作者回复: 赞,这个例子好!

    2021-09-17
    2
    4
  • Margaret
    拉普拉斯分布可不可以理解成二八法则的例子呢

    作者回复: 也可以的,有人说拉普拉斯是一个镜像的幂分布,我也赞同的

    2021-12-12
    2
    3
  • Geek_uu
    越塔尖的个体越具有资源吸附能力,这也是容易造成垄断的原因吧?

    作者回复: 是的,强者愈强

    2021-09-16
    3
  • 钱鹏 Allen
    拉普拉斯定理,个人认为更符合现实情况,头部内容占领用户心智,其余的瓜分边角。 我们需要打造自己的不同之处,专注核心的竞争力。

    作者回复: 是的,少数派占据大多数资源

    2021-08-18
    2
  • 那时刻
    房价的分布符合拉普拉斯分布,实际大家选择买房的时机,现象是房价涨的时候热情越高,房价降低的时候,采取观望。这个是否也符合拉普拉斯分布呢?

    作者回复: 真正赚钱的,其实只是少数人,这个是拉普拉斯分布,某个时机只是一个片段,还不能是分布。

    2021-08-09
    3
    2
  • Done
    上学的时候,知道有拉普拉斯变换,现在才知道有拉普拉斯分布,而且和正态分布不一样,真过瘾!!

    作者回复: 哈哈,过瘾可以分享给小伙伴,大家一起过瘾

    2021-12-25
    2
    1
收起评论
显示
设置
留言
34
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部