数据分析思维课
郭炜
前易观 CTO
38045 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 40 讲
数据分析思维课
15
15
1.0x
00:00/00:00
登录|注册

07 | 散点图和相关性:怎样快速从数据当中找到规律?

生活中最常见的散点图
错误利用散点图的教训
过去经验中利用散点图发现的规律
三个要点:确定两个变量坐标轴、坐标轴的起始值和颗粒度、找到合适的趋势线和趋势模型
幸存者偏差
得克萨斯神枪手谬误
趋势误判
复杂的散点图需要根据领域知识进行更细致的划分
数据分析的艺术在于找到反U型最高点
正相关、负相关、指数增长、正U型趋势、反U型趋势
添加趋势线
Y轴必须从零开始
反映两个变量之间的关系
哈勃利用散点图找到了大爆炸理论的关键证据
1913年,亨利·诺利斯·罗素利用散点图揭示了宇宙的趋势
附录-哈勃定律
课后思考
小结
散点图的易错点
通过散点图寻找规律
散点图的制作原则
散点图的历史
散点图和相关性分析
数据分析思维课
怎样快速从数据当中找到规律?

该思维导图由 AI 生成,仅供参考

数据给你一双看透本质的眼睛,这里是《数据分析思维课》,我是郭炜。
前面我们讲了怎么从一个数据累计量当中,发现它的分布规律。但其实很多时候我们遇到的数据并不是累计的分布数据,而是连续的一些数据,并且我们需要基于这些数据做一些总结和推断,甚至是预测。
比如在工作中,我们要根据成本和收入来预测下半年的投入和产出;在生活里,需要看下自己投资的基金、股票金额和回报的整体关系,又或者看自己体重增长和摄入热量的关系,这些其实都是要从数据当中去找趋势规律。
今天我就来教你一个最简单的发现数据趋势规律的工具,以及这个工具的使用方法——散点图和相关性分析。

散点图的历史

散点图被称之为万图之王。在 1913 年,美国一个叫做亨利·诺利斯·罗素(Henry Norris Russell)的天文学家用散点图把宇宙的趋势给揭示了出来。怎么揭示的呢?罗素同学利用散点图把 2200 颗恒星按光谱和亮度两个参数进行分析,将恒星光度(或绝对星等)为纵轴、以恒星的光谱类型(或表面温度)为横轴,就像下图这个样子。
通过这个散点图,罗素画出了一条趋势线,这条趋势线揭示了恒星从原恒星到红巨星到红白矮星、黑矮星的一个演变的过程,这就是著名的赫罗图。换句话说,这个散点图揭示了恒星这一生的秘密。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

散点图是一种强大的数据分析工具,通过揭示数据之间的规律和趋势,帮助人们快速理解数据。本文介绍了散点图的历史、制作原则以及如何通过散点图寻找规律。散点图的历史悠久,从宇宙趋势到关键证据的发现,都展现了它的重要性。在制作散点图时,需要遵循三个基本规则:反映两个变量之间的关系、Y轴从零开始、添加趋势线。通过散点图可以发现正相关、负相关、指数增长、U型趋势、反U型趋势等常见的数据趋势。文章还提到了散点图的易错点,包括趋势误判、得克萨斯神枪手谬误和幸存者偏差。作者强调了正确使用散点图的重要性,以及根据领域知识进行更细致的划分。总之,散点图是一种强大的工具,可以帮助人们从数据中快速找到规律和趋势,对于数据分析和管理经验都具有重要意义。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《数据分析思维课》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(23)

  • 最新
  • 精选
  • 李柏楼
    突然有个疑问,哈珀定律中,星系与地球的距离是以地球为参照物吗,如果是,会不会犯和地心说类似的错误啊

    作者回复: 好问题啊,不过在宇宙这么大的单位里,太阳系已经成为了一个点,另外测量的是相对膨胀速度,所以地心还是日心都没有关系,证明越边缘的星系速度越快就可以了。

    2021-08-11
    14
  • 那时刻
    老师文中提到:散点图为了能够明确展示数据之间的趋势,我们的 Y 轴必须要从零开始。如果Y轴的值都是100以上,也必须从零开始么?

    作者回复: 是的,因为散点给的是一个大趋势,特别是大部分散点图,会不断增加新的样本点,从0开始,是这个图的要求

    2021-08-11
    2
    8
  • 感觉德克萨斯神枪手的弹痕也可以理解为一种人工筛选过后的幸存者偏差

    作者回复: 哈哈,是,人为的幸存者偏差,更恶劣一些

    2021-08-12
    6
  • felicia
    散点图误区的3种情况,归因都是因为数据不够全面与完整导致的对吗?那我们可以怎么确认手上的数据是已经足够全面及完整?

    作者回复: 可以学习下采样这节课

    2021-08-28
    3
  • 智仔
    由數據看趨勢然後再找出規律……但問題是要有多少數據才能產生足夠信心的規律呢?感覺從數學問題要變成哲學問題…最後再變成神學思考了🤣🤣🤣

    作者回复: 哈哈哈,数据是有灵魂的,我将用我的一生去追寻他。

    2021-08-11
    3
  • 80分
    散点图能反映两个变量之间的关系,气泡图能反映三个变量之间的关系。但要解读这种关系, - 有时候还需要结合背景信息。否则要么发现不了规律(选民反馈散点图),要么误判了规律(美国人体重散点图); - 有时候也会因为样本不具有代表性,导致发现的规律不能适用于整体(得克萨斯神枪手谬误和幸存者偏差)。

    作者回复: 是的,总结的很棒

    2021-09-16
  • MerryJI
    用散点图体现销量和数量的关系,地区或客户作为大小可以做成气泡图。

    作者回复: 销量和数量?还是销量和产量?

    2021-08-14
  • 潘霓
    绘制散点图的数据有什么条件?既要选择相关数据,又要排除人为干扰

    作者回复: 可以参考抽样这一节课的内容,数据来源问题

    2021-08-14
  • 小蜗
    为了避免出现文中提到的误区,好像最难的地方是在画散点图时,需要多少数据量,或者说多少数据量才能保证得出的散点图是合适的。老师,这个有没有经验分享?

    作者回复: 散点图的原则是,数据越多越好,因为很多趋势是会变化的。 如果说最少数据来看出可能规则,可以看抽样那一节课,散点图的数据源来自于抽样和统计数据

    2021-08-13
  • 进化菌
    散点图,发现趋势的规律。我首先想到的是地铁上来来往往的人群,会出现上下班高峰的密密麻麻,而其他时间段林星可见,挺有趣的东西~

    作者回复: 哈哈,加上地区,时间就变成带时间轴热区图动画

    2021-08-11
收起评论
显示
设置
留言
23
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部