数据分析实战45讲
陈旸
清华大学计算机博士
立即订阅
17314 人已学习
课程目录
已完结 48 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 你为什么需要数据分析能力?
免费
第一模块:数据分析基础篇 (16讲)
01丨数据分析全景图及修炼指南
02丨学习数据挖掘的最佳路径是什么?
03丨Python基础语法:开始你的Python之旅
04丨Python科学计算:用NumPy快速处理数据
05丨Python科学计算:Pandas
06 | 学数据分析要掌握哪些基本概念?
07 | 用户画像:标签化就是数据的抽象能力
08 | 数据采集:如何自动化采集数据?
09丨数据采集:如何用八爪鱼采集微博上的“D&G”评论
10丨Python爬虫:如何自动化下载王祖贤海报?
11 | 数据科学家80%时间都花费在了这些清洗任务上?
免费
12 | 数据集成:这些大号一共20亿粉丝?
13 | 数据变换:考试成绩要求正态分布合理么?
14丨数据可视化:掌握数据领域的万金油技能
15丨一次学会Python数据可视化的10种技能
16丨数据分析基础篇答疑
第二模块:数据分析算法篇 (20讲)
17 丨决策树(上):要不要去打篮球?决策树来告诉你
18丨决策树(中):CART,一棵是回归树,另一棵是分类树
19丨决策树(下):泰坦尼克乘客生存预测
20丨朴素贝叶斯分类(上):如何让机器判断男女?
21丨朴素贝叶斯分类(下):如何对文档进行分类?
22丨SVM(上):如何用一根棍子将蓝红两色球分开?
23丨SVM(下):如何进行乳腺癌检测?
24丨KNN(上):如何根据打斗和接吻次数来划分电影类型?
25丨KNN(下):如何对手写数字进行识别?
26丨K-Means(上):如何给20支亚洲球队做聚类?
27丨K-Means(下):如何使用K-Means对图像进行分割?
28丨EM聚类(上):如何将一份菜等分给两个人?
29丨EM聚类(下):用EM算法对王者荣耀英雄进行划分
30丨关联规则挖掘(上):如何用Apriori发现用户购物规则?
31丨关联规则挖掘(下):导演如何选择演员?
32丨PageRank(上):搞懂Google的PageRank算法
33丨PageRank(下):分析希拉里邮件中的人物关系
34丨AdaBoost(上):如何使用AdaBoost提升分类器性能?
35丨AdaBoost(下):如何使用AdaBoost对房价进行预测?
36丨数据分析算法篇答疑
第三模块:数据分析实战篇 (7讲)
37丨数据采集实战:如何自动化运营微博?
38丨数据可视化实战:如何给毛不易的歌曲做词云展示?
39丨数据挖掘实战(1):信用卡违约率分析
40丨数据挖掘实战(2):信用卡诈骗分析
41丨数据挖掘实战(3):如何对比特币走势进行预测?
42丨当我们谈深度学习的时候,我们都在谈什么?
43丨深度学习(下):如何用Keras搭建深度学习网络做手写数字识别?
第四模块:数据分析工作篇 (2讲)
44丨如何培养你的数据分析思维?
45丨求职简历中没有相关项目经验,怎么办?
加餐 (1讲)
加餐丨在社交网络上刷粉刷量,技术上是如何实现的?
结束语 (1讲)
结束语丨当大家都在讲知识和工具的时候,我更希望你重视思维和实战
数据分析实战45讲
登录|注册

13 | 数据变换:考试成绩要求正态分布合理么?

陈旸 2019-01-11
上一讲中我给你讲了数据集成,今天我来讲下数据变换。
如果一个人在百分制的考试中得了 95 分,你肯定会认为他学习成绩很好,如果得了 65 分,就会觉得他成绩不好。如果得了 80 分呢?你会觉得他成绩中等,因为在班级里这属于大部分人的情况。
为什么会有这样的认知呢?这是因为我们从小到大的考试成绩基本上都会满足正态分布的情况。什么是正态分布呢?正态分布也叫作常态分布,就是正常的状态下,呈现的分布情况。
比如你可能会问班里的考试成绩是怎样的?这里其实指的是大部分同学的成绩如何。以下图为例,在正态分布中,大部分人的成绩会集中在中间的区域,少部分人处于两头的位置。正态分布的另一个好处就是,如果你知道了自己的成绩,和整体的正态分布情况,就可以知道自己的成绩在全班中的位置。
另一个典型的例子就是,美国 SAT 考试成绩也符合正态分布。而且美国本科的申请,需要中国高中生的 GPA 在 80 分以上(百分制的成绩),背后的理由也是默认考试成绩属于正态分布的情况。
为了让成绩符合正态分布,出题老师是怎么做的呢?他们通常可以把考题分成三类:
第一类:基础题,占总分 70%,基本上属于送分题;
第二类:灵活题,基础范围内 + 一定的灵活性,占 20%;
第三类:难题,涉及知识面较广的难题,占 10%;
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《数据分析实战45讲》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(40)

  • 锦水春风
    老师,你好:
    随着学习的不断加深,许多内容需要掌握理解或者编码测试,每个人多少都有疑难问题,如不能及时解决势必影响学习效果。建议对上课人员建立交流QQ群,有些问题可以互相交流学习,对仍有问题的老师可亲自回答。
    2019-01-13
    31
  • 跳跳
    一、16000的位置
    (16000-5000)/(58000-5000)=0.2075
    代码实现如下:
    # coding:utf-8
    from sklearn import preprocessing
    import numpy as np
    # 初始化数据,每一行表示一个样本,每一列表示一个特征
    x = np.array([[5000.],[16000.],[58000.]])
    # 将数据进行 [0,1] 规范化
    min_max_scaler = preprocessing.MinMaxScaler()
    minmax_x = min_max_scaler.fit_transform(x)
    print(minmax_x)
    输出:
    [[0. ]
     [0.20754717]
     [1. ]]
    二、关于规范化方法
    1.min-max:将数据归一化到[0,1]区间
    2.z-score:将数据规范到0均值,1方差的标准正态分布上,减少老师说的百分制80和500分制80的数据值差异问题
    3.小数定标规范化:将数据转化为[-1,1]区间中
    2019-01-11
    22
  • 杨名流
    Min-max规范化的结果为什么是
    [[0. 0. 0.66666667]
     [1. 1. 1. ]
     [0. 1. 0. ]]
    这是怎么计算的?
    2019-01-20
    6
    9
  • sunny
    老师您好, Z-Score 规范化的分数转化这块,由于我目前在一家公司做产品经理,现在刚好在负责教育行业成绩分析业务,想跟你探讨下。
           将学生的原始分数成绩进行转化成Z分可以进行比较一个学生历次考试之间的波动情况进步程度,或者是同一次考试的不同科目直接进行比较来判断学生的各科均衡度。
           但是,这个“Z-Score”分的计算方式,目前我查到其它资料,老师文章中的列出的计算公式是属于“Z分的线性计算公式”,将整批学生的成绩都转化成Z分后,其Z分不一定能完全呈现标准的正态分布,在某些情况下做比较可信度是不高的(比如:一次考试本身的原始分数呈现负偏态,另一次考试原始成绩呈现正偏态,转化后的Z分并不一定能让偏态变成标准正态,在两次考试都处于偏态情况下,同一学生的两次考试成绩做波动进步程度分析就不大可信)
            我刚查到另一种计算非线性Z分的方式:
            1、先按该公式计算出百级等级分:百分等级分数(年级)=100﹣(100×年级名次-50)÷年级有效参考总人数;该百级等级分便是每个学生在该批学生的相对位置,其百分等级分数对应便是标准正态分布图的所占面积比例
            2、再按该百分等级数去标准正态分布表里去查出Z-Score ,这样最终得出的Z分便是标准的正态分布,能将偏态转化成标准正态,这样就能比较同一学生的各次考试
           以上是我目前的理解,还望老师指点下!!!

    2019-01-11
    2
    9
  • Chen
    陈老师,有几个问题需要请教一下您:
    1. 数据规范化、归一化、标准化是一个概念吗?之前看到有博客还专门区分归一化、标准化,将这里的Min-max规范化强调为归一化,将Z-score规范化强调为标准化,现在学完这个我有点晕了。看sklearn官方文档Preprocessing data部分有4.3.1. Standardization, or mean removal and variance scaling¶和4.3.3 Normalization两小节内容,看得我更晕了。
    2. 一般什么时候用Min-max规范化?什么时候用Z-score规范化?
    3. 数据什么时候需要做规范化呢?
    4. 再问细一点的,逻辑回归模型需要做数据规范化吗?决策树模型需要做数据规范化吗?
    2019-01-11
    1
    5
  • 柚子
    (16000-5000)/(58000-5000) = 0.20754717
    代码实现:
    import numpy as np
    from sklearn import preprocessing
    x = np.array([[16000],[5000],[58000]])
    minmax_scale = preprocessing.MinMaxScaler().fit_transform(x)
    print(minmax_scale)

    感觉这块的内容讲的有点浅了 有很多的细节没有讲到 比如MinMaxScaler(),fit_transform(x)这2个函数的解释,希望老师可以把sklearn库中一些相关函数详细讲解下,谢谢
    2019-01-27
    3
  • 王钰
    有些问题可以自己先百度一下,简单了解下函数的用法,不影响继续阅读就可以了
    2019-03-11
    1
  • 杰之7
    通过这一节的阅读学习,对数据的转换有了更全面的整理。数据工程师大多数的工作内容也是在处理数据清洗,集成和转换的内容。数据质量能直接影响到后续的算法建模的好坏。

    对于常见的变换,有数据平滑、聚集、概化、规范化、属性构造等方法,老师在文章中主要讲述来了规范化的3种方法,Min_max规范化,Z_score,小数立标规范化,并在sklearn中加已了实现。
    2019-02-11
    1
  • 有时候数据变换比算法选择更重要,数据错了,算法再正确也错的。这就是为什么数据分析师80%的时间会花在前期的数据准备上了。

    #数据挖掘前的准备工作

    在数据变换前,需要对数据进行筛选,然后进行数据探索和相关性分析,接着选择算法模型,然后针对算法模型对数据进行数据变换,从而完成数据挖掘前的准备工作。

    #数据变换的四种常见方法
    1、数据平滑
        去除数据噪声,将连续数据离散化。主要是用分箱、聚类和回归方式等算法进行数据平滑。
    2、数据聚集
        个人理解就是对数据聚合。
        对数据进行汇总,比如常见的使用sql的聚合函数。
    3、数据概化
        个人理解就是数据维度抽象。
        将数据由较低的概念抽象成为较高的概念,减少数据复杂度,即用更高的概念替代更低的概念。比如说上海、杭州、深圳、北京可以概化为中国。
    4、数据规范化
        常用方法:min-max规范化、Z-score规范化、按小数定标规范化。
    5、属性构造
        人个理解就是根据需要加字段。

    #数据规范化的几种方法
    1、Min-Max规范化
        将原始数据变换到[0,1]的空间中。
        公式:新数值=(原数值-极小值)/(极大值-极小值)

    2、Z-score规范化
        对不同级别的数据按相同标准来进行比较。
        公式: 新数值 = (原数值-均值)/标准差

    3、小数定标规范化
        不知道作用是干啥?
        
    #Python 的 SciKit-Learn 库
    是一个机器学习库,封装了大量的机器学习算法,比如分类、聚类、回归、降维等。另外,它还包括了上面说的数据变换模块。
    2019-01-11
    1
  • GS
    感觉这章就有一定的跳跃性了,为什么要这么做呢? 这么做的原因是什么? 还有没其他方法?感觉没有基础知识储备,有点慌了

    作者回复: 慢慢来 数据变换在特征过程中用的比较多,可以粗略的了解有几种方法,对每种方法的实现进行复现,然后再追求过程推导的原理

    2019-11-18
  • zart
    # coding:utf-8
    import numpy as np
    from sklearn.preprocessing import MinMaxScaler

    minMaxArray = np.array([[5000], [58000]])
    scaler = MinMaxScaler()
    scaler.fit(minMaxArray)
    print(scaler.transform([[16000]]))
    2019-11-10
  • Ronnyz
    min_max方法
    (16000-5000)/(58000-5000)=0.2075

    作者回复: 对的

    2019-10-31
  • S.Mona
    1.正态分布是经验归纳结果,自然界惊奇地大多数的分布都形成这么一种分布,再把它命名为正态分布
    2.规范化是Normalization么,会不会归一化比较合适?因为我看ES权威指南是翻译为归一化
    2019-10-11
  • 建强
    思考题:
    属性income=16000,做Min-Max规范化,income=(16000-5000)/(58000-5000) = 0.207547
    数据规范化的方式:
    (1)Min-Max规范化,变换公式:新数值 =(原数值 - 极小值)/(极大值 - 极小值)
    (2)Z-Score规范化,变换公式:新数值 =(原数值 - 均值)/ 标准差
    (3)小数定标规范化,通过移动小数点的位置来进行规范化。小数点移动多少位取决于属性的取值中的最大绝对值。
    2019-08-08
  • twelve
    没有理解为什么数据变换不放在数据集成之前?
    2019-07-21
    1
  • 董大琳儿
    # coding:utf-8
    from sklearn import preprocessing
    import numpy as np
    # 初始化数据,每一行表示一个样本,每一列表示一个特征
    x = np.num(5000,58000)
    # 将数据进行 [0,1] 规范化
    min_max_scaler = preprocessing.MinMaxScaler()
    minmax_x = min_max_scaler.fit_transform(x)
    print minmax_x
    2019-06-23
  • Andre
    看到这里我发现,自己什么都不懂,虽然能够理解文章的内容,但是让自己来操作就很困难了
    2019-06-05
  • Geek_7d79b8
    不明白为什么非要用python2
    2019-05-16
    1
  • jk
    [min, max] 规范化: (16000-5000) / (58000-5000) = 11/53 ≈ 0.2075
    2019-04-27
  • ceil()本身就是Python的一个向正无穷取整的函数,np.ceil(np.log10(np.max(abs(x))))得到的是需要将数据整体移动的小数位数。
    2019-04-12
收起评论
40
返回
顶部