机器学习40讲
王天一
工学博士,副教授
立即订阅
8040 人已学习
课程目录
已完结 44 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 打通修炼机器学习的任督二脉
免费
机器学习概观 (10讲)
01 | 频率视角下的机器学习
02 | 贝叶斯视角下的机器学习
03 | 学什么与怎么学
04 | 计算学习理论
05 | 模型的分类方式
06 | 模型的设计准则
07 | 模型的验证方法
08 | 模型的评估指标
09 | 实验设计
10 | 特征预处理
统计机器学习模型 (18讲)
11 | 基础线性回归:一元与多元
12 | 正则化处理:收缩方法与边际化
13 | 线性降维:主成分的使用
14 | 非线性降维:流形学习
15 | 从回归到分类:联系函数与降维
16 | 建模非正态分布:广义线性模型
17 | 几何角度看分类:支持向量机
18 | 从全局到局部:核技巧
19 | 非参数化的局部模型:K近邻
20 | 基于距离的学习:聚类与度量学习
21 | 基函数扩展:属性的非线性化
22 | 自适应的基函数:神经网络
23 | 层次化的神经网络:深度学习
24 | 深度编解码:表示学习
25 | 基于特征的区域划分:树模型
26 | 集成化处理:Boosting与Bagging
27 | 万能模型:梯度提升与随机森林
总结课 | 机器学习的模型体系
概率图模型 (14讲)
28 | 最简单的概率图:朴素贝叶斯
29 | 有向图模型:贝叶斯网络
30 | 无向图模型:马尔可夫随机场
31 | 建模连续分布:高斯网络
32 | 从有限到无限:高斯过程
33 | 序列化建模:隐马尔可夫模型
34 | 连续序列化模型:线性动态系统
35 | 精确推断:变量消除及其拓展
36 | 确定近似推断:变分贝叶斯
37 | 随机近似推断:MCMC
38 | 完备数据下的参数学习:有向图与无向图
39 | 隐变量下的参数学习:EM方法与混合模型
40 | 结构学习:基于约束与基于评分
总结课 | 贝叶斯学习的模型体系
结束语 (1讲)
结课 | 终有一天,你将为今天的付出骄傲
机器学习40讲
登录|注册

11 | 基础线性回归:一元与多元

王天一 2018-06-28
从今天开始,专栏将进入统计机器学习模块。虽然统计机器学习中千姿百态的模型让人眼花缭乱,但究其本原,它们都来源于最原始的线性回归(linear regression)。
在我看来,线性模型最大的优点不是便于计算,而是便于解释。它能以简洁明了的方式清晰体现出输入的变化如何导致输出的变化。正所谓“一生二,二生三,三生万物”,将不同的改进方式融入线性模型的基本思想中,就可以得到各种巧夺天工的复杂方法。
在第一季“人工智能基础课”专栏中,我介绍了线性回归的原理,证明了当噪声满足正态分布时,基于最小二乘法(least squares)的线性回归和最大似然估计是等价的。
这次我们换个角度,来看看最小二乘法的几何意义。之前,线性回归的数学表达式被写成 。但在讨论几何意义时,这个表达式要被改写成
可别小看这个简单的写法变化,从列向量 到行向量 的改变就像矩阵的左乘和右乘一样具有不同的意义。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《机器学习40讲》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(6)

  • paradox
    老师
    x.T 就变成了 N×(n+1) ,每一行都是一个样本,那么x.T*β不也是一个样本作为一个整体么?
    实在想不通,谢谢指点

    作者回复: 正因为一个样本就是一个整体,所以要放在属性形成的空间里观察。

    2018-08-16
    1
  • 王大伟
    请问老师,标准误是如何计算的?

    作者回复: 样本的标准误约等于样本真正的标准差除以根号n,也就是样本容量的平方根。

    2018-09-27
  • BGu
    您好,您在多元回归例子中看了F stats 的数值大小,但是否应该用f stats的p值得出结论?

    作者回复: 应该看,但我认为当F本身已经很小时,再看F的p值没什么意义。

    2018-08-08
  • 林彦
    估计出的系数是观察数据的统计值。在做了数据分布的假设后,有较大的概率这些系数能让某个特定赛季的观测到的真实数据的某种误差最小,但系数并不是一组完全确定不变的值,它会收到训练数据的影响。(1)由线性回归假设得到的估计值和真实值之间的误差在不同赛季的数据是可变的,为了使某个赛季的的计算误差最小,计算出来的系数会不同;(2)不同赛季的数据中的噪声是不同的,也会影响计算出来的最优系数。

    如果文中列出的统计值在不同赛季的数据集上表现都比较好,即期望的计算估计值发生的概率较大,并且估计出的系数的上下置信区间重合的比例较高,我的理解是这个估计出的系数的准确性比较好,反之这个系数的准确性不太理想。

    作者回复: 关键是你说的(2),也就是噪声的问题。
    一般的假设是观测结果是数据和噪声的叠加,每个数据集上的噪声都不一样,所以不同数据集上计算出的结果大差不差,但都是在真实值附近波动,不会和真实值吻合,这体现的就是前面所说的“样本内误差”的思想。
    但长远来看,如果估计量本身是无偏的,那么在统计意义上,估计值就是准确的,不存在系统误差。在不同的数据集上估计,再取平均,估计的次数越多,均值就会越接近真值。
    但是在这个例子里,结果的不同也不全是噪声的原因。毕竟每个赛季有升降级的球队,每个球队的人员也会有变化,可能不同赛季的数据不满足同分布的条件。

    2018-07-02
  • itzzy
    老师github上代码能加些注释吗?感谢!

    作者回复: 我这个编辑器不能输入汉字,所以索性英文注释也没加。所有代码基本上都是导入数据-调用功能类-画图的流程,如果哪里有问题可以把数据打印出来,或者查阅sklearn的文档。

    2018-06-28
  • 我心飞扬
    当输出被写成 wTxwTx{\bf w} ^ T {\bf ...

    极客时间版权所有: https://time.geekbang.org/column/article/9789?device=geekTime.android

    不懂,误差一直分布在不同变量上的啊

    作者回复: 一旦模型参数定了,误差也就固定了,关键是怎么分解它。w^T x相当于把误差分散到样本上,误差是每个样本到计算出的超平面的距离;x^T \beta相当于把误差分散到属性上,在计算出来的超平面上做分解。

    2018-06-28
收起评论
6
返回
顶部