人工智能基础课
王天一
工学博士,副教授
立即订阅
11754 人已学习
课程目录
已完结 58 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 人工智能:新时代的必修课
免费
数学基础 (7讲)
01 数学基础 | 九层之台,起于累土:线性代数
02 数学基础 | 月有阴晴圆缺,此事古难全:概率论
03 数学基础 | 窥一斑而知全豹:数理统计
04 数学基础 | 不畏浮云遮望眼:最优化方法
05 数学基础 | 万物皆数,信息亦然:信息论
06 数学基础 | 明日黄花迹难寻:形式逻辑
(课外辅导)数学基础 | 拓展阅读参考书
机器学习 (10讲)
07 机器学习 | 数山有路,学海无涯:机器学习概论
08 机器学习 | 简约而不简单:线性回归
09 机器学习 | 大道至简:朴素贝叶斯方法
10 机器学习 | 衍化至繁:逻辑回归
11 机器学习 | 步步为营,有章可循:决策树
12 机器学习 | 穷则变,变则通:支持向量机
13 机器学习 | 三个臭皮匠,赛过诸葛亮:集成学习
14 机器学习 | 物以类聚,人以群分:聚类分析
15 机器学习 | 好钢用在刀刃上:降维学习
(课外辅导)机器学习 | 拓展阅读参考书
人工神经网络 (7讲)
16 人工神经网络 | 道法自然,久藏玄冥:神经网络的生理学背景
17 人工神经网络 | 一个青年才俊的意外死亡:神经元与感知器
18 人工神经网络 | 左手信号,右手误差:多层感知器
19 人工神经网络 | 各人自扫门前雪:径向基函数神经网络
20 人工神经网络 | 看不见的手:自组织特征映射
21 人工神经网络 | 水无至清,人莫至察:模糊神经网络
(课外辅导)人工神经网络 | 拓展阅读参考书
深度学习 (7讲)
22 深度学习 | 空山鸣响,静水流深:深度学习概述
23 深度学习 | 前方有路,未来可期:深度前馈网络
24 深度学习 | 小树不修不直溜:深度学习中的正则化
25 深度学习 | 玉不琢不成器:深度学习中的优化
26 深度学习 | 空竹里的秘密:自编码器
27 深度学习 | 困知勉行者勇:深度强化学习
(课外辅导)深度学习 | 拓展阅读参考书
深度学习框架下的神经网络 (5讲)
28 深度学习框架下的神经网络 | 枯木逢春:深度信念网络
29 深度学习框架下的神经网络 | 见微知著:卷积神经网络
30 深度学习框架下的神经网络 | 昨日重现:循环神经网络
31 深度学习框架下的神经网络 | 左右互搏:生成式对抗网络
32 深度学习框架下的神经网络 | 三重门:长短期记忆网络
深度学习之外的人工智能 (4讲)
33 深度学习之外的人工智能 | 一图胜千言:概率图模型
34 深度学习之外的人工智能 | 乌合之众的逆袭:集群智能
35 深度学习之外的人工智能 | 授人以鱼不如授人以渔:迁移学习
36 深度学习之外的人工智能 | 滴水藏海:知识图谱
应用场景 (4讲)
37 应用场景 | 你是我的眼:计算机视觉
38 应用场景 | 嘿, Siri:语音处理
39 应用场景 | 心有灵犀一点通:对话系统
40 应用场景 | 数字巴别塔:机器翻译
加餐 (5讲)
课外谈 | “人工智能基础课”之二三闲话
推荐阅读 | 我与人工智能的故事
直播回顾 | 机器学习必备的数学基础
第2季回归 | 这次我们来聊聊机器学习
新书 | 《裂变:秒懂人工智能的基础课》
复习课 (7讲)
一键到达 | 数学基础复习课
一键到达 | 机器学习复习课
一键到达 | 人工神经网络复习课
一键到达 | 深度学习复习课
一键到达 | 深度学习框架下的神经网络复习课
一键到达 | 深度学习之外的人工智能复习课
一键到达 | 应用场景复习课
结束语 (1讲)
结课 | 溯洄从之,道阻且长
人工智能基础课
登录|注册

08 机器学习 | 简约而不简单:线性回归

王天一 2017-12-26

数学中的线性模型可谓“简约而不简单”:它既能体现出重要的基本思想,又能构造出功能更加强大的非线性模型。在机器学习领域,线性回归就是这样一类基本的任务,它应用了一系列影响深远的数学工具。

在数理统计中,回归分析是确定多种变量间相互依赖的定量关系的方法。线性回归假设输出变量是若干输入变量的线性组合,并根据这一关系求解线性组合中的最优系数。在众多回归分析的方法里,线性回归模型最易于拟合,其估计结果的统计特性也更容易确定,因而得到广泛应用。而在机器学习中,回归问题隐含了输入变量和输出变量均可连续取值的前提,因而利用线性回归模型可以对任意输入给出对输出的估计。

1875 年,从事遗传问题研究的英国统计学家弗朗西斯·高尔顿正在寻找父代与子代身高之间的关系。在分析了 1078 对父子的身高数据后,他发现这些数据的散点图大致呈直线状态,即父亲的身高和儿子的身高呈正相关关系。而在正相关关系背后还隐藏着另外一个现象:矮个子父亲的儿子更可能比父亲高;而高个子父亲的儿子更可能比父亲矮。

受表哥查尔斯·达尔文的影响,高尔顿将这种现象称为“回归效应”,即大自然将人类身高的分布约束在相对稳定而不产生两极分化的整体水平,并给出了历史上第一个线性回归的表达式:y = 0.516x + 33.73,式中的 y 和 x 分别代表以英寸为单位的子代和父代的身高。

高尔顿的思想在今天的机器学习中依然保持着旺盛的生命力。假定一个实例可以用列向量 x=(x1;x2;,xn) 表示,每个 xi 代表了实例在第 i 个属性上的取值,线性回归的作用就是习得一组参数 wi,i=0,1,,n,使预测输出可以表示为以这组参数为权重的实例属性的线性组合。如果引入常量 x0=1,线性回归试图学习的模型就是

f(x)=wTx=ni=0wixi

当实例只有一个属性时,输入和输出之间的关系就是二维平面上的一条直线;当实例的属性数目较多时,线性回归得到的就是 n 维空间上的一个超平面,对应一个维度等于 n - 1 的线性子空间。

在训练集上确定系数 wi 时,预测输出 f(x) 和真实输出 y 之间的误差是关注的核心指标。在线性回归中,这一误差是以均方误差来定义的。当线性回归的模型为二维平面上的直线时,均方误差就是预测输出和真实输出之间的欧几里得距离,也就是两点间向量的 L2 范数。而以使均方误差取得最小值为目标的模型求解方法就是最小二乘法,其表达式可以写成

w=argminwk=1(wTxkyk)2

=argminwk=1||ykwTxk||2

式中每个 xk 代表训练集中的一个样本。在单变量线性回归任务中,最小二乘法的作用就是找到一条直线,使所有样本到直线的欧式距离之和最小

说到这里,问题就来了:凭什么使均方误差最小化的参数就是和训练样本匹配的最优模型呢?

© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《人工智能基础课》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(20)

  • Maiza
    老师 每次看到公式的地方就跪了...
    能麻烦给每个公式标明下出处,方便理解吗?
    老师认为理所当然的事情对小白来说就是天书啊 。。。。。😂😂😂

    作者回复: 公式的出处都是前辈们的推导啊……后面我会再过一遍公式,看看有没有符号解释不清的地方

    2018-01-06
    12
  • Haley_Hu
    2范数是不是就指L2正则 1范数就指L1正则

    作者回复: 范数本身是个数学指标,用这个指标做正则化就是对应的正则化方法

    2018-02-24
    2
  • 秦龙君
    学习了。
    2017-12-29
    2
  • wdf
    为什么说ringe对应的是正态,lasso是拉普拉斯分布

    作者回复: 这是从贝叶斯角度出发的。假定参数本身已经服从正态/拉普拉斯分布,那么在高斯噪声之下,用参数的似然概率乘以先验就可以得到后验。对后验概率取对数得到的结果和正则化的损失函数形式一致,所以对后验概率的最大化就是对正则化损失函数的最小化。
    这相当于先假定参数符合特定条件,在此基础上再来计算最优参数。

    2018-07-07
    1
  • w 🍍
    应该是”线性回归得到的就是 n+1 维空间上的一个超平面,对应一个维度等于 n 的线性子空间。“吧,还是我理解不对...
    2019-08-11
  • 全全
    天一老师,讲的真好!有些内容您可以加上一些图片帮助理解,比如讲特征值分解那里,变换是由矩阵引起的,特征值和特征向量,您用文字解释的非常明白,我又看维基百科里给了一个动图,觉得豁然开朗。还有这次课里那几个范数应用在回归正则化里,也有图片可以帮助理解。有时候学习这个东西,在我完全不懂的时候,解释的多明白都是天书的感觉。只有懂了,再看的时候就有共鸣,看出您文字里背后的意思。这是我的体会。
    那么天一老师,我的困惑在于,用1范数可以做稀疏,同样是有棱有角的无穷范数,是不是也可以作为正则化的约束条件来实现稀疏呢?
    可以么?用无穷范数来实现稀疏?直观上看是可以的,如果不可以是因为什么呢?希望老师指点
    另外如果可以的话,那无穷范数实现的稀疏和1范数所实现的稀疏比较而言,有什么优缺点呢?
    跟您学,有收获,真心求教!
    2019-03-07
  • Snail@AI_ML
    和学习的课程相互印证之后,发现居然更糊涂了:这是上面的章节没有的现象,总结来说,本文更详细并做了一些拓展,比如线性回归的来历,正则化的应用等,课程只是告诉我们正则化的特点和应用,简单粗暴呢
    2019-01-18
  • 历尽千帆
    老师~我不太明白,为什么说LASSO回归的特点在于稀疏性的引入?我不太懂这里说的稀疏性是指的什么~
    2018-12-27
  • 历尽千帆
    您好,我没有明白,为什么引入常量 x0=1,后面的y=wx才成立呢?
    2018-12-26
  • 十八哥
    假定给出美女的标准,数据化。问题提出如何确定美女在泳池中出现的概率?模型输入,地区、区域房价、游泳单价、时间维度、年龄参数等。此时我们可以用线性回归找到这些模型中那个变量是最优的,并且能给出排序。我的理解对吗?

    作者回复: 实际上线性回归只能给出每个属性的权重,当然可以人为地认定权重越大,属性越优。

    2018-12-01
  • haiker
    引入抑制过拟合现象,以训练误差的上升为代价,换取测试误差的下降,训练误差和测试误差有时候是不是鱼和熊掌,不可兼得,训练误差太低可能就过拟合了,在测试集上效果就不好了。有些学者建议在训练集上训练的时候要等到稍微过拟合了再结束,因为提前结束的话,可能模型还没训练到位。

    作者回复: 抑制过拟合几乎成为机器学习的核心问题了。

    2018-10-14
  • haiker
    LASSO 回归感觉也是在做特征降维,会不会和做完特征降维之后再做线性回归效果差不多呢?

    作者回复: LASSO的降维应该说是无心插柳,不是以降维为目的,但起到降维的效果。它和PCA这种直接降维的效果还是有区别的。

    2018-10-14
  • haiker
    季霍诺夫矩阵是超参数要提前指定,还是参数,在训练过程中获得呢?

    作者回复: 超参数,需要提前确定,在不同的正则化超参数下计算出的模型参数也是不一样的。

    2018-10-14
  • Howard.Wundt
    老师的数学公式是用什么工具写的,可以具体分享一下吗?

    作者回复: Latex,学术写作排版神器

    2018-09-22
  • wdf
    请问老师,如果是多元回归,假定噪声服从高斯分布极大似然估计和最小二乘法等价吗

    作者回复: 是的,文中考虑的就是多元的情形。

    2018-07-07
  • duchao_hit
    老师,对误差的概率就等于在参数w下样本的条件概率觉得不是很理解

    作者回复: 这个表达式写的有问题,等式左侧应该是在给定参数w和输入x的条件下,输出y的概率,也就是p(y | x, w)

    2018-05-25
  • duchao_hit
    老师,关于样本x的概率就等于误差的概率不是很理解。疑惑是y-wx=e,只能说p(y-wx)=p(e),但不能说p(y-wx)=p(x|w)吧?
    2018-05-25
  • 刘滨
    老师,请问最小二乘法跟梯度下降方法有什么区别?这里可以用梯度下降方法吗

    作者回复: 最小二乘定义了最优化的目标函数,梯度下降要找到最优化问题的最优解,两者大致是目的和手段的关系。
    最小二乘是有解析解的,如果解析解难以求解,就可以用梯度下降这些数值方法。

    2018-01-27
  • wolfog
    天一老师有段,开头是“LASSO回归的全称最小绝对缩减和选择算子”这一段的倒数第二行的2泛数项和一泛数项写法是否应该统一,要么数字都在右下角,要么都在右上角。今天后面这个惩罚项目不太了解为什么惩罚项目一加,就可以降低了他的过拟合。

    作者回复: 感谢你的细心,但两个标号意思是不一样的哈:下标代表的是范数维度,上标表示的是平方操作,意思是2范数的平方。所以在上标下面再加一个表示2范数的下标2,是标准的写法。
    所谓过拟合呢,就是用来描述模型的参数数目太多了,正则化项的作用就是通过不同范数控制参数的取值大小,如果把某些参数抑制为0,这个参数就消失了,也就起到了通过减少参数数目抑制过拟合的作用。

    2018-01-17
  • Andy
    最小二乘的形式,为何跟极大似然估计后的形式一致呢?是巧合吗?

    作者回复: 这是由正态分布的特性决定的

    2017-12-29
收起评论
20
返回
顶部