机器学习40讲
王天一
工学博士,副教授
立即订阅
8040 人已学习
课程目录
已完结 44 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 打通修炼机器学习的任督二脉
免费
机器学习概观 (10讲)
01 | 频率视角下的机器学习
02 | 贝叶斯视角下的机器学习
03 | 学什么与怎么学
04 | 计算学习理论
05 | 模型的分类方式
06 | 模型的设计准则
07 | 模型的验证方法
08 | 模型的评估指标
09 | 实验设计
10 | 特征预处理
统计机器学习模型 (18讲)
11 | 基础线性回归:一元与多元
12 | 正则化处理:收缩方法与边际化
13 | 线性降维:主成分的使用
14 | 非线性降维:流形学习
15 | 从回归到分类:联系函数与降维
16 | 建模非正态分布:广义线性模型
17 | 几何角度看分类:支持向量机
18 | 从全局到局部:核技巧
19 | 非参数化的局部模型:K近邻
20 | 基于距离的学习:聚类与度量学习
21 | 基函数扩展:属性的非线性化
22 | 自适应的基函数:神经网络
23 | 层次化的神经网络:深度学习
24 | 深度编解码:表示学习
25 | 基于特征的区域划分:树模型
26 | 集成化处理:Boosting与Bagging
27 | 万能模型:梯度提升与随机森林
总结课 | 机器学习的模型体系
概率图模型 (14讲)
28 | 最简单的概率图:朴素贝叶斯
29 | 有向图模型:贝叶斯网络
30 | 无向图模型:马尔可夫随机场
31 | 建模连续分布:高斯网络
32 | 从有限到无限:高斯过程
33 | 序列化建模:隐马尔可夫模型
34 | 连续序列化模型:线性动态系统
35 | 精确推断:变量消除及其拓展
36 | 确定近似推断:变分贝叶斯
37 | 随机近似推断:MCMC
38 | 完备数据下的参数学习:有向图与无向图
39 | 隐变量下的参数学习:EM方法与混合模型
40 | 结构学习:基于约束与基于评分
总结课 | 贝叶斯学习的模型体系
结束语 (1讲)
结课 | 终有一天,你将为今天的付出骄傲
机器学习40讲
登录|注册

总结课 | 机器学习的模型体系

王天一 2018-08-07
用 17 讲的篇幅,我和你分享了目前机器学习中的大多数主流模型。可是除开了解了各自的原理,这些模型背后的共性规律在哪里,这些规律又将如何指导对于新模型的理解呢?这就是今天这篇总结的主题。
要想在纷繁复杂的模型万花筒中梳理出一条清晰的脉络,还是要回到最原始的出发点——线性回归。线性回归是所有机器学习模型的鼻祖,其原因不仅源于它悠久的历史,还在于它三个最基本的特点。
线性(这不是废话么):除了常数之外最简单的函数关系。
全局性:一组线性系数适用于整个输入空间。
数据不变性:不对输入数据进行任何预处理。
这三个特点决定了线性回归简洁的数学形式、清晰的可解释性和受限的表达能力。要想从线性回归出发,得到更加复杂的模型,就要摆脱这三个基本假设的限制,从内部对模型加以改造。
线性是首当其冲的改造对象。要对复杂的客观世界进行建模,非线性是不可或缺的要素。但从线性到非线性的过渡并非一蹴而就,而是循序渐进地实现,其演进的过程大致遵循“属性非线性——参数非线性——全局非线性”的路线图。
首先是属性的非线性化,典型的处理手段就是基函数的扩展。基函数的引入本质上是对特征空间的重构。一般来说,所有基函数构成一组正交基,自变量和因变量之间的非线性关系就被限制在这组正交基展成的线性空间里。基函数的形式越复杂,模型刻画复杂关系的能力就会越强。从这个角度看,多项式模型和分段的样条模型都可以归入属性非线性化的范畴。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《机器学习40讲》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(6)

  • 林彦
    非计算机/统计/数学/金融专业毕业,之前不是程序员。作为一名工科毕业生,自己数学和逻辑的基础应能超出平均水平。想谋求一份以工程和数学为基础的技术职位作为职场生存的立足点之一。

    自己接下去工作会接触到SQL,很可能会有pandas,numpy这些数据分析的模块,也许还会用到Spark及Hadoop的一些相关知识/技能。编程经验除了业余自学的基础的Python和有限的pandas实践外,其他很少或差不多忘了。

    想问王老师除了理论学习和书籍阅读,做好现在的本职工作(SQL,网站分析工具等)外,业余或有可能在工作的项目中最好先从哪些领域练习/实践起。已报了持续数月的机器学习/深度学习的课程。马上要从事金融领域,也报了班补一补金融领域的数据建模/分析。现在课程非常多,可以看的书或领域对于基础不高的我有很多路径。有家庭的情况下必须有重点的选择。

    谢谢。

    作者回复: 纸上得来终觉浅,绝知此事要躬行。我理解你是要做些实践类的项目。
    首先可以看看诸如Harrington《机器学习实战》这一类的书籍,了解一下从输入到输出完整的过程。专栏里的例子都是toy example,在真实项目里,数据预处理和特征工程这些都是不可或缺的。
    有了大体的认识之后,就可以做一些更贴近实际的项目了。Kaggle,还有一些其他的国内的网站都是很好的选择,你可以找一找。里面的项目都是基于真实数据集的完整问题,相当于亲手实战了。
    再深入的话就是做真刀真枪的项目了。这种项目离不开垂直领域,需要完全从零开始地分析解决。如果对金融有兴趣,你可以找一些相关的案例看一看,学习这个领域特有的方法技巧,有的放矢。但问题是如果没有企业或者研究背景的话,这种纯实践的横向项目恐怕接触不到。
    以上就是我的一点建议,但仅仅是一般化的路径,每个人的基础不同,还需要根据自己的情况找到最合适的道路。
    祝你达到心中的目标!

    2018-08-23
    1
  • 彭燕林
    王老师的课由浅入深,抽丝剥茧,真正的对我打开机器学习的大门,值得反复学习。我本身做计算机工程,学习理论是一个参考,有这样一个指引方向的课程如遇甘霖,非常受益,十分感谢。
    2019-11-26
  • zhoujie
    感知机算法属于参数非线性模型这一点没问题,那它是不是也属于全局非线性模型呢?因为感知机算法和逻辑回归一样都是将线性组合转为非线性,只不过逻辑回归是0,1区间的软分类,感知机是符号函数的0,1硬分类

    作者回复: 感知器属于全局模型,一套参数适用于所有输入

    2018-09-13
  • zhoujie
    关于分布式表示,深度学习可以理解,朴素贝叶斯为什么属于分布式表示,从哪里体现出来?

    作者回复: 朴素贝叶斯把属性之间的关联去掉,让属性之间相互独立,让每个样本都可以从单个属性的角度来观察,可以理解成是最简单的分布式表示了。

    2018-09-11
  • never_giveup
    老师,出现病态矩阵问题,有比较好的解决方法吗?
    2018-08-07
  • never_giveup
    老师,出现病态矩阵问题,有比较好的解决方法吗?

    作者回复: 怎么处理取决于应用场景了。最简单的方法是给对角线元素加个扰动,改善下特征值,这相当于做个岭回归。要是矩阵求逆可以借助奇异值分解。

    2018-08-07
收起评论
6
返回
顶部