机器学习 40 讲
王天一
工学博士,副教授
35375 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 46 讲
机器学习 40 讲
15
15
1.0x
00:00/00:00
登录|注册

总结课 | 机器学习的模型体系

局部加权回归
基于距离的学习
核回归
激活函数
分段的样条模型
多项式模型
《统计学习理论的本质》(The Nature of Statistical Learning Theory),弗拉基米尔·瓦普尼克
《深入理解机器学习》(Understanding Machine Learning),沙伊·沙莱夫-施瓦茨等
《机器学习:概率视角》(Machine Learning: A Probabilistic Perspective),凯文·墨菲
《深度学习》(Deep Learning),伊恩·古德菲洛等
《模式识别与机器学习》(Pattern Recognition and Machine Learning),克里斯托弗·毕晓普
《统计学习基础》(Elements of Statistical Learning),特雷沃·哈斯蒂等
《机器学习导论》(Introduction to Machine Learning),埃塞姆·阿培丁
《机器学习》(Machine Learning),彼得·弗拉克
《机器学习》(Machine Learning),汤姆·米切尔
流形学习
主成分分析
线性判别分析
特征选择
深度学习
朴素贝叶斯
k近邻
核函数
广义线性模型
神经网络
基函数扩展
专业读物
进阶读物
入门读物
多模型群策群力
并联模型
逐级学习
串联模型
提升模型泛化性能
添加额外约束条件
非线性降维
线性降维
直接降维
分布式表示
非结构化局部
结构化局部
全局非线性
参数非线性
属性非线性
受限的表达能力
清晰的可解释性
简洁的数学形式
机器学习参考书
集成化
层次化
正则化
稀疏化
局部化
非线性化
线性回归
机器学习模型鸟瞰图

该思维导图由 AI 生成,仅供参考

用 17 讲的篇幅,我和你分享了目前机器学习中的大多数主流模型。可是除开了解了各自的原理,这些模型背后的共性规律在哪里,这些规律又将如何指导对于新模型的理解呢?这就是今天这篇总结的主题。
要想在纷繁复杂的模型万花筒中梳理出一条清晰的脉络,还是要回到最原始的出发点——线性回归。线性回归是所有机器学习模型的鼻祖,其原因不仅源于它悠久的历史,还在于它三个最基本的特点。
线性(这不是废话么):除了常数之外最简单的函数关系。
全局性:一组线性系数适用于整个输入空间。
数据不变性:不对输入数据进行任何预处理。
这三个特点决定了线性回归简洁的数学形式、清晰的可解释性和受限的表达能力。要想从线性回归出发,得到更加复杂的模型,就要摆脱这三个基本假设的限制,从内部对模型加以改造。
线性是首当其冲的改造对象。要对复杂的客观世界进行建模,非线性是不可或缺的要素。但从线性到非线性的过渡并非一蹴而就,而是循序渐进地实现,其演进的过程大致遵循“属性非线性——参数非线性——全局非线性”的路线图。
首先是属性的非线性化,典型的处理手段就是基函数的扩展。基函数的引入本质上是对特征空间的重构。一般来说,所有基函数构成一组正交基,自变量和因变量之间的非线性关系就被限制在这组正交基展成的线性空间里。基函数的形式越复杂,模型刻画复杂关系的能力就会越强。从这个角度看,多项式模型和分段的样条模型都可以归入属性非线性化的范畴。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

本文系统梳理了机器学习模型的演化过程和共性规律,从线性回归出发,介绍了模型的基本特点和演进路径。文章详细讨论了属性、参数和全局的非线性化,以及模型的局部化和分布式表示,同时探讨了稀疏化、正则化、层次化和集成化等方法对模型的改进。作者提出了机器学习模型鸟瞰图,强调了方法的重要性。参考书目包括经典进阶读物和专业读物,涵盖了机器学习的理论和实践,适合不同层次的读者。总的来说,本文以清晰的逻辑和丰富的案例,系统地介绍了机器学习模型的演化和共性规律,对于读者快速了解机器学习模型的发展脉络和方法的重要性具有重要参考价值。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《机器学习 40 讲》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(9)

  • 最新
  • 精选
  • 林彦
    非计算机/统计/数学/金融专业毕业,之前不是程序员。作为一名工科毕业生,自己数学和逻辑的基础应能超出平均水平。想谋求一份以工程和数学为基础的技术职位作为职场生存的立足点之一。 自己接下去工作会接触到SQL,很可能会有pandas,numpy这些数据分析的模块,也许还会用到Spark及Hadoop的一些相关知识/技能。编程经验除了业余自学的基础的Python和有限的pandas实践外,其他很少或差不多忘了。 想问王老师除了理论学习和书籍阅读,做好现在的本职工作(SQL,网站分析工具等)外,业余或有可能在工作的项目中最好先从哪些领域练习/实践起。已报了持续数月的机器学习/深度学习的课程。马上要从事金融领域,也报了班补一补金融领域的数据建模/分析。现在课程非常多,可以看的书或领域对于基础不高的我有很多路径。有家庭的情况下必须有重点的选择。 谢谢。

    作者回复: 纸上得来终觉浅,绝知此事要躬行。我理解你是要做些实践类的项目。 首先可以看看诸如Harrington《机器学习实战》这一类的书籍,了解一下从输入到输出完整的过程。专栏里的例子都是toy example,在真实项目里,数据预处理和特征工程这些都是不可或缺的。 有了大体的认识之后,就可以做一些更贴近实际的项目了。Kaggle,还有一些其他的国内的网站都是很好的选择,你可以找一找。里面的项目都是基于真实数据集的完整问题,相当于亲手实战了。 再深入的话就是做真刀真枪的项目了。这种项目离不开垂直领域,需要完全从零开始地分析解决。如果对金融有兴趣,你可以找一些相关的案例看一看,学习这个领域特有的方法技巧,有的放矢。但问题是如果没有企业或者研究背景的话,这种纯实践的横向项目恐怕接触不到。 以上就是我的一点建议,但仅仅是一般化的路径,每个人的基础不同,还需要根据自己的情况找到最合适的道路。 祝你达到心中的目标!

    2018-08-23
    5
  • never_giveup
    老师,出现病态矩阵问题,有比较好的解决方法吗?

    作者回复: 怎么处理取决于应用场景了。最简单的方法是给对角线元素加个扰动,改善下特征值,这相当于做个岭回归。要是矩阵求逆可以借助奇异值分解。

    2018-08-07
    2
  • zhoujie
    感知机算法属于参数非线性模型这一点没问题,那它是不是也属于全局非线性模型呢?因为感知机算法和逻辑回归一样都是将线性组合转为非线性,只不过逻辑回归是0,1区间的软分类,感知机是符号函数的0,1硬分类

    作者回复: 感知器属于全局模型,一套参数适用于所有输入

    2018-09-13
  • zhoujie
    关于分布式表示,深度学习可以理解,朴素贝叶斯为什么属于分布式表示,从哪里体现出来?

    作者回复: 朴素贝叶斯把属性之间的关联去掉,让属性之间相互独立,让每个样本都可以从单个属性的角度来观察,可以理解成是最简单的分布式表示了。

    2018-09-11
  • Simon
    本文厉害了!
    2020-04-16
    2
  • 滕启东
    高屋建瓴式的总结!
    2022-02-18
    1
  • 彭燕林
    王老师的课由浅入深,抽丝剥茧,真正的对我打开机器学习的大门,值得反复学习。我本身做计算机工程,学习理论是一个参考,有这样一个指引方向的课程如遇甘霖,非常受益,十分感谢。
    2019-11-26
    1
  • ifelse
    学习打卡
    2023-06-13归属地:浙江
  • never_giveup
    老师,出现病态矩阵问题,有比较好的解决方法吗?
    2018-08-07
收起评论
显示
设置
留言
9
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部