15 | 从回归到分类：联系函数与降维

王天一



该思维导图由 AI 生成，仅供参考

线性模型最初被用来解决回归问题（regression），可在实际应用中，更加普遍的是分类问题（classification）。要用线性模型解决分类问题的话，就需要将线性模型原始的连续输出转换成不同的类别。
在分类问题中，一种特殊的情况是类别非黑即白，只有两种，这样的问题就是二分类问题，它可以看成是多分类问题的一个特例，也是今天讨论的对象。
将回归结果转化为分类结果，其实就是将属性的线性组合转化成分类的标准，具体的操作方式有两种：一种是直接用阈值区分回归结果，根据回归值与阈值的关系直接输出样本类别的标签；另一种是用似然度区分回归结果，根据回归值和似然性的关系输出样本属于某个类别的概率。
这两类输出可以分别被视为硬输出和软输出，它们代表了解决分类问题不同的思路。
硬输出是对数据的分类边界进行建模。实现硬输出的函数，也就是将输入数据映射为输出类别的函数叫作判别函数（discriminant）。判别函数可以将数据空间划分成若干个决策区域，每个区域对应一个输出的类别。不同判别区域之间的分界叫作决策边界（decision boundary），对应着判别函数取得某个常数时所对应的图形。用线性模型解决分类问题，就意味着得到的决策边界具有线性的形状。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

线性模型在分类问题中的应用是一种常见且有效的方法。本文介绍了线性模型在解决分类问题时的应用，特别是针对二分类问题的解决方法。线性模型需要将原始的连续输出转换成不同的类别，可以通过硬输出和软输出两种方式实现。逻辑回归和线性判别分析是两种代表性的分类模型，分别基于概率估计样本归属于某个类别的后验概率和最大化类间距和最小化类内方差来确定决策边界。此外，文章还介绍了线性判别分析和逻辑回归在实际应用中的差异，以及它们在Scikit-learn中的实现方式。总的来说，本文通过介绍这些方法，为读者提供了解决分类问题时使用线性模型的思路和技术方法。文章内容涵盖了线性模型在分类问题中的基本原理和实际应用，对于想要快速了解线性模型在分类问题中的应用的读者来说，是一份简洁而全面的概览。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《机器学习 40 讲》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(8)

最新
精选

林彦
当不同分类样本的协方差矩阵相同时，使用线性判别分析；当不同分类样本的协方差矩阵不同时，则应该使用二次判别分析（Quadratic Discriminant Analysis）。LDA适合均值不同，方差相同的高斯分布，其决策边界是一个平面。QDA适合均值不同，方差也不同的高斯分布。在协方差矩阵相同时，LDA和QDA没有分类结果差异。在不同的协方差矩阵下，LDA和QDA的决策边界存在明显差异。
作者回复: 是的，QDA去掉了对方差相同的限制，这样计算出的似然比，也就是概率密度的比值就不是直线了。
2018-07-09

8
Python
老师，逻辑回归只适用于带标签的数据的分类任务吗
作者回复: 是，这是监督学习的分类算法，虽然名字叫“回归”，却不是真回归。
2019-01-22

1
Python
x_min,x_max = shots.min() - 0.2,shots.max() +0.2 y_min, y_max = tackles.min() - 0.2, tackles.max() + 0.2 老师为什么要用最小值减去0.2，和最大值加0.2
作者回复: 把画图的坐标轴范围稍微扩大一点，让所有点都处在图内部。
2019-01-22


夏震华(围巾)
LDA、QDA ：http://www.mamicode.com/info-detail-1819236.html这个比较直观，容易理解
作者回复: 感谢分享
2018-10-08


paradox
老师，您好文中说LR与LDA是以每个输出类别为单位，将每个类别的数据看作不同的整体，并寻找它们之间的分野。如何理解呢？
作者回复: 指的是两种模型在分类时利用的都是类别数据整体的统计特性，相比之下，支持向量机使用的支持向量就是每个类别中若干个具有代表性的特例。
2018-08-11


杨家荣
极客时间 21天打卡行动 53/21 <<机器学习40讲/15>> 从回归到分类：联系函数与降维今日所学 1,将回归结果转化为分类结果:一种是直接用阈值区分回归结果,另一种是用似然度区分回归结果; 2,硬输出是对数据的分类边界进行建模。实现硬输出的函数，也就是将输入数据映射为输出类别的函数叫作判别函数（discriminant）, 3,输出利用的是似然度，需要建立关于数据的概率密度的模型，常见的具体做法是对线性回归的结果施加某种变换, 4,好的分类算法既要让相同类别的数据足够接近，又要让不同类别的数据足够远离, 5,线性判别分析需要较强的假设来支持。重点在解决分类问题时，线性模型的回归值可以通过联系函数转化为分类结果；线性判别分析假定数据来自均值不同但方差相同的正态分布，通过最大化类间方差与类内方差的比值计算线性边界；逻辑回归计算的是不同类别的概率决策边界，输出的是给定数据属于不同类别的后验概率；基于线性模型的分类方法计算出的决策边界是输入属性的线性函数。
2020-02-09

1
ifelse
学习打卡
2023-06-02归属地：浙江


鱼大
干货
2018-07-10



收起评论