10 机器学习 | 衍化至繁：逻辑回归

王天一



该思维导图由 AI 生成，仅供参考

周四我和你分享了机器学习中的朴素贝叶斯分类算法，这一算法解决的是将连续取值的输入映射为离散取值的输出的分类问题。朴素贝叶斯分类器是一类生成模型，通过构造联合概率分布 P(X,Y) 实现分类。如果换一种思路，转而用判别模型解决分类问题的话，得到的算法就是“逻辑回归”。
虽然顶着“回归”的名号，但逻辑回归解决的却是实打实的分类问题。之所以取了这个名字，原因在于它来源于对线性回归算法的改进。通过引入单调可微函数 g(⋅)，线性回归模型就可以推广为 y=g−1(wTx)，进而将线性回归模型的连续预测值与分类任务的离散标记联系起来。当 g(⋅) 取成对数函数的形式时，线性回归就演变为了逻辑回归。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

逻辑回归是一种常用的判别模型，用于解决分类问题。与朴素贝叶斯分类器不同，逻辑回归通过估计输入和输出的条件概率分布来判定给定输入应选择哪种输出。逻辑回归利用对数几率函数将线性回归的输出范围压缩到(0, 1)之间，从而更适合二分类任务。在学习时，逻辑回归模型通过最大似然估计法确定模型的参数，最大化每个样本属于其真实标记的概率。逻辑回归与线性回归的关系源于非线性的对数似然函数，而与朴素贝叶斯分类器的关系在于它们在特定条件下可以等效。逻辑回归的特点在于其对数几率函数的应用和参数的最大似然估计，以及与其他分类方法的关系和区别。逻辑回归并不完全依赖于属性之间相互独立的假设，即使给定违反这一假设的数据，逻辑回归的条件似然最大化算法也会调整其参数以实现最大化的数据拟合。相比之下，逻辑回归的偏差更小，但方差更大。除此之外，两者的区别还在于收敛速度的不同。逻辑回归中参数估计的收敛速度要慢于朴素贝叶斯方法。当训练数据集的容量较大时，逻辑回归的性能优于朴素贝叶斯方法；但在训练数据稀缺时，两者的表现就会发生反转。逻辑回归的多分类问题可以通过多次使用二分类逻辑回归或者使用Softmax回归解决。Softmax回归给出的是实例在每一种分类结果下出现的概率，适用于明显互斥的分类问题。逻辑回归的作用可以从几何角度理解，并推广到高维空间。总的来说，逻辑回归是一种灵活的分类模型，通过对数几率函数和最大似然估计来处理分类问题，适用于不同数据特点和问题类型。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《人工智能基础课》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(16)

最新
精选

dianxin556
王老师，请问似然概率和后验概率的区别和联系？能否举例说明？谢谢！
作者回复: 似然概率是由假设正推结果，后验概率是由结果倒推假设。假如一种产品由不同的工厂ABC生产，每个工厂都有自己的次品率，那么A厂生产的产品占产品总数的比例就是先验概率，A厂自己的次品率就是似然概率。在一堆产品中抽出一件，检验发现是次品，那这件次品可能来源于ABC中任意的一个厂。已知产品是次品，推断这件次品来自A厂的概率，这就是后验概率。
2018-01-24
4
21
井中月
王老师，按文章最后一段所说，当一个样本同时属于多个类别时，是不是有几个类别就建立几个二分类模型，这样效率比较高？但是我曾经遇到过一个类似的问题，当时没有解决，想跟您请教。每个样本属于多个类别，这些类别加起来一共有将近400种，而且绝大多数类别都是严重不平衡的。这种情况下如果一个一个的建立模型是不是效率很低？这是一个文本分类的问题，文本是餐厅评论数据，类别是人工标注的评论主题。这些类别其实是可以合并的，但是合并之后意义不大。您怎么看这种情况？
作者回复: 抛开问题不说，做多分类两种思路：一是所有类别两两配对，就是1v2, 1v3,...,1vN,2v3,2v4,...2vN,3v4,...依此类推；二是每个类别和其他所有类别配对，就是1v其他，2v其他，…Nv其他。第一种模型多，每个模型需要的数据少，第二种相反。具体到你的问题，我觉得类别太多了，尤其是数据有限时，给500个数据分400个类是没有价值的。所以我认为应该先对类别做优化，当然，能不能行的通还要看实际情况。
2018-03-07

4
叶秋
可否推导一下逻辑回归的条件概率的推导过程
作者回复: 在这里没法打出公式，你可以参考维基百科上逻辑回归的页面，或是推荐书目中周老师和李老师教材的相关章节。
2018-03-27

2
Jean
问下逻辑回归中的“逻辑”是什么意思，为什么叫逻辑，是怎么来的？
作者回复: 逻辑是logistic的音译，logistic函数就是文章里的sigmoid函数，也就是S曲线。
2018-03-01
2
2
MJ小朋友
我好像发现了两个无伤大雅的错误， S型函数b好像漏了，后面推导有了，又没了对数似然函数应该取自然对数，不然没底数不行
作者回复: 感谢你的火眼金睛，这两个问题都是符号没有统一造成的。第一个，没有常项b是因为把它看成w的一个分量w_0，并让它和另一个常数x_0=1相乘，但是推导时候这样写又不方便，所以就把b拿出来了；第二个是个习惯问题，这要归咎于平时书写并不规范，不写底数的log就默认是ln运算。在文章中，所有的运算全是自然对数运算。
2018-01-05

2
井中月
谢谢您的回复。我当时设想的是第二种思路，每个类和其他所有类配对。当时的数据量是50多万条。按您的经验来说，一般做分类问题，类别控制在多少个容易取得较好的效果呢？
作者回复: 这是取决于具体问题的，建议你也把类别数量作为一个变量试一试，看看类别多少时效果比较好。
2018-03-11

1
星运里的错
老师。我发现很多概念当时明白，过后就忘了，您是推荐从实战例子中去加深理解，还是反复的去看概念，知道看懂
作者回复: 我认为结合起来才有效果，想办法理解例子是如何应用概念的。
2018-05-19


Andy
王老师您好，在逻辑回归中，代价函数为什么选用交叉熵代价函数，而不是选用最小二乘代价函数呢？
作者回复: 不要被名字欺骗，逻辑回归的输出是离散值哟，离散变量用最小二乘就没意义了。
2018-01-05


阿里-赤壁（羊宏飞）
王老师这个课我认为是机器学习入门者非常好的图谱，其中一些知识点还是要结合书本和实战。问题的讨论知乎上回答的也非常详尽
2018-06-01

4
小老鼠
各位是不是都是数学系毕业的，好难懂
2019-01-17
1
1

收起评论