13 机器学习 | 三个臭皮匠，赛过诸葛亮：集成学习

王天一



该思维导图由 AI 生成，仅供参考

在无线通信中，有一种广受欢迎的“MIMO”传输技术。MIMO 的全称是多输入多输出（Multiple Input Multiple Output），其早期配置是在发送端和接收端同时布置多个发射机和多个接收机，每个发射机发送相同的信号副本，而每个接收机则接收到来自多个发射机的不同信号，这些信号经历的衰减是相互独立的。这样一来，在接收端多个信号同时被严重衰减的概率就会以指数形式减小，通过获得分集增益带来误码率的下降与信道容量的提升。
无线通信中的分集思想在机器学习中的对应就是集成学习。集成学习正是使用多个个体学习器来获得比每个单独学习器更好的预测性能。
监督学习的任务是通过假设空间搜索来找到能够对特定问题给出良好预测的假设。但问题是即使这样的假设存在，能否找到也在两可之间。因而集成学习的作用就是将多个可以得到假设整合为单个更好的假设，其一般结构是先产生一组个体学习器，再使用某种策略将它们加以整合。每个组中的个体学习器如果属于同一类型（比如都是线性回归或者都是决策树），形成的就是同质集成；相应地，由不同类型学习器得到的集成则称为异质集成。
直观来看，性能优劣不一的个体学习器放在一块儿可能产生的是更加中庸的效果，即比最差的要好，也比最好的要差。那么集成学习如何实现“1 + 1 > 2”呢？这其实是对个体学习器提出了一些要求。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

集成学习如何实现“1 + 1 > 2”呢？本文介绍了在无线通信中广受欢迎的MIMO传输技术，并将其与机器学习中的集成学习进行了对应。MIMO技术中的分集思想在机器学习中对应集成学习，通过使用多个个体学习器来获得比单独学习器更好的预测性能。集成学习的核心问题在于在多样性和准确性间做出折中，进而产生并结合各具优势的个体学习器。文章还介绍了集成学习方法中的序列化方法和并行化方法，以及典型的序列化学习算法AdaBoost和并行化学习方法随机森林。AdaBoost通过改变训练数据的权重分布和弱分类器结果的组合策略来提高性能，而随机森林则通过随机的属性选择和合成策略来保证多样性。这些方法为读者提供了对集成学习的深入理解，以及在实际应用中的具体操作方法。集成学习是一种强大的机器学习方法，通过组合多个个体学习器来提高预测性能。本文将MIMO传输技术与集成学习进行了对应，强调了多样性和准确性之间的平衡，以及序列化方法和并行化方法的应用。AdaBoost和随机森林作为典型的序列化和并行化学习算法，分别通过改变数据权重分布和随机属性选择来提高性能和保证多样性。这些方法为读者提供了深入理解集成学习的机会，并指导实际应用操作。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《人工智能基础课》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(9)

最新
精选

MJ小朋友
看了老师讲述打包和提升的简介，又学习了相关例子，GET到了，明天是不是讲随机森林😀期待期待☺
作者回复: 随机森林算是个具体的方法，就不单独起一篇了，留给大家自学哈
2018-01-07

4
杨家荣
极客时间 21天打卡行动 11/21 <<人工智能基础课13>>集成学习回答老师问题: Boosting 机制和 Bagging 机制各具特色，在集成学习中发挥着不同的作用。那么能否将两者结合起来，达到互补的效果呢？查资料分析: 结合策略有以下几个:平均法,投票法,Stacking,平均法和投票法仅是对弱学习器的结果做简单的逻辑处理，而stacking是再加上一层权重学习器（Meta Learner），基学习器（Base learner）的结果作为该权重学习器的输入，得到最终结果; 今日所学: 1,监督学习的任务是通过假设空间搜索来找到能够对特定问题给出良好预测的假设; 2,根据监督学习找到最优答案,而集成学习的作用就是将多个可以得到假设整合为单个更好的假设，其一般结构是先产生一组个体学习器，再使用某种策略将它们加以整合。每个组中的个体学习器如果属于同一类型（比如都是线性回归或者都是决策树），形成的就是同质集成；相应地，由不同类型学习器得到的集成则称为异质集成; 3,集成学习的优势:一方面，个体学习器的性能要有一定的保证,另一方面，个体学习器的性能要有一定的差异，和而不同才能取得进步; 4, 在MIMO模型中, 个体学习器的误差相互独立;集成学习的核心问题在于在多样性和准确性间做出折中，进而产生并结合各具优势的个体学习器; 5,个体学习器的生成方式很大程度上取决于数据的使用策略。根据训练数据使用方法的不同，集成学习方法可以分为两类：个体学习器间存在强依赖关系因而必须串行生成的序列化方法，和个体学习器之间不存在强依赖关系因而可以同时生成的并行化方法; 6,序列化方法中的数据使用机制被称为提升（Boosting; 7,与 Boosting 相比，并行化方法中的数据使用机制是将原始的训练数据集拆分成若干互不交叠的子集，再根据每个子集独立地训练出不同的个体学习器。这种方法被称为自助聚合（Bootstrap AGgregation），简称打包（Bagging); 8,典型的序列化学习算法是自适应提升方法（Adaptive Boosting），人送绰号 AdaBoost。在解决分类问题时，提升方法遵循的是循序渐进的原则。先通过改变训练数据的权重分布，训练出一系列具有粗糙规则的弱个体分类器，再基于这些弱分类器进行反复学习和组合，构造出具有精细规则的强分类器。从以上的思想中不难看出，AdaBoost 要解决两个主要问题：训练数据权重调整的策略和弱分类器结果的组合策略。(根据不同分布调用弱学习算法得到一系列弱学习器实现的，再将这些学习器线性组合，具体组合方法是误差率小的学习器会被增大权值，误差率大的学习器会被减小权值，典型代表adaboost算法。) 9,在训练数据的权重调整上，AdaBoost 采用专项整治的方式; 10,在 AdaBoost 的弱分类器组合中，每一轮得到的学习器结果都会按照一定比例叠加到前一轮的判决结果，并参与到下一轮次权重调整之后的学习器训练中; 11,随着训练过程的深入，弱学习器的训练重心逐渐被自行调整到的分类器错误分类的样本上，因而每一轮次的模型都会根据之前轮次模型的表现结果进行调整，这也是 AdaBoost 的名字中“自适应”的来源; 12,AdaBoost 可以视为使用加法模型，以指数函数作为损失函数，使用前向分步算法的二分类学习方法; 13,在随机森林中，每棵决策树在选择划分属性时，首先从结点的属性集合中随机抽取出包含 k 个属性的一个子集，再在这个子集中选择最优的划分属性生成决策树。 14,以 Boosting 方法为代表的序列化方法使用了全体训练数据，并根据每次训练的效果不断迭代以使损失函数最小化，因而可以降低平均意义上的偏差，能够基于泛化能力较弱的学习器构建出较强的集成。 15,以 Bagging 方法为代表的并行化方法则利用原始训练数据生成若干子集，因而受异常点的影响较小，对在每个子集上训练出的不完全相关的模型取平均也有助于平衡不同模型之间的性能，因而可以一定程度上降低方差。名词:随机森林方法, 总结: 老师讲的重点: 1,集成学习使用多个个体学习器来获得比每个单独学习器更好的预测性能，包括序列化方法和并行化方法两类； 2,多样性要求集成学习中的不同个体学习器之间具有足够的差异性； 3,序列化方法采用 Boosting 机制，通过重复使用概率分布不同的训练数据实现集成，可以降低泛化误差中的偏差； 4,并行化方法采用 Bagging 机制，通过在训练数据中多次自助抽取不同的采样子集实现集成，可以降低泛化误差中的方差。
2019-12-29

6
piboye
“训练数据集拆分成若干互不交叠的子集", Bagging 不是自举采样吗？这写集合可能有交叠啊
2023-12-21归属地：广东


ifelse
学习打卡
2023-05-03归属地：浙江


Geek_HanX2
Bagging：随机森林 Boosting：AdaBoost、GBDT（XGBoost）
2022-11-28归属地：湖南


上善若水
三个诸葛亮不如一个臭皮匠
2019-10-30


历尽千帆
王老师~Boosting 和 Bagging结合的结果是什么样的呀？现在有相关的算法嘛？想自学一下~~
2019-01-02


Jlinbb
写可以稍微讲讲GBDT，现在很多公司面试都会问
2018-04-02


鬼猫猫
老师每篇的标题起的太有意思了！
2018-01-08



收起评论