17｜集成学习：机器学习模型如何“博采众长”?

黄佳

你好，我是黄佳。恭喜你连闯４关，成功来到最后一关“裂变关”。
回忆一下这一路的旅程，在获客关中，我们给用户分组画像；在变现关中，我们关注用户的生命周期价值；在激活关中，我们预测了 App 的激活数字；在留存关中，我们分析了与用户流失相关的因素。
那么在裂变关中，我们将从数据中寻找蛛丝马迹，发现“易速鲜花”运营中最佳的“裂变方案”。不过，除了介绍运营中的裂变方案外，今天，我们还要好好讲一讲集成学习。
为什么要专门拿出一讲来谈集成学习呢？我们在第 9 讲说过，我们用机器学习建模的过程，就是和过拟合现象持续作斗争的过程。而集成学习在机器学习中是很特别的一类方法，能够处理回归和分类问题，而且它对于避免模型中的过拟合问题，具有天然的优势。那么，集成学习的优势是怎么形成的？学习了今天的课程后你就会找到答案。
定义问题老规矩，我们先来定义今天要解决的问题。
说起裂变，你可能并不会感到陌生。裂变是让产品自循环、自传播的重要工具。像邀请新人得红包、分享 App 领优惠券、友情助力拿赠品、朋友圈打卡退学费等等，都是裂变的玩法。
最近，“易速鲜花”运营部门提出了两个裂变思路。方案一是选择一批热销商品，让老用户邀请朋友扫码下载 App 并成功注册，朋友越多，折扣越大。我们把这个方案命名为“疯狂打折”，它走的是友情牌。方案二是找到一个朋友一起购买，第二件商品就可以免费赠送，这叫“买一送一”。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

集成学习在机器学习中的应用是本文的重点，通过“易速鲜花”运营中的裂变方案案例，详细介绍了集成学习如何判断特定用户在特定裂变促销下是否会转化。文章通过数据可视化和预处理展示了数据集中转化和未转化的比例，以及对数据集进行哑变量处理、构建特征和标签数据集、拆分训练集和测试集、特征归一化缩放等步骤。深入介绍了集成学习的原理和应用，包括随机森林、梯度提升机和极限梯度提升等算法的成功应用。此外，还介绍了降低偏差的Boosting方法，包括AdaBoost、GBDT和XGBoost算法的原理和应用。通过代码示例展示了这些算法在特定问题上的预测效果。整篇文章以实际案例为背景，结合代码示例，生动地介绍了集成学习的应用和相关技术细节。文章内容丰富，适合读者快速了解集成学习在机器学习中的应用及相关技术细节。文章还提出了三个思考题，引发读者思考和探索。文章总结了集成学习模型的优势和常用算法，为读者提供了进一步学习和探索的方向。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《零基础实战机器学习》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(5)

最新
精选

谦
之前对集成算法对参数不是很理解，在learning_rate和n_estimators对选择上有过经验教训，惯性思维认为learning_rate只是决定训练的速度，然后就随便选了一个learning_rate对Adaboost，XGBoost，GBDT 和随机森林分别进行训练，得到对结果Adaboost > 随机森林 > GBDT > XGBoost。因为网上都说XGB很厉害，这个的结果看上去不太合理，这时候通过增加n_estimators对数量，XGB的结果终于排到第一名，后面发现如果不增减n_estimators对数量，把learning_rate从0.1改成了1，XGB对结果也说可以排到第一位，也就是learning_rate和n_estimators是配合使用的，小的learning_rate需要更多对estimator来支持。如果老老实实用GridSearchCV的话，应该可以早点找到合适的参数。
作者回复: 这是宝贵的调参过程之细节，感谢分享！！
2021-10-06

6
Null
纠错实例代码：决策树bagging，dt = BaggingClassifier(DecisionTreeClassifier()) # 只使用一棵决策树dt.fit(X_train, y_train) # 拟合模型。这里应该是dt = DecisionTreeClassifier())吧。
作者回复: 谢谢同学，你是正确的。应该改为：dt = DecisionTreeClassifier() 我们会修正网页。
2022-09-26归属地：北京
3

尼古拉斯德彪
老师，总结的最后一句话，是写错了吗？推荐两种算法，说了3个？？？那么最后，如果让我在集成学习家族的算法里，给你推荐两种常用且效果好的算法，基于我个人的经验，我会觉得 XGBoost、GBDT 和随机森林是优于其它几种的。
作者回复: 谢谢同学的建议，更准确的说法是“一些”或“几个”。😋
2022-04-08


FM微言送
问个题外话：SAP这个是不是跟现在智能制造（ERP,MES，WMS，SRM，PLM...等九大系统）类似。小白希望能解答
作者回复: SAP是一个大型的ERP系统软件，也是最大最全面的。你上面列举的9大系统里面的很多系统应该在SAP中都有具体的实现。公司上马了SAP系统，很多产、供、销、资源调配，财务管理，人类资源管理均可以找到解决方案。但是SAP这个软化很贵。
2021-12-06


JL
提出两个裂变方案之后，运营部门收集了转化数据。那么，我们今天的目标就是根据这个数据集，来判断一个特定用户在特定的裂变促销之下，是否会转化。老师这段话里的转化数据链接好像错了，点进去是18的内容
作者回复: 谢谢反馈，我们这边调整一下链接。
2021-11-29



收起评论