19 | 胸有成竹：如何快速定位合适的机器学习算法？

黄佳

你好，我是黄佳。欢迎来到零基础实战机器学习。
首先，恭喜你闯过了所有的业务关卡，我们即将开启这个课程的第三个模块：持续赋能篇，这也是我们的最后一个模块。在前面的动手实战过程中，相信你已经对机器学习中的多种算法胸有成竹了！
那么这儿先回顾一下我们一起学习了哪些算法。
在获客关，我们用 RFM 值给电商用户做了分组画像。其中，我们学习了无监督学习中的聚类算法，这也是我们这个课程中唯一一个监督学习之外的算法。在变现关，我们预测了用户生命周期价值 LTV，并讲解了各种模型优化方式。在此过程中，我们学习了线性回归、决策树和随机森林算法。
在激活关的深度学习部分，我们学习了如何用 CNN 网络对图片分类；并用 RNN 网络处理了时序数据，预测 App 的激活数。在留存关预测用户是否会流失的部分，我们通过逻辑回归算法和深度学习中的 DNN 网络解决了二元分类问题。在裂变关，我们评估了裂变海报的最佳受众群体。在这个实战中，我们用 XGBoost 这种集成学习方法完成了多元分类。
当然，面对机器学习这个深度全然不可测的海洋，我们在这个课程中使用过的算法只是沧海一粟。不过，我们所选择的这 9 种算法，是在机器学习入门阶段中最为常用、也最为实用的算法，它们不仅能有效地帮助我们解决诸多实际问题，也能为我们在机器学习领域进一步的钻研打下坚实的基础。只要用好了这 9 种算法，面对需要分析和挖掘的数据，你已经就拥有了 9 种非常强大的武器，可以开始战斗了。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

本文介绍了如何快速定位合适的机器学习算法。作者首先回顾了在实战中学习的各种算法，包括聚类算法、线性回归、决策树、随机森林、深度学习等。然后从问题类型、数据集大小、特征数量、计算时间要求和模型可解释性等方面介绍了选择算法的原则。对于回归问题，建议从线性回归、决策树、随机森林、XGBoost、朴素贝叶斯和神经网络等常见算法中进行选择，考虑数据集大小、特征维度和训练时间等因素。对于分类问题，也给出了相应的算法选择技巧。总的来说，建议在面对新数据集时，先从简单模型开始，然后根据数据进一步了解选择更复杂的模型算法。文章内容丰富，涵盖了多种机器学习算法及其适用场景，对读者快速了解如何选择合适的算法具有指导意义。文章还介绍了选择算法时的其他考量因素，包括训练数据的大小、特征的数量、性能和可解释性的权衡、速度或训练时间以及数据的线性程度。这些因素对于读者在实际应用中选择合适的机器学习算法具有重要的指导意义。文章强调了从简单模型开始构建基准模型，然后尝试更复杂的方法，并鼓励读者尽可能尝试多种算法和参数组合，以选择最适合特定任务的算法。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《零基础实战机器学习》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(5)

最新
精选

黑山老妖
1、线性回归模型可靠的首选基准算法，大、小数据集都适用，也可以处理高维特征数据。 2、SVM 特征数量有限、意义接近的中等大小的数据集来说比较强大。使用之前，需要进行特征缩放。PCA 和特征选择技术来降低特征的维度，选择重要特征进行学习。 3、决策树通常是作为集成学习方法的基模型而存在的，很少独立使用。 4、随机森林几乎总是比单棵决策树的表现要好，性能非常强大，也不需要数据缩放。但随机森林并不合适处理高维稀疏数据集。
作者回复: ✨
2021-10-15

4
Bing
先第一遍粗略看完了所有的课程，感觉数据特征的整理比算法更重要，算法更多是去使用它，然后使各种方式去尝试，找一个拟合程度最好的算法。我之前没有接触过机器学习，不知道我理解的对不对？
作者回复: 理解的是对的，对于机器学习的初学者（或者说算法的使用者）而言，如何整理数据、做特征工程更重要，另外一个就是了解各种算法的特点，把它们应用到各种各样的场景（数据集）之中去。而深入研究算法、并优化算法则是下一步的事情。当然如果目的是通过面试，算法的细节和推导可能成为非常重要的事情。这有点像我们学高等数学，为了考试不得不学，但是生活中的实用数学可能不需要那么深。——这个比喻有点不恰当。
2021-10-14

2
qinsi
scikit-learn algorithm cheat-sheet: https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html
作者回复: SKlearn全景图🤸
2021-10-12

2
在路上
佳哥好，学完这一讲我对数据集的大小，特征数量的多少，认识还不太清楚。多少算少，多少算中等，多少又算特别大，佳哥能举一些具体的例子吗？我在读GFS论文的时候，作者提到在2003年Google最大的集群有1000个节点，管理了300TB的数据，让我对“大”有了很直观的认识。
作者回复: 嗯。大小是相对的。具体问题具体分析。有些大数据可以很大比如互联网大厂的订单信息；有些领域的数据就难于收集，比如医学数据，可能得某类疾病的人数本身就是不多。文章中的一个观点是根据特征数量和样本数量的比例来判断数据集样本数是否够大。如果特征有上万个，而样本数只有几千个，那么可能样本数就显得太少了。
2021-10-11


黄佳
楼下有同学给出了Sklearn的算法快速导航表。对于除了深度学习算法之外的算法，这个表相当有用，值得得推荐。 https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html 我在博客中，还把这个表翻译成了中文版。 https://blog.csdn.net/JackyHuang79/article/details/111867086
2021-10-13

6

收起评论