19 | 胸有成竹:如何快速定位合适的机器学习算法?
- 深入了解
- 翻译
- 解释
- 总结
本文介绍了如何快速定位合适的机器学习算法。作者首先回顾了在实战中学习的各种算法,包括聚类算法、线性回归、决策树、随机森林、深度学习等。然后从问题类型、数据集大小、特征数量、计算时间要求和模型可解释性等方面介绍了选择算法的原则。对于回归问题,建议从线性回归、决策树、随机森林、XGBoost、朴素贝叶斯和神经网络等常见算法中进行选择,考虑数据集大小、特征维度和训练时间等因素。对于分类问题,也给出了相应的算法选择技巧。总的来说,建议在面对新数据集时,先从简单模型开始,然后根据数据进一步了解选择更复杂的模型算法。文章内容丰富,涵盖了多种机器学习算法及其适用场景,对读者快速了解如何选择合适的算法具有指导意义。文章还介绍了选择算法时的其他考量因素,包括训练数据的大小、特征的数量、性能和可解释性的权衡、速度或训练时间以及数据的线性程度。这些因素对于读者在实际应用中选择合适的机器学习算法具有重要的指导意义。文章强调了从简单模型开始构建基准模型,然后尝试更复杂的方法,并鼓励读者尽可能尝试多种算法和参数组合,以选择最适合特定任务的算法。
《零基础实战机器学习》,新⼈⾸单¥59
全部留言(5)
- 最新
- 精选
- 黑山老妖1、线性回归模型 可靠的首选基准算法,大、小数据集都适用,也可以处理高维特征数据。 2、SVM 特征数量有限、意义接近的中等大小的数据集来说比较强大。 使用之前,需要进行特征缩放。PCA 和特征选择技术来降低特征的维度,选择重要特征进行学习。 3、决策树 通常是作为集成学习方法的基模型而存在的,很少独立使用。 4、随机森林 几乎总是比单棵决策树的表现要好,性能非常强大,也不需要数据缩放。 但随机森林并不合适处理高维稀疏数据集。
作者回复: ✨
2021-10-154 - Bing先第一遍粗略看完了所有的课程,感觉数据特征的整理比算法更重要,算法更多是去使用它,然后使各种方式去尝试,找一个拟合程度最好的算法。我之前没有接触过机器学习,不知道我理解的对不对?
作者回复: 理解的是对的,对于机器学习的初学者(或者说算法的使用者)而言,如何整理数据、做特征工程更重要,另外一个就是了解各种算法的特点,把它们应用到各种各样的场景(数据集)之中去。 而深入研究算法、并优化算法则是下一步的事情。 当然如果目的是通过面试,算法的细节和推导可能成为非常重要的事情。这有点像我们学高等数学,为了考试不得不学,但是生活中的实用数学可能不需要那么深。——这个比喻有点不恰当。
2021-10-142 - qinsiscikit-learn algorithm cheat-sheet: https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html
作者回复: SKlearn全景图🤸
2021-10-122 - 在路上佳哥好,学完这一讲我对数据集的大小,特征数量的多少,认识还不太清楚。多少算少,多少算中等,多少又算特别大,佳哥能举一些具体的例子吗?我在读GFS论文的时候,作者提到在2003年Google最大的集群有1000个节点,管理了300TB的数据,让我对“大”有了很直观的认识。
作者回复: 嗯。大小是相对的。具体问题具体分析。有些大数据可以很大比如互联网大厂的订单信息;有些领域的数据就难于收集,比如医学数据,可能得某类疾病的人数本身就是不多。 文章中的一个观点是根据特征数量和样本数量的比例来判断数据集样本数是否够大。如果特征有上万个,而样本数只有几千个,那么可能样本数就显得太少了。
2021-10-11 - 黄佳楼下有同学给出了Sklearn的算法快速导航表。对于除了深度学习算法之外的算法,这个表相当有用,值得得推荐。 https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html 我在博客中,还把这个表翻译成了中文版。 https://blog.csdn.net/JackyHuang79/article/details/1118670862021-10-136