• 黑山老妖
    2021-10-15
    1、线性回归模型 可靠的首选基准算法,大、小数据集都适用,也可以处理高维特征数据。 2、SVM 特征数量有限、意义接近的中等大小的数据集来说比较强大。 使用之前,需要进行特征缩放。PCA 和特征选择技术来降低特征的维度,选择重要特征进行学习。 3、决策树 通常是作为集成学习方法的基模型而存在的,很少独立使用。 4、随机森林 几乎总是比单棵决策树的表现要好,性能非常强大,也不需要数据缩放。 但随机森林并不合适处理高维稀疏数据集。

    作者回复: ✨

    
    3
  • Bing
    2021-10-14
    先第一遍粗略看完了所有的课程,感觉数据特征的整理比算法更重要,算法更多是去使用它,然后使各种方式去尝试,找一个拟合程度最好的算法。我之前没有接触过机器学习,不知道我理解的对不对?

    作者回复: 理解的是对的,对于机器学习的初学者(或者说算法的使用者)而言,如何整理数据、做特征工程更重要,另外一个就是了解各种算法的特点,把它们应用到各种各样的场景(数据集)之中去。 而深入研究算法、并优化算法则是下一步的事情。 当然如果目的是通过面试,算法的细节和推导可能成为非常重要的事情。这有点像我们学高等数学,为了考试不得不学,但是生活中的实用数学可能不需要那么深。——这个比喻有点不恰当。

    
    2
  • qinsi
    2021-10-12
    scikit-learn algorithm cheat-sheet: https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html

    作者回复: SKlearn全景图🤸

    
    2
  • 在路上
    2021-10-11
    佳哥好,学完这一讲我对数据集的大小,特征数量的多少,认识还不太清楚。多少算少,多少算中等,多少又算特别大,佳哥能举一些具体的例子吗?我在读GFS论文的时候,作者提到在2003年Google最大的集群有1000个节点,管理了300TB的数据,让我对“大”有了很直观的认识。

    作者回复: 嗯。大小是相对的。具体问题具体分析。有些大数据可以很大比如互联网大厂的订单信息;有些领域的数据就难于收集,比如医学数据,可能得某类疾病的人数本身就是不多。 文章中的一个观点是根据特征数量和样本数量的比例来判断数据集样本数是否够大。如果特征有上万个,而样本数只有几千个,那么可能样本数就显得太少了。

    
    
  • 黄佳
    2021-10-13
    楼下有同学给出了Sklearn的算法快速导航表。对于除了深度学习算法之外的算法,这个表相当有用,值得得推荐。 https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html 我在博客中,还把这个表翻译成了中文版。 https://blog.csdn.net/JackyHuang79/article/details/111867086
    
    4