作者回复: ✨
作者回复: 理解的是对的,对于机器学习的初学者(或者说算法的使用者)而言,如何整理数据、做特征工程更重要,另外一个就是了解各种算法的特点,把它们应用到各种各样的场景(数据集)之中去。 而深入研究算法、并优化算法则是下一步的事情。 当然如果目的是通过面试,算法的细节和推导可能成为非常重要的事情。这有点像我们学高等数学,为了考试不得不学,但是生活中的实用数学可能不需要那么深。——这个比喻有点不恰当。
作者回复: SKlearn全景图🤸
作者回复: 嗯。大小是相对的。具体问题具体分析。有些大数据可以很大比如互联网大厂的订单信息;有些领域的数据就难于收集,比如医学数据,可能得某类疾病的人数本身就是不多。 文章中的一个观点是根据特征数量和样本数量的比例来判断数据集样本数是否够大。如果特征有上万个,而样本数只有几千个,那么可能样本数就显得太少了。