作者回复: 总结得非常细致,为你点赞👍非参模型是趋势,在改进参数模型时,局部化的处理也是主流思维
作者回复: 是的,都是非参模型。决策树是典型的非参,万能的随机森林更是非参中的非参,八九十年代开始就是有好的效果,说不清是为什么。
作者回复: 核svm是典型的局部非参数模型,说线性svm是非参的原因是它的边界本质上取决于数据集的支持向量,计算出的线性系数只是支持向量的外化。从这个角度说,线性svm是非参的。
作者回复: 特征缩放做不做都可以;缺失值必须要处理,要么补上要么删除数据;异常点最好去掉,因为决策树对异常点比较敏感;有序的分类变量可以按顺序编码,无序的分类变量可以转成哑变量。
作者回复: 线性回归是典型的参数模型,所有数据都用一组线性系数去拟合。由线性回归衍生出来的逻辑回归也是参数模型。
决策树是典型的非参模型,整个特征空间被分成若干块,相似的输入才会有相似的输出。
神经网络算是半参数模型,如果层数和神经元数都固定了就是参数模型,但在深度学习里做了dropout,就不知道哪些层的哪些神经元被激活,这时就是非参数了。
生成模型是对数据的生成机制进行建模,也就是求解x,y共同满足的分布。朴素贝叶斯是生成模型,它可以计算出p(y)和p(x|y),进而计算p(x, y)。这个过程就是先抽出类y,再在类中抽出数据x,但在计算p(x|y)时引入了属性独立的假设。
判别模型是对不同类数据之间的差别进行建模,只要找到两者的区别就可以了,所以求解的是条件分布。逻辑回归就是判别模型,它计算的实际就是p(y|x),根据训练数据得出y取不同值时条件概率的差异。
作者回复: 因为非参数模型没有对数据的结构做出假设,而是将每个数据体现出的特性捏合成一个整体,这样的整体实质上就是局部的组合。
作者回复: 假设空间是个松散的概念,通常和算法挂钩,指的是算法能生成的所有假设,更接近于所有参数的组合。以线性模型为例,所有可能参数a b的组合共同组成y=ax+b的假设空间。
作者回复: 神经网络算是半参数模型。如果层数和神经元数都固定不变就是参数模型。但在深度学习里会做dropout,就不知道到底哪些层的哪些神经元被激活,这时就是高度自由的非参数了。
作者回复: 这两组是不同的分类方式,相当于看问题的不同角度,直接拿他俩做对比是没有意义的。