作者回复: onehot确实比较常用
作者回复: 各个学科的思想其实都是相通的。
作者回复: 最好还是没有缺失值
作者回复: 测试集也要做同样操作,但需要使用训练集的指标。在对测试集做标准化时,需要使用\mu_train和\sigma_train,而不是\mu_test和\sigma_test。至于选择哪种方式,就没有一定之规了,需要具体情况具体分析。
作者回复: 空值是指属性没有取值?这属于不完整数据了吧。那就丢弃或者人为估计一个值赋给它。
作者回复: 感谢分享
作者回复: 这个问题应该这么理解:性别这个特征本来就只有2个可能的取值,所以相当于每个值都取到了。如果说某个特征可能的取值范围是所有的正整数,但数据里只有1 2 3这三个,这才是文章里所说的情况。
另一个角度看,在性别这个特征上,如果100个数据里98个是男的,这样的特征也没什么意义。
作者回复: 当然可以,每棵树每个节点用来分裂的特征都是随机选择的。
作者回复: 有负数时可以通过减最小值再加1把所有数据变成正数;也可以取绝对值做对数,再对负数得到的结果乘以-1。但这些都是纯数学的处理,线性操作可能会破坏数据的统计特性,所以还是选择其他的方法吧。
既然已经做了标准化,数据的尺度就应该基本一致了,为什么还要做对数呢?
作者回复: 空间标识是把异常点拉成正常的,log是处理单个特征取值范围过大的,两个解决的不是一个问题。所以结合起来用原则上可以,关键还是在于要达到什么目的。
作者回复: 是的,线性回归并不直接基于距离,所以缩放与否计算出的参数和误差会有区别,但对整体趋势不会有太大的影响。