作者回复: 如果把N个维度合并,变成一个维度-“城市”1-北京,2-上海,3-苏州,4...,5...,6.... 我想那样是不对的,为什么呢,因为回归模型会认为苏州比上海大,上海比北京大。影响权重的分配。需要全部转换为N个 0 、 1 虚拟变量编码才是正确的做法。
作者回复: 是这样的,调包容易,数据的收集和预处理难。需要领域知识和经验,也就是domain knowledge.
作者回复: OK
作者回复: 拟合效果好,但是预测不准,就是存在过拟合的问题了。模型太过于依赖训练集数据了。
作者回复: ✌️
作者回复: ✌️
作者回复: 通常不会改变数据的特征,因为不会改变数据分别。对数据进行线性变换,使其具有零均值和单位方差。这种变换的目的是消除数据之间的量纲差异,使得不同特征具有相似的尺度。
作者回复: 可以啊,可视化的目的就是为了下一步做特征工程。