极客时间-轻松学习，高效学习-极客邦

Paul Shan

2019-09-13

归一化是按比例变化到［0,1］的区间里。
标准化是假设分布为正态分布，将数据变换为均值为0,方差为1的正态分布。
将所有数据按照统一尺度处理，有利于比较模型中的权重大小。



 2
qinggeouye

2019-03-10

思考题：

"""
测试数据集 test.csv
测试数据的目标值 submission_example.csv
"""
df_test = pd.read_csv("/Users/qinggeouye/Desktop/GeekTime/MathematicProgrammer/29_featureTrans/test.csv")
expected_test = pd.read_csv("/Users/qinggeouye/Desktop/GeekTime/MathematicProgrammer/29_featureTrans"
"/submission_example.csv")['medv']

# 归一化预测结果
minMaxScaler_test = MinMaxScaler()
df_test_normalized = minMaxScaler_test.fit_transform(df_test.astype(dtype=float))
df_test_features_normalized = df_test_normalized[:, :]
predicted_normalized = regression_normalized.predict(df_test_features_normalized)
print("归一化预测结果与实际值的均方根误差：%s" % np.sqrt(np.mean((predicted_normalized - expected_test) ** 2)))

# 标准化预测结果
standardScaler_test = StandardScaler()
standardScaler_test.fit(df_test.astype(dtype=float))
df_test_standardized = standardScaler_test.transform(df_test.astype(dtype=float))
df_test_features_standardized = df_test_standardized[:, :]
predicted_standardized = regression_standardized.predict(df_test_features_standardized)
print("标准化预测结果与实际值的均方根误差：%s" % np.sqrt(np.mean((predicted_standardized - expected_test) ** 2)))

# 预测结果，两种特征转换预测结果相差无几，但与实际值相差较大
归一化预测结果与实际值的均方根误差：22.40003520184502
标准化预测结果与实际值的均方根误差：22.785218713879576

展开

作者回复: 确实，线性拟合程度不太好



 2
追梦

2020-01-12

老师，这如果是部署到线上模型，这些预处理应该怎么变化呢

作者回复: 好问题，我想你说的线上模型是指某些机器学习中的predict或者叫scoring，就是指针对新的数据，进行分类或者回归的预测。可以根据线下训练数据的平均值和标准差来，如果新的数据远远超出了训练数据的均值和标准，可以看做outlier，根据合理的数值限制其范围



 1
拉欧

2019-02-20

标准化和归一化未必能提高模型的准确度，但是会提高可解释性，是不是这个意思？

作者回复: 是的。因为有些机器学习算法内部会根据输入数据自动调整值，所以对于算法效果而言，标准化和归一化不一定是必须的。



 1
Geek_a50e46

2020-02-07

老师，那是不是标准化就没有缺点了？是不是可以完全用标准化替代归一化了呢？

作者回复: 也不一定，如果样本量小的时候，可能归一化就够了。




teddytyy

2019-12-19

为啥age一直是正相关特征？

作者回复: 这点确实有点反常识，可能有些潜在的因素并未被发掘。例如老房子都在好地段，而新房多数建在偏远的地方，所以有时数据本身并不能说明一切，还需要人的理解，进行合理的解释




阿信

2019-07-05

特征值处理，能加快收敛速度、降噪、标准化输出，这种好理解。但为什么会影响分析结果

作者回复: 这要看具体的处理方式和模型，从处理方式的角度来看，有的时候特征工程可能会去掉一些不重要的特征，就会提升或者降低准确度。从模型的角度而言，有些比如线性回归模型需要量化地解释每个特征的重要程度，那么需要把不同特征统一化




大熊

2019-05-23

以前用归一的时候都没考虑噪音的影响，今天get到了，nice

作者回复: 很高兴对你有帮助




Joe

2019-02-27

之前做机器学习算法的时候，采用特征缩放处理特征，能有效提高学习收敛效果。公式：x’=(x-x_mean)/(xmax-xmin)。不是单纯的归一，也保留了不同类别x之间的权重。

作者回复: 也是一种可尝试的方法👍



