• Paul Shan
    2019-09-13
    归一化是按比例变化到[0,1]的区间里。
    标准化是假设分布为正态分布,将数据变换为均值为0,方差为1的正态分布。
    将所有数据按照统一尺度处理,有利于比较模型中的权重大小。
    
     2
  • qinggeouye
    2019-03-10
    思考题:

    """
    测试数据集 test.csv
    测试数据的目标值 submission_example.csv
    """
    df_test = pd.read_csv("/Users/qinggeouye/Desktop/GeekTime/MathematicProgrammer/29_featureTrans/test.csv")
    expected_test = pd.read_csv("/Users/qinggeouye/Desktop/GeekTime/MathematicProgrammer/29_featureTrans"
                                "/submission_example.csv")['medv']

    # 归一化 预测结果
    minMaxScaler_test = MinMaxScaler()
    df_test_normalized = minMaxScaler_test.fit_transform(df_test.astype(dtype=float))
    df_test_features_normalized = df_test_normalized[:, :]
    predicted_normalized = regression_normalized.predict(df_test_features_normalized)
    print("归一化预测结果与实际值的均方根误差:%s" % np.sqrt(np.mean((predicted_normalized - expected_test) ** 2)))

    # 标准化 预测结果
    standardScaler_test = StandardScaler()
    standardScaler_test.fit(df_test.astype(dtype=float))
    df_test_standardized = standardScaler_test.transform(df_test.astype(dtype=float))
    df_test_features_standardized = df_test_standardized[:, :]
    predicted_standardized = regression_standardized.predict(df_test_features_standardized)
    print("标准化预测结果与实际值的均方根误差:%s" % np.sqrt(np.mean((predicted_standardized - expected_test) ** 2)))

    # 预测结果,两种特征转换预测结果相差无几,但与实际值相差较大
    归一化预测结果与实际值的均方根误差:22.40003520184502
    标准化预测结果与实际值的均方根误差:22.785218713879576
    展开

    作者回复: 确实,线性拟合程度不太好

    
     2
  • 追梦
    2020-01-12
    老师,这如果是部署到线上模型,这些预处理应该怎么变化呢

    作者回复: 好问题,我想你说的线上模型是指某些机器学习中的predict或者叫scoring,就是指针对新的数据,进行分类或者回归的预测。可以根据线下训练数据的平均值和标准差来,如果新的数据远远超出了训练数据的均值和标准,可以看做outlier,根据合理的数值限制其范围

    
     1
  • 拉欧
    2019-02-20
    标准化和归一化未必能提高模型的准确度,但是会提高可解释性,是不是这个意思?

    作者回复: 是的。因为有些机器学习算法内部会根据输入数据自动调整值,所以对于算法效果而言,标准化和归一化不一定是必须的。

    
     1
  • Geek_a50e46
    2020-02-07
    老师,那是不是标准化就没有缺点了?是不是可以完全用标准化替代归一化了呢?

    作者回复: 也不一定,如果样本量小的时候,可能归一化就够了。

    
    
  • teddytyy
    2019-12-19
    为啥age一直是正相关特征?

    作者回复: 这点确实有点反常识,可能有些潜在的因素并未被发掘。例如老房子都在好地段,而新房多数建在偏远的地方,所以有时数据本身并不能说明一切,还需要人的理解,进行合理的解释

    
    
  • 阿信
    2019-07-05
    特征值处理,能加快收敛速度、降噪、标准化输出,这种好理解。但为什么会影响分析结果

    作者回复: 这要看具体的处理方式和模型,从处理方式的角度来看,有的时候特征工程可能会去掉一些不重要的特征,就会提升或者降低准确度。从模型的角度而言,有些比如线性回归模型需要量化地解释每个特征的重要程度,那么需要把不同特征统一化

    
    
  • 大熊
    2019-05-23
    以前用归一的时候都没考虑噪音的影响,今天get到了,nice

    作者回复: 很高兴对你有帮助

    
    
  • Joe
    2019-02-27
    之前做机器学习算法的时候,采用特征缩放处理特征,能有效提高学习收敛效果。公式:x’=(x-x_mean)/(xmax-xmin)。不是单纯的归一,也保留了不同类别x之间的权重。

    作者回复: 也是一种可尝试的方法👍

    
    
我们在线,来聊聊吧