• 曾珍
    2018-09-16
    空值我是用独热编码的方式,好想处理结果比线回归填充好一点

    作者回复: onehot确实比较常用

    
     1
  • 林彦
    2018-06-26
    特征尺度不一致还是挺常见的。用的是文中提到的标准化方法。缺失值的K近邻和插值方法以前实践中只知道信号处理里有插值的函数,其他领域还没用过。

    作者回复: 各个学科的思想其实都是相通的。

    
     1
  • Geek_59
    2020-02-04
    极客时间
    21天打卡行动 48/21
    <<机器学习40讲/10>>实验设计
    今日所学:
    0,多明戈斯的观点是:数据量比算法更重要
    1,数据决定了机器学习的上限,而算法只是尽可能逼近这个上限
    2,特征工程(feature engineering)才是机器学习的关键;
    3,特征的本质是用于预测分类结果的信息,特征工程实际上就是对这些信息的编码;
    4,特征缩放的作用就是消除特征的不同尺度所造成的偏差;
    5,标准化的方法用原始数据减去均值再除以标准差,不管原始特征的取值范围有多大,得到的每组新数据都是均值为 0,方差为 1;
    6,面对偏度较大的数据,第一反应就应该是检查是否有异常点存在;
    7,空间标识算法将所有的数据点都映射到高维空间的球面上,这个映射和标准化或者归一化的不同之处在于它处理的对象并不是所有样本的同一个特征,而是同一个样本的所有特征,让所有样本呈现一致的尺度。
    8,对数据进行去偏度处理的常用方法就是取对数变换(log transformation);
    9,在模型训练之前移除一些特征有助于增强模型的可解释性,也可以降低计算中的开销。
    重点:
    特征缩放可以让不同特征的取值具有相同的尺度,方法包括标准化和归一化;
    异常点会导致数据的有偏分布,对数变换和空间标识都可以去除数据的偏度;
     k 近邻方法和线性回归可以用来对特征的缺失值进行人为赋值;
    删除不具备区分度的特征能够降低计算开销,增强可解释性。
    展开
    
    
  • Right as rain
    2019-12-21
    老师,如何判断数据正负样本不平衡,1000正100负就算,还是1000正10负,有没有一些数据样本不平衡的评价标准呢?
    
    
  • 暴走的carry
    2019-01-13
    对于处理缺失值,以前我只知道用平均值或众数来代替,现在学会了,还能内嵌一个机器学习算法来处理缺失值,突然高端了好多

    作者回复: 最好还是没有缺失值

    
    
  • Daryl
    2019-01-10
    有个入门的问题,麻烦帮我解答下。
    1:对训练集标准化/归一化/pca后,是否也要对测试集执行同样操作?
    2:如果同样的操作,是直接对测试集transferm(),还是fit_transferm()?
    3:标准化/归一化/pca 怎么针对数据集选择用哪种方式?

    作者回复: 测试集也要做同样操作,但需要使用训练集的指标。在对测试集做标准化时,需要使用\mu_train和\sigma_train,而不是\mu_test和\sigma_test。至于选择哪种方式,就没有一定之规了,需要具体情况具体分析。

    
    
  • Kevin.zhang🌏
    2018-12-26
    作业:
           前段时间在通过爬虫程序获取了原始数据,在数据清洗的阶段,发现有很多的缺失数据,还有重复数据,重复数据之前没有使用pandas,就直接用的SQL筛选,对于缺失数据,我采用的笨办法,就是直接观察是哪个特征缺失,然后进行最原始的人工赋值替换操作,说实话,工作量大还不靠谱!边做心里还边打鼓!我不知道如何采用线性回归和K近邻算法操作!
    
    
  • 黄海娜
    2018-11-25
    老师,空值怎么用独热编码的方式呀?

    作者回复: 空值是指属性没有取值?这属于不完整数据了吧。那就丢弃或者人为估计一个值赋给它。

    
    
  • 极客不落🐒
    2018-10-11
    https://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf
    文中所提小文链接

    作者回复: 感谢分享

    
    
  • 五岳寻仙
    2018-09-23
    老师好!在删除不具备区分度的特征时,老师讲到:

    什么样的特征不具备区分度呢?这里有两个经验性的标准:一是特征取值的总数与样本数目的比例在 10% 以下,这样的特征在 100 个样本里的取值数目不超过 10 个;二是出现频率最高的特征取值的出现频率应该在出现频率次高的特征取值频率的 20 倍以上,如果有 90 个样本的特征取值为 1,4 个样本的特征取值为 2,其余取值的样本数目都在 4 个以下,这样的特征就可以被删除了。

    我不太理解,意思是如果一个特征(类别变量)的取值太少(小于样本数的10%)就该被删掉吗?可是我们平时遇到很多情况,类别变量取值都是有限的几个(比如性别:男,女)。
    展开

    作者回复: 这个问题应该这么理解:性别这个特征本来就只有2个可能的取值,所以相当于每个值都取到了。如果说某个特征可能的取值范围是所有的正整数,但数据里只有1 2 3这三个,这才是文章里所说的情况。
    另一个角度看,在性别这个特征上,如果100个数据里98个是男的,这样的特征也没什么意义。

    
    
  • Geek_405126
    2018-06-27
    在用随机森林模型的时候,我们能知道每棵树在不同layer的具体特征变量名字吗?

    作者回复: 当然可以,每棵树每个节点用来分裂的特征都是随机选择的。

    
    
  • 我心飞扬
    2018-06-27
    做标准化之后有负数不能log了 是不是先log

    作者回复: 有负数时可以通过减最小值再加1把所有数据变成正数;也可以取绝对值做对数,再对负数得到的结果乘以-1。但这些都是纯数学的处理,线性操作可能会破坏数据的统计特性,所以还是选择其他的方法吧。
    既然已经做了标准化,数据的尺度就应该基本一致了,为什么还要做对数呢?

    
    
  • 我心飞扬
    2018-06-27
    请问空间标识和log的方法是要一起用吗?还是说。有负数就不能用log,这时候怎么办?如果统一把他加成正数,这样合理吗?会不会对分析产生一些误导呢。

    作者回复: 空间标识是把异常点拉成正常的,log是处理单个特征取值范围过大的,两个解决的不是一个问题。所以结合起来用原则上可以,关键还是在于要达到什么目的。

    
    
  • rkq@geekbang
    2018-06-26
    关于特征缩放我有一个问题:如果我的模型是普通的线性回归,需要对特征做缩放处理吗?我的理解是不需要,因为最终学得的参数就会体现出特征的缩放。不知道对不对?

    作者回复: 是的,线性回归并不直接基于距离,所以缩放与否计算出的参数和误差会有区别,但对整体趋势不会有太大的影响。

    
    
我们在线,来聊聊吧