10 | 特征预处理
该思维导图由 AI 生成,仅供参考
- 深入了解
- 翻译
- 解释
- 总结
数据预处理在特征工程中扮演着至关重要的角色。华盛顿大学教授佩德罗·多明戈斯指出,数据量比算法更为重要,而特征工程则是机器学习的关键。在进行特征工程之前,数据需要经过必要的预处理。特征缩放是其中一项重要的技巧,能够消除特征不同尺度带来的偏差,常用的方法包括标准化和归一化。此外,需要关注数据的偏度,因为偏度较大的数据可能存在异常点,需要进行处理。对于异常点敏感的算法,可以采用空间标识方法进行处理。另外,数据的缺失值也需要处理,可以选择删除不完整数据或者采用更主动的方式进行处理。总之,数据预处理是特征工程的重要一环,对于构建高效的预测模型至关重要。 在模型训练之前对数据特征进行预处理的一些指导性原则包括:特征缩放可以让不同特征的取值具有相同的尺度,方法包括标准化和归一化;异常点会导致数据的有偏分布,对数变换和空间标识都可以去除数据的偏度;$k$近邻方法和线性回归可以用来对特征的缺失值进行人为赋值;删除不具备区分度的特征能够降低计算开销,增强可解释性。这些特征预处理技巧对于构建高效的预测模型至关重要。文章中还介绍了人为赋值的方法,如K近邻算法和线性回归,以及删除不具备区分度的特征的原则。这些技巧在实际任务中具有重要意义,读者可以根据实际情况灵活运用。
《机器学习 40 讲》,新⼈⾸单¥59
全部留言(15)
- 最新
- 精选
- 曾珍空值我是用独热编码的方式,好想处理结果比线回归填充好一点
作者回复: onehot确实比较常用
2018-09-1624 - 五岳寻仙老师好!在删除不具备区分度的特征时,老师讲到: 什么样的特征不具备区分度呢?这里有两个经验性的标准:一是特征取值的总数与样本数目的比例在 10% 以下,这样的特征在 100 个样本里的取值数目不超过 10 个;二是出现频率最高的特征取值的出现频率应该在出现频率次高的特征取值频率的 20 倍以上,如果有 90 个样本的特征取值为 1,4 个样本的特征取值为 2,其余取值的样本数目都在 4 个以下,这样的特征就可以被删除了。 我不太理解,意思是如果一个特征(类别变量)的取值太少(小于样本数的10%)就该被删掉吗?可是我们平时遇到很多情况,类别变量取值都是有限的几个(比如性别:男,女)。
作者回复: 这个问题应该这么理解:性别这个特征本来就只有2个可能的取值,所以相当于每个值都取到了。如果说某个特征可能的取值范围是所有的正整数,但数据里只有1 2 3这三个,这才是文章里所说的情况。 另一个角度看,在性别这个特征上,如果100个数据里98个是男的,这样的特征也没什么意义。
2018-09-2323 - 我心飞扬请问空间标识和log的方法是要一起用吗?还是说。有负数就不能用log,这时候怎么办?如果统一把他加成正数,这样合理吗?会不会对分析产生一些误导呢。
作者回复: 空间标识是把异常点拉成正常的,log是处理单个特征取值范围过大的,两个解决的不是一个问题。所以结合起来用原则上可以,关键还是在于要达到什么目的。
2018-06-273 - 林彦特征尺度不一致还是挺常见的。用的是文中提到的标准化方法。缺失值的K近邻和插值方法以前实践中只知道信号处理里有插值的函数,其他领域还没用过。
作者回复: 各个学科的思想其实都是相通的。
2018-06-262 - rkq@geekbang关于特征缩放我有一个问题:如果我的模型是普通的线性回归,需要对特征做缩放处理吗?我的理解是不需要,因为最终学得的参数就会体现出特征的缩放。不知道对不对?
作者回复: 是的,线性回归并不直接基于距离,所以缩放与否计算出的参数和误差会有区别,但对整体趋势不会有太大的影响。
2018-06-261 - 暴走的carry对于处理缺失值,以前我只知道用平均值或众数来代替,现在学会了,还能内嵌一个机器学习算法来处理缺失值,突然高端了好多
作者回复: 最好还是没有缺失值
2019-01-13 - Daryl有个入门的问题,麻烦帮我解答下。 1:对训练集标准化/归一化/pca后,是否也要对测试集执行同样操作? 2:如果同样的操作,是直接对测试集transferm(),还是fit_transferm()? 3:标准化/归一化/pca 怎么针对数据集选择用哪种方式?
作者回复: 测试集也要做同样操作,但需要使用训练集的指标。在对测试集做标准化时,需要使用\mu_train和\sigma_train,而不是\mu_test和\sigma_test。至于选择哪种方式,就没有一定之规了,需要具体情况具体分析。
2019-01-10 - 黄海娜老师,空值怎么用独热编码的方式呀?
作者回复: 空值是指属性没有取值?这属于不完整数据了吧。那就丢弃或者人为估计一个值赋给它。
2018-11-25 - Y024https://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf 文中所提小文链接
作者回复: 感谢分享
2018-10-11 - Geek_405126在用随机森林模型的时候,我们能知道每棵树在不同layer的具体特征变量名字吗?
作者回复: 当然可以,每棵树每个节点用来分裂的特征都是随机选择的。
2018-06-27