24 | 特征工程(上):有哪些常用的特征处理函数?
- 深入了解
- 翻译
- 解释
- 总结
本文深入介绍了机器学习中特征工程的重要性以及在Spark MLlib开发框架下常用的特征处理函数。作者首先强调了特征工程对模型预测效果的直接影响,并将特征处理函数分为预处理、特征选择、归一化、离散化、Embedding和向量计算六大类,并介绍了每个类别的代表性函数。文章以“房价预测”项目为例,深入探讨了特征工程在实际项目中的应用,通过对原始数据的处理提取出可用于模型训练的训练样本,从而提升模型的预测能力。特别强调了机器学习的任务是找出“决定性”因素,并用模型参数来量化它们对房价的影响。整体而言,本文以清晰的结构和实际案例,系统地介绍了特征工程在机器学习中的重要性和应用方法,对于想要深入了解特征工程的读者具有很高的参考价值。文章内容详实,通过具体的代码示例和图示,读者可以快速了解特征选择的原理和在Spark MLlib框架中的实际操作方法。特别是介绍了ChiSqSelector的用法和注意事项,为读者提供了实际操作的指导。整体而言,本文对特征工程的重要性和在实际项目中的应用进行了全面而深入的介绍,对于从事机器学习和数据分析的专业人士具有很高的参考价值。
《零基础入门 Spark》,新⼈⾸单¥59
全部留言(6)
- 最新
- 精选
- Abigail仅从机器学习的角度来看:卡方检验主要是检验“类别型变量”对“类别型变量”的相关性,也就是说用于分类问题比较合适,当目标连续数值时,其实还是要考虑其他的特征选择方法。
作者回复: 同意~ 卡方检验,实际上仅仅是众多特征选择方法中的一种,篇幅所限,只好选一些代表性的方法。如老弟所说,卡方检验确实更适合计算“类别型变量”对“类别型变量”的 之间的相关性。 不过,其实这也不绝对,连续值其实很容易离散化,实际上Spark MLlib把卡方检验用在连续值,背后其实也是先做离散化,再算卡方值。 还是那句话,Spark MLlib这个模块,咱们更多地介绍它提供的能力,不管是特征处理能力,还是模型训练能力。而至于不同use case下具体应该选取的最佳方法,没有一定之规,都是在一定的理论指导之下,结合实践自然选择出来的。
2021-11-102 - pythonbug候选的特征字段中可能会有null存在,会报错,加个 new VectorAssembler() .setInputCols(numericFeatures) .setOutputCol("features") .setHandleInvalid("skip") 就好了,嘿嘿嘿,百度的
作者回复: 666,赞👍,自驱型(Self-driven)选手~
2021-11-211 - bian磊哥会讲graphx的案例么
作者回复: 正课暂时不会哈,后面如果需求比较大,可以考虑加餐的形式跟大家聊聊GraphX
2021-11-272 - qinsi不知道StringIndexer有什么实际的使用场景?因为像文中提到的车库类型等类别特征,通常是要做one-hot encoding的
作者回复: 你说的对,离散特征,需要做Embedding,当然,OHE是用的比较多的一种方法;不过呢,在Spark MLlib框架里,你是不能直接拿字符串做Embedding的,得先做Label Encoding,也就是先把字符串转换为索引,这个时候,StringIndexer就派上用场了~
2021-11-07 - 嬴梦川文中代码里面的"engineeringData"似乎应该为"engineeringDF"2023-10-10归属地:江苏1
- 吴横淼老师,想问下在spark下,模型的怎么训练的呢,这里的分布式是怎么体现呢,模型的参数进行广播,然后各个executor都进行更新么2022-06-271