作者回复: 同意~ 卡方检验,实际上仅仅是众多特征选择方法中的一种,篇幅所限,只好选一些代表性的方法。如老弟所说,卡方检验确实更适合计算“类别型变量”对“类别型变量”的 之间的相关性。 不过,其实这也不绝对,连续值其实很容易离散化,实际上Spark MLlib把卡方检验用在连续值,背后其实也是先做离散化,再算卡方值。 还是那句话,Spark MLlib这个模块,咱们更多地介绍它提供的能力,不管是特征处理能力,还是模型训练能力。而至于不同use case下具体应该选取的最佳方法,没有一定之规,都是在一定的理论指导之下,结合实践自然选择出来的。
作者回复: 666,赞👍,自驱型(Self-driven)选手~
作者回复: 正课暂时不会哈,后面如果需求比较大,可以考虑加餐的形式跟大家聊聊GraphX
作者回复: 你说的对,离散特征,需要做Embedding,当然,OHE是用的比较多的一种方法;不过呢,在Spark MLlib框架里,你是不能直接拿字符串做Embedding的,得先做Label Encoding,也就是先把字符串转换为索引,这个时候,StringIndexer就派上用场了~