作者回复: 非常棒,推荐其他同学参考。
作者回复: 这是个好问题。但不应该这样理解,本质上是改变了特征的分布,特征的分布和训练数据的分布没有本质的联系。只要你不改变训练数据label的分布,最终预测出的结果都应该是符合数据本身分布的。因为你要预测的是label,并不是特征本身。
作者回复: 不错的文章,也推荐大家学习。
作者回复: 这是一个稀疏向量表示,1001维,第1维的值为1.0
作者回复: 你好,其实你提的不是问题,提的是自己的思考,我觉得都非常好,他们确实都是我们在实际工作中需要解决的问题。 这些问题没有什么所谓答案,自己去思考,自己去尝试就好了。 我自己的经验是存onehot和muilthot的index,存储结构用protobuf。
作者回复: 赞,使用spark3.0的同学可以参考
作者回复: 其实不建议这种离散数值,取值数量有比较少的特征进行分桶操作。把相同分值强制分到两个桶里,不仅没有意义,而且引入噪声。
作者回复: 赞
作者回复: 这个可否自己研究一下?
作者回复: 总结的好,赞