作者回复: 我猜测是因为交叉层的数据太稀疏了,不能够让交叉层完全收敛。 另外交叉层大量使用id类特征,测试集的id特征和训练集的id特征重叠比较少的话,很可能无法作出合理的预测。这也是所谓模型泛化性和记忆性的矛盾。
作者回复: 代码肯定不是最完善的,我完全赞同使用validate dataset和early stop来终止训练。可以的话可以提交PR来增加这些相关方法。