作者回复: 本质上都是做特征交叉,计算相似性的方式,一般来说,外积因为输出是一个向量,所以表达能力更强一些。
作者回复: 已经不少了,最近提的比较多的是bert for rec
作者回复: DIN比DIEN的使用场景要求低很多,我知道很多团队在用,或者说很多团队在用DIN的思路来构建自己的模型。 就我自己的实践经验,attention机制是非常有价值的,推荐在自己的场景下尝试。
作者回复: 非常好
作者回复: 这是一个很好的idea。但说实话我还没有见到非常成功的案例说能够很好的利用event interval然后取得很大的收益。也许是这个信号本身不够强,带来的收益有限。 如果今后发现相关paper,可以分享到这里。
作者回复: 这个问题其实挺好的。相比CV动辄上百的隐层数量,推荐模型真的是比较“浅”的了。 隐层数量大致在1到5之间吧,确实在推荐问题上再提高隐层数量效果上意义不大,inference延迟还大,得不偿失。 至于为什么相比cv,推荐模型不需要那么多隐层,你能分享下你的思考吗?
作者回复: 这是个非常好的问题,一般上线前要做模型的割裂,把复杂部分生成的Embedding做预生成,线上直接使用。
作者回复: 我在知乎有一篇专栏文章专门讲面试,可以参考 https://zhuanlan.zhihu.com/p/76827460 我在课程最后也会有一些总结。
作者回复: 这是个好问题,我觉得是可以的,因为广告内容和商城内容从经验上来说也会有一定的相关性。 就拿deepfm的思路来说,其实可以做任意两个特征之间的交叉。对于注意力机制,当然也可以学任意两个特征间的注意力。但到底作用有多大,能不能提高效果,就看自己的实践了。
作者回复: 1. 确实没有使用外积。我的实践经验来看外积的作用不是很大,而且大幅增加参数量,所以我个人不是很喜欢外积操作。 2. PRelu几乎是深度学习默认的激活函数,速度比较快,梯度消散问题比较小。如果有特殊需要可以测试其他激活函数,看实践。