当前播放: 30|Transformer做特征交叉(上):RankMixer
1.0x
- 3.0x
- 2.5x
- 2.0x
- 1.5x
- 1.25x
- 1.0x
- 0.75x
- 0.5x
付费课程,可试看

课程介绍|推荐系统已死?生成式推荐技术革命已来临!
01|“传统”推荐系统的局限:我的模型为什么优化不动了?
04|越大越牛?Transformer和它的scaling law
06|推荐系统的GPT3时刻(下):Bert4Rec
07|语言体系之争(上):LLM as Recommender
10|另辟蹊径:Diffusion For Rec
12|替换Transformer?HSTU召回算法原理
13|替换Transformer?HSTU 排序算法原理
23|Latent Reasoning:从LLM到推荐系统
24|OnePiece:混合推理在生成式检索的应用(上)
25|OnePiece:混合推理在生成式检索的应用(下)
27|OnePiece模式工业系统架构与评估体系解析
28|技术选型:如何设计自己的生成式技术发展路线?
30|Transformer做特征交叉(上):RankMixer
直播加餐|生成式AI重塑推荐系统:是终极进化,还是美丽泡沫?
本节摘要
生成式推荐系统中,特征交叉是提升模型性能的关键。传统方法如 Factorization Machine、DeepFM 等侧重于高维特征的直接交叉或通过深度学习进行特征融合。然而,在 Transformer 架构下实现高效特征交叉面临挑战。字节跳动提出的 RankMixer 为此提供了一种新思路。该模型通过 Token Mixer 模块实现特征拆分与混合,具体包括:依据人工经验对特征进行分组,每组使用独立 MLP 进行初步映射;随后将各组特征拼接并重新分配至不同 head,模仿 Multi-head Attention 机制以促进跨组信息交流。为确保残差连接的有效性,RankMixer 设计了特定的维度转换策略,使得输入输出维度一致。此外,引入 Per-Token FFN 及 Sparse MoE 技术进一步增强了模型表达能力与扩展性。实验结果显示,RankMixer 在 AUC 和 UAUC 指标上显著优于其他特征交叉方案,并且能够支持高达 10 亿参数规模的训练,展现出强大的工程实践能力。消融研究表明,Multi-Headed Token Mixing 与 Per-token FFN 是影响性能的主要因素,而 Self-Attention 作为路由策略时效果最佳但会大幅增加计算成本。总体而言,RankMixer 不仅提升了推荐系统的整体表现,尤其对于低活跃度用户的效果提升尤为明显。
展开