30｜Transformer做特征交叉（上）：RankMixer-生成式推荐系统算法与实践-极客时间

生成式推荐系统算法与实践

傅聪

搜推广资深算法专家

894 人已学习

新⼈⾸单¥59

课程目录

已更新 32 讲/共 36 讲

课程介绍 (1讲)



课程介绍｜推荐系统已死？生成式推荐技术革命已来临！

时长 10:45

系统性对比：生成式推荐好在哪？ (3讲)



01｜“传统”推荐系统的局限：我的模型为什么优化不动了？

时长 19:06

02｜前车可鉴：对比大语言模型和生成式推荐

时长 28:54

03｜变革前夜：为什么生成式推荐是未来？

时长 22:45

算法原理：生成式算法基础 (8讲)



04｜越大越牛？Transformer和它的scaling law

时长 49:59

05｜推荐系统的GPT3时刻（上）：SasRec

时长 37:10

06｜推荐系统的GPT3时刻（下）：Bert4Rec

时长 20:39

07｜语言体系之争（上）：LLM as Recommender

时长 38:42

08｜语言体系之争（中）：Recforest算法

时长 38:50

09｜语言体系之争（下）：Tiger算法

时长 50:18

10｜另辟蹊径：Diffusion For Rec

时长 31:53

11｜总结：论文里的生成式算法为何难落地？

时长 48:40

工业技术路线（一）：Meta HSTU系列 (4讲)



12｜替换Transformer？HSTU召回算法原理

时长 55:47

13｜替换Transformer？HSTU 排序算法原理

时长 41:40

14｜美团MTGR：HSTU算法落地经验

时长 17:37

15｜小红书RankGPT：HSTU落地实践

时长 37:55

工业技术路线（二）：OneRec (6讲)



16｜OneRec：语义ID与特征工程

时长 43:20

17｜OneRec：强化学习偏好对齐

时长 01:16:34

18｜OneSearch：端到端生成式检索

时长 01:24:25

19｜UniSearch：一体化的SID模型

时长 48:55

20｜OneRecV2：模型压缩和推理优化

时长 44:44

21｜OneRec-think：多模态推理模型

时长 51:55

工业技术路线（三）：OnePiece (4讲)



22｜通用超级基座的起点：LLM推理技术演进

时长 43:59

23｜Latent Reasoning：从LLM到推荐系统

时长 37:10

24｜OnePiece：混合推理在生成式检索的应用（上）

时长 36:09

25｜OnePiece：混合推理在生成式检索的应用（下）

时长 34:14

系统重构：重新理解数据、样本、特征、训练和服务 (3讲)



26｜OneRec模式工业系统架构与评估体系解析

时长 35:43

27｜OnePiece模式工业系统架构与评估体系解析

时长 18:15

28｜技术选型：如何设计自己的生成式技术发展路线？

时长 32:16

更多工业落地案例 (2讲)



29｜超长用户行为序列建模：字节 Longer

时长 26:24

30｜Transformer做特征交叉（上）：RankMixer

时长 18:44

直播回放 (1讲)



直播加餐｜生成式AI重塑推荐系统：是终极进化，还是美丽泡沫？

时长 01:46:51



生成式推荐系统算法与实践



留言





沉浸
阅读





手机端



回顶部

当前播放: 30｜Transformer做特征交叉（上）：RankMixer

00:00 / 00:00

字幕已开启

高清

高清

1.0x

3.0x
2.5x
2.0x
1.5x
1.25x
1.0x
0.75x
0.5x

网页全屏

全屏

00:00

付费课程，可试看



课程介绍｜推荐系统已死？生成式推荐技术革命已来临！

01｜“传统”推荐系统的局限：我的模型为什么优化不动了？

02｜前车可鉴：对比大语言模型和生成式推荐

03｜变革前夜：为什么生成式推荐是未来？

04｜越大越牛？Transformer和它的scaling law

05｜推荐系统的GPT3时刻（上）：SasRec

06｜推荐系统的GPT3时刻（下）：Bert4Rec

07｜语言体系之争（上）：LLM as Recommender

08｜语言体系之争（中）：Recforest算法

09｜语言体系之争（下）：Tiger算法

10｜另辟蹊径：Diffusion For Rec

11｜总结：论文里的生成式算法为何难落地？

12｜替换Transformer？HSTU召回算法原理

13｜替换Transformer？HSTU 排序算法原理

14｜美团MTGR：HSTU算法落地经验

15｜小红书RankGPT：HSTU落地实践

16｜OneRec：语义ID与特征工程

17｜OneRec：强化学习偏好对齐

18｜OneSearch：端到端生成式检索

19｜UniSearch：一体化的SID模型

20｜OneRecV2：模型压缩和推理优化

21｜OneRec-think：多模态推理模型

22｜通用超级基座的起点：LLM推理技术演进

23｜Latent Reasoning：从LLM到推荐系统

24｜OnePiece：混合推理在生成式检索的应用（上）

25｜OnePiece：混合推理在生成式检索的应用（下）

26｜OneRec模式工业系统架构与评估体系解析

27｜OnePiece模式工业系统架构与评估体系解析

28｜技术选型：如何设计自己的生成式技术发展路线？

29｜超长用户行为序列建模：字节 Longer

30｜Transformer做特征交叉（上）：RankMixer

直播加餐｜生成式AI重塑推荐系统：是终极进化，还是美丽泡沫？

本节摘要

生成式推荐系统中，特征交叉是提升模型性能的关键。传统方法如 Factorization Machine、DeepFM 等侧重于高维特征的直接交叉或通过深度学习进行特征融合。然而，在 Transformer 架构下实现高效特征交叉面临挑战。字节跳动提出的 RankMixer 为此提供了一种新思路。该模型通过 Token Mixer 模块实现特征拆分与混合，具体包括：依据人工经验对特征进行分组，每组使用独立 MLP 进行初步映射；随后将各组特征拼接并重新分配至不同 head，模仿 Multi-head Attention 机制以促进跨组信息交流。为确保残差连接的有效性，RankMixer 设计了特定的维度转换策略，使得输入输出维度一致。此外，引入 Per-Token FFN 及 Sparse MoE 技术进一步增强了模型表达能力与扩展性。实验结果显示，RankMixer 在 AUC 和 UAUC 指标上显著优于其他特征交叉方案，并且能够支持高达 10 亿参数规模的训练，展现出强大的工程实践能力。消融研究表明，Multi-Headed Token Mixing 与 Per-token FFN 是影响性能的主要因素，而 Self-Attention 作为路由策略时效果最佳但会大幅增加计算成本。总体而言，RankMixer 不仅提升了推荐系统的整体表现，尤其对于低活跃度用户的效果提升尤为明显。

展开 

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论

AI总结

文稿

全文摘要

生成式推荐系统中，特征交叉是提升模型性能的关键。传统方法如Factorization Machine、DeepFM等侧重于高维特征的直接交叉或通过深度学习进行特征融合。然而，在Transformer架...展开

分段总结

购买后使用