当前播放: 29|超长用户行为序列建模:字节 Longer
1.0x
- 3.0x
- 2.5x
- 2.0x
- 1.5x
- 1.25x
- 1.0x
- 0.75x
- 0.5x
付费课程,可试看

课程介绍|推荐系统已死?生成式推荐技术革命已来临!
01|“传统”推荐系统的局限:我的模型为什么优化不动了?
04|越大越牛?Transformer和它的scaling law
06|推荐系统的GPT3时刻(下):Bert4Rec
07|语言体系之争(上):LLM as Recommender
10|另辟蹊径:Diffusion For Rec
12|替换Transformer?HSTU召回算法原理
13|替换Transformer?HSTU 排序算法原理
23|Latent Reasoning:从LLM到推荐系统
24|OnePiece:混合推理在生成式检索的应用(上)
25|OnePiece:混合推理在生成式检索的应用(下)
27|OnePiece模式工业系统架构与评估体系解析
28|技术选型:如何设计自己的生成式技术发展路线?
直播加餐|生成式AI重塑推荐系统:是终极进化,还是美丽泡沫?
本节摘要
超长用户行为序列建模面临信息损失、性能开销大等问题。传统方法如人工构建用户画像和预训练用户表征模型存在信息抽取偏差。Longer 通过混合多尺度 Attention 设计解决这些问题,包括 Global Token 模块定义全局信息与上下文特征,以及 Inner Transformer 实现序列压缩。具体而言,Longer 将长序列拆分成多个块,使用 Q-Former 结构进行逐级压缩,结合 Causal Attention 进一步提升推理能力。此外,Longer 采用 Torch All-Reduce 和 KV-Cache 等技术优化算力,减少冗余计算。实验结果显示,Longer 在 AUC 上比 Transformer 有轻微提升,并且随着序列长度和参数量增加,效果持续改善。在线实验表明,Longer 在抖音广告中表现良好。
展开