将个性化视频生成与推荐统一到工业级规模的闭环框架
过去十年,工业级视频推荐系统遵循「内容先行」范式:视频离线生产,推荐模型从固定内容池中检索和排序。即使是最先进的深度推荐模型(DLRM)和生成式推荐模型(GRM),也始终受限于预先生产好的视频池。当用户兴趣涉及新颖或长尾语义时,系统只能退而求其次,推荐「池子里最好的」,而非「用户真正想要的」。
推荐系统能否超越检索已有视频,直接从推断的用户兴趣中生成个性化视频?
RaG 提出了一种全新的推荐范式:不再从固定池中检索视频,而是直接从推断的用户兴趣中生成个性化视频。其关键思想是使用解耦语义 ID(Disentangled Semantic IDs, D-SIDs)作为推荐与生成之间的统一接口。
整个流程在 SCRL 跨域协同奖励学习 下联合优化,形成闭环
利用多模态大语言模型(Qwen2.5-VL-7B)将每个视频编码为两组因子化的离散语义 ID:
这种解耦设计使推荐端能精细建模用户兴趣,生成端能可控地生成兴趣对齐的视频。
替代传统高成本的扩散模型管线,采用层次化规划与精炼框架:
将多目标优化建模为约束策略学习问题:
实现推荐与视频生成在统一闭环中协同进化。
在4 亿+ DAU 的生产平台上部署,服务于广告变现关键场景:
基于 Qwen2.5-VL-7B-Instruct,通过指令引导的解耦表示框架,将同一视频的语义内容和创意属性分离:
将推荐重新定义为自回归 token 预测:给定用户画像和交互历史,GRM 自回归地预测代表用户未来兴趣的 D-SIDs 序列。与传统 GRM 不同,RaG 将预测的 D-SIDs 作为生成式兴趣表示,直接解码为新内容,而非仅用作检索键。
指令模型将 D-SIDs 翻译为自然语言指令,为下游智能体提供可解释的结构化指导。三个角色智能体(视觉、音频、艺术)基于共享 LLM 骨干协同工作,通过层次化规划、多模态对齐和迭代精炼,生成高质量个性化视频。
在拥有 4 亿+ 日活用户 的工业级短视频平台上进行在线 A/B 测试,场景为广告变现关键业务。基线为生产环境中表现强劲的生成式推荐模型 (GRM)。
| 指标 | 基线 (GRM) | RaG (本文) | 提升 |
|---|---|---|---|
| 广告收入 (Ad Revenue) | — | — | ↑ 最高 1.87% |
| 用户参与度 | — | — | 显著提升 |
| 视频质量评分 | — | — | 与人工制作相当 |
RaG 标志着推荐系统从「被动匹配已有内容」到「主动创造个性化内容」的根本性转变。闭环生成系统为个性化视频生成融入推荐开辟了全新方向。