Recommendation as Generation (RaG)

将个性化视频生成与推荐统一到工业级规模的闭环框架

Yanhua Cheng, Bo Wang, Haotian Zhang, et al.  |  arXiv:2606.25496  |  2026

🎯 生成式推荐 🎬 个性化视频生成 🤖 多智能体协作 🏭 工业级部署

🎯 背景与动机

传统推荐系统的根本局限

过去十年,工业级视频推荐系统遵循「内容先行」范式:视频离线生产,推荐模型从固定内容池中检索和排序。即使是最先进的深度推荐模型(DLRM)和生成式推荐模型(GRM),也始终受限于预先生产好的视频池。当用户兴趣涉及新颖或长尾语义时,系统只能退而求其次,推荐「池子里最好的」,而非「用户真正想要的」。

💡 核心问题

推荐系统能否超越检索已有视频,直接从推断的用户兴趣中生成个性化视频?

两大核心挑战

  • 挑战一:推荐与生成的统一。推荐模型处理异构离散数据(用户画像、行为序列),而视频生成模型处理多模态连续信号(文本、图像、音频、运动)。两者数据表示和学习目标截然不同,难以将预测的用户兴趣转化为可控的视频生成。
  • 挑战二:工业级规模的高质量生成。现有视频生成模型依赖人工提示词、多阶段精修和专业后期工具,延迟高、计算成本大。为数亿用户的长尾兴趣做个性化生成,成本更是不可承受。

💡 核心思想:推荐即生成

范式转变:从「检索」到「生成」

RaG 提出了一种全新的推荐范式:不再从固定池中检索视频,而是直接从推断的用户兴趣中生成个性化视频。其关键思想是使用解耦语义 ID(Disentangled Semantic IDs, D-SIDs)作为推荐与生成之间的统一接口。

RaG 整体架构流程

📹 视频
编码为 D-SIDs
🧠 GRM
预测用户兴趣 D-SIDs
📋 指令模型
D-SIDs → 生成蓝图
🤖 VGA 智能体
层次化规划与精炼
🎬 个性化视频

整个流程在 SCRL 跨域协同奖励学习 下联合优化,形成闭环

四大核心创新

01

解耦语义 ID (D-SIDs)

利用多模态大语言模型(Qwen2.5-VL-7B)将每个视频编码为两组因子化的离散语义 ID:

  • 内容 SID:实体、主题等语义内容
  • 创意 SID:风格、节奏、氛围等创意属性

这种解耦设计使推荐端能精细建模用户兴趣,生成端能可控地生成兴趣对齐的视频。

02

视频生成智能体 (VGAs)

替代传统高成本的扩散模型管线,采用层次化规划与精炼框架

  • 指令模型 (IM):将 D-SIDs 翻译为结构化生成蓝图
  • 三角色智能体:视觉构图、音频对齐、艺术效果增强
  • 三智能体共享单一 LLM 骨干,仅通过 Prompt 和工具区分
  • KV-cache 复用大幅加速推理
  • 有界反思循环(最多 2 次迭代)平衡质量与效率
03

协同跨域奖励学习 (SCRL)

将多目标优化建模为约束策略学习问题

  • 用户反馈作为主优化目标
  • 兴趣对齐和视频质量作为约束条件
  • 分组解耦奖励归一化 (GDPO) 解决多通道奖励尺度不匹配
  • PID 控制的拉格朗日更新稳定训练

实现推荐与视频生成在统一闭环中协同进化。

04

工业级规模化部署

4 亿+ DAU 的生产平台上部署,服务于广告变现关键场景:

  • SID 索引缓存摊销生成成本
  • 共享 LLM 骨干 + KV-cache 复用降低推理延迟
  • 端到端联合训练,支持数亿用户的推荐请求

🔬 关键技术细节

解耦语义视频编码器

基于 Qwen2.5-VL-7B-Instruct,通过指令引导的解耦表示框架,将同一视频的语义内容和创意属性分离:

  • 使用内部密集描述模型 (CapModel) 生成因子化文本描述
  • 视觉编码器提取时空语义 token,与文本描述联合编码
  • 对比学习损失确保表示一致性
  • 通过 RQ-KMeans 将连续嵌入量化为离散 D-SIDs

生成式推荐模型 (GRM)

将推荐重新定义为自回归 token 预测:给定用户画像和交互历史,GRM 自回归地预测代表用户未来兴趣的 D-SIDs 序列。与传统 GRM 不同,RaG 将预测的 D-SIDs 作为生成式兴趣表示,直接解码为新内容,而非仅用作检索键。

指令模型 (IM) 与 VGA 协作

指令模型将 D-SIDs 翻译为自然语言指令,为下游智能体提供可解释的结构化指导。三个角色智能体(视觉、音频、艺术)基于共享 LLM 骨干协同工作,通过层次化规划、多模态对齐和迭代精炼,生成高质量个性化视频。

📊 实验结果与业务收益

实验设置

在拥有 4 亿+ 日活用户 的工业级短视频平台上进行在线 A/B 测试,场景为广告变现关键业务。基线为生产环境中表现强劲的生成式推荐模型 (GRM)。

在线 A/B 测试结果

指标 基线 (GRM) RaG (本文) 提升
广告收入 (Ad Revenue) ↑ 最高 1.87%
用户参与度 显著提升
视频质量评分 与人工制作相当

🏆 关键结论

  • 在已有强 GRM 基线基础上,RaG 仍实现 最高 1.87% 的广告收入提升
  • 证明了「生成驱动个性化」在推荐系统中的巨大潜力
  • 这是首个在工业级规模上将推荐与个性化视频生成有效统一的系统

🔮 总结与展望

RaG 的核心贡献

  1. 范式创新:首次提出「推荐即生成」范式,将推荐从固定池检索转变为从用户兴趣直接生成个性化视频。
  2. 统一接口:D-SIDs 作为推荐与生成的共享潜在接口,解耦内容语义与创意风格,实现精细兴趣建模与可控视频生成。
  3. 工业级生成框架:VGAs 通过层次化规划、多智能体协作和迭代精炼,实现可扩展的高质量个性化视频生产。
  4. 闭环优化:SCRL 将用户反馈、兴趣对齐和视频质量统一到约束策略学习中,实现推荐与生成的协同进化。
  5. 生产验证:在 4 亿+ DAU 平台上通过 A/B 测试验证,广告收入提升最高 1.87%。
RaG 标志着推荐系统从「被动匹配已有内容」到「主动创造个性化内容」的根本性转变。闭环生成系统为个性化视频生成融入推荐开辟了全新方向。