Recommendation as Generation (RaG)

🎯 背景与动机

传统推荐系统的根本局限

过去十年，工业级视频推荐系统遵循「内容先行」范式：视频离线生产，推荐模型从固定内容池中检索和排序。即使是最先进的深度推荐模型（DLRM）和生成式推荐模型（GRM），也始终受限于预先生产好的视频池。当用户兴趣涉及新颖或长尾语义时，系统只能退而求其次，推荐「池子里最好的」，而非「用户真正想要的」。

💡 核心问题

推荐系统能否超越检索已有视频，直接从推断的用户兴趣中生成个性化视频？

两大核心挑战

挑战一：推荐与生成的统一。推荐模型处理异构离散数据（用户画像、行为序列），而视频生成模型处理多模态连续信号（文本、图像、音频、运动）。两者数据表示和学习目标截然不同，难以将预测的用户兴趣转化为可控的视频生成。
挑战二：工业级规模的高质量生成。现有视频生成模型依赖人工提示词、多阶段精修和专业后期工具，延迟高、计算成本大。为数亿用户的长尾兴趣做个性化生成，成本更是不可承受。

💡 核心思想：推荐即生成

范式转变：从「检索」到「生成」

RaG 提出了一种全新的推荐范式：不再从固定池中检索视频，而是直接从推断的用户兴趣中生成个性化视频。其关键思想是使用解耦语义 ID（Disentangled Semantic IDs, D-SIDs）作为推荐与生成之间的统一接口。

RaG 整体架构流程

📹 视频
编码为 D-SIDs

→

🧠 GRM
预测用户兴趣 D-SIDs

→

📋 指令模型
D-SIDs → 生成蓝图

→

🤖 VGA 智能体
层次化规划与精炼

→

🎬 个性化视频

整个流程在 SCRL 跨域协同奖励学习 下联合优化，形成闭环

✨ 四大核心创新

01

解耦语义 ID (D-SIDs)

利用多模态大语言模型（Qwen2.5-VL-7B）将每个视频编码为两组因子化的离散语义 ID：

内容 SID：实体、主题等语义内容
创意 SID：风格、节奏、氛围等创意属性

这种解耦设计使推荐端能精细建模用户兴趣，生成端能可控地生成兴趣对齐的视频。

02

视频生成智能体 (VGAs)

替代传统高成本的扩散模型管线，采用层次化规划与精炼框架：

指令模型 (IM)：将 D-SIDs 翻译为结构化生成蓝图
三角色智能体：视觉构图、音频对齐、艺术效果增强
三智能体共享单一 LLM 骨干，仅通过 Prompt 和工具区分
KV-cache 复用大幅加速推理
有界反思循环（最多 2 次迭代）平衡质量与效率

03

协同跨域奖励学习 (SCRL)

将多目标优化建模为约束策略学习问题：

用户反馈作为主优化目标
兴趣对齐和视频质量作为约束条件
分组解耦奖励归一化 (GDPO) 解决多通道奖励尺度不匹配
PID 控制的拉格朗日更新稳定训练

实现推荐与视频生成在统一闭环中协同进化。

04

工业级规模化部署

在4 亿+ DAU 的生产平台上部署，服务于广告变现关键场景：

SID 索引缓存摊销生成成本
共享 LLM 骨干 + KV-cache 复用降低推理延迟
端到端联合训练，支持数亿用户的推荐请求

🔬 关键技术细节

解耦语义视频编码器

基于 Qwen2.5-VL-7B-Instruct，通过指令引导的解耦表示框架，将同一视频的语义内容和创意属性分离：

使用内部密集描述模型 (CapModel) 生成因子化文本描述
视觉编码器提取时空语义 token，与文本描述联合编码
对比学习损失确保表示一致性
通过 RQ-KMeans 将连续嵌入量化为离散 D-SIDs

生成式推荐模型 (GRM)

将推荐重新定义为自回归 token 预测：给定用户画像和交互历史，GRM 自回归地预测代表用户未来兴趣的 D-SIDs 序列。与传统 GRM 不同，RaG 将预测的 D-SIDs 作为生成式兴趣表示，直接解码为新内容，而非仅用作检索键。

指令模型 (IM) 与 VGA 协作

指令模型将 D-SIDs 翻译为自然语言指令，为下游智能体提供可解释的结构化指导。三个角色智能体（视觉、音频、艺术）基于共享 LLM 骨干协同工作，通过层次化规划、多模态对齐和迭代精炼，生成高质量个性化视频。

📊 实验结果与业务收益

实验设置

在拥有 4 亿+ 日活用户 的工业级短视频平台上进行在线 A/B 测试，场景为广告变现关键业务。基线为生产环境中表现强劲的生成式推荐模型 (GRM)。

在线 A/B 测试结果

指标	基线 (GRM)	RaG (本文)	提升
广告收入 (Ad Revenue)	—	—	↑ 最高 1.87%
用户参与度	—	—	显著提升
视频质量评分	—	—	与人工制作相当

      🏆 关键结论
      在已有强 GRM 基线基础上，RaG 仍实现 最高 1.87% 的广告收入提升
证明了「生成驱动个性化」在推荐系统中的巨大潜力
这是首个在工业级规模上将推荐与个性化视频生成有效统一的系统

    

🔮 总结与展望

RaG 的核心贡献

范式创新：首次提出「推荐即生成」范式，将推荐从固定池检索转变为从用户兴趣直接生成个性化视频。
统一接口：D-SIDs 作为推荐与生成的共享潜在接口，解耦内容语义与创意风格，实现精细兴趣建模与可控视频生成。
工业级生成框架：VGAs 通过层次化规划、多智能体协作和迭代精炼，实现可扩展的高质量个性化视频生产。
闭环优化：SCRL 将用户反馈、兴趣对齐和视频质量统一到约束策略学习中，实现推荐与生成的协同进化。
生产验证：在 4 亿+ DAU 平台上通过 A/B 测试验证，广告收入提升最高 1.87%。

RaG 标志着推荐系统从「被动匹配已有内容」到「主动创造个性化内容」的根本性转变。闭环生成系统为个性化视频生成融入推荐开辟了全新方向。