HiGR:腾讯基于分层规划与多目标偏好对齐的高效生成式推荐
概述
该论文介绍了 HiGR,这是一种旨在提升生成式排列推荐效率与质量的创新框架。为了克服传统自回归生成中存在的语义混淆和推理缓慢问题,该研究首先通过对比残差量化自编码器 (CRQ-VAE) 将物品转化为结构清晰的语义 ID,增强了推荐的可控性。框架核心采用分层排列解码器,将推荐过程解构为全局性的列表偏好规划与细粒度的具体物品解码,在确保整体逻辑连贯的同时实现了 5 倍的推理加速。最后,通过列表级偏好对齐技术,该模型利用用户反馈直接优化推荐列表的排序、兴趣相关性及多样性,在真实工业场景的 A/B 测试中显著提升了用户时长与观看量。

1. 问题
HiGR 主要致力于解决将生成式模型应用于 列表推荐 时面临的三个核心问题,以及一个优化目标问题:
1. 语义标识符的纠缠与缺乏协作性
现有的生成式推荐通常使用基于残差量化(RQ-VAE)的语义ID来表示物品。然而,这种传统量化方法产生的ID空间存在语义纠缠问题:
- • 语义界限模糊:相同的ID前缀可能隐含不同的语义,或者不同的前缀共享相似的语义(一词多义或同义词现象),导致模型难以精确控制生成过程。
- • 缺乏协作对齐:仅靠重建误差优化的量化忽略了物品间的关系结构,无法保证相似的物品在ID前缀上聚类,也无法推开不相似的物品,削弱了生成器捕捉协作信号的能力。
- • 多样性控制困难:传统方法只能在生成后通过聚合嵌入来评估多样性,无法在解码过程中直接对ID前缀施加约束。
2. 推理效率低下
在生成式推荐中,每个物品被表示为一串离散的Token(例如3个Token)。生成一个包含10个物品的列表通常需要30步甚至更多的顺序推理步骤。
- • 这种逐个Token生成的机制会导致显著的计算开销和延迟,难以满足工业级系统对实时性(如100毫秒以内)的严苛要求。
3. 缺乏列表级的全局规划
现有的自回归生成模型虽然在理论上能利用上下文,但在实际操作中通常遵循“从左到右”的生成范式,缺乏对整个列表结构的显式规划机制。
- • 这导致生成的列表虽然局部连贯,但在全局上往往是次优的。例如,后续生成的物品可能与前面的选择相矛盾,或者无法满足列表级的属性要求(如多样性、覆盖率或主题连贯性)。
- • 逐Token的解码方式将物品内部的表示与物品间的转移模式混淆在一起,难以捕捉复杂的列表级依赖关系。
4. 训练目标与用户真实偏好不一致
传统的推荐模型通常使用物品级的交叉熵损失进行训练,但这并不反映用户如何整体评估一个推荐列表。
- • 预训练模型存在历史曝光偏差,且仅靠“预测下一个Token”的目标无法直接优化用户的长期参与度或列表的整体质量(如多样性、排序保真度)。
2. 相关工作
业界的生成式列表推荐主要集中在以下三个核心领域:生成式推荐架构、语义标识符构建以及基于强化学习的偏好对齐。
1. 生成式推荐架构
业界正从传统的判别式模型(如DeepFM, Wide&Deep)向基于大语言模型(LLM)的生成式范式转变,主要工作包括:
- • HSTU: 引入了一种高性能骨干网络,用门控线性递归机制替代了标准的注意力机制,显著提升了训练和推理速度。
- • MTGR: 美团提出的工业级生成式框架,基于 HSTU 架构。它通过显式保留交叉特征并采用组层归一化,有效地结合了生成式模型的扩展性与传统推荐模型的精度。
- • OneTrans: 改进了骨干架构,设计了有效的多任务学习和知识迁移机制,旨在提升生成式模型在不同推荐场景下的泛化能力。
2. 语义标识符与量化
为了解决海量物品导致的词表过大和冷启动问题,业界探索将物品转化为离散的语义标识符:
- • TIGER: 利用残差量化变分自编码器通过自监督学习递归地编码物品,有助于向冷启动物品迁移知识。
- • OneRec: 为了提高计算效率,采用迭代 K-means 算法生成分层 ID,替代了复杂的 VAE 结构。
- • LETTER: 引入了可学习的 Tokenization 框架,端到端地优化码本以适应序列推荐任务。
- • 统一表示学习: 最新的尝试旨在结合语义 Token 的泛化优势与原子 ID(Atomic IDs)的特异性,以平衡推荐的多样性与准确性。
3. 基于强化学习的偏好对齐
为了弥补“预测下一个 Token”的训练目标与用户长期参与度等业务指标之间的差距,业界引入了强化学习(RL)和直接偏好优化(DPO):
- • PrefRec: 类似于 RLHF(基于人类反馈的强化学习),通过在用户历史偏好上训练奖励模型来指导策略,优化长期参与度。
- • DPO4Rec: 将成对偏好学习适配到序列模型中,将复杂的在线 RL 循环转化为稳定的监督损失。
- • OneRec-V1 & V2: 工业界的代表性进展。OneRec-V1 统一了检索和排序,利用迭代 DPO 进行偏好对齐;OneRec-V2 进一步引入了感知时长的奖励塑造和自适应比例裁剪,直接根据实时反馈优化用户参与度。
4. 列表推荐
在生成式方法兴起之前或并行的相关工作主要关注如何对整个列表进行建模:
- • ListCVAE: 使用条件变分自编码器建模推荐列表的联合分布,捕捉位置偏差和物品间的依赖关系。
- • GFN4Rec: 将生成流网络应用于推荐,将列表生成建模为顺序流。
- • DMSG: 利用条件扩散模型在自然语言提示的指导下合成连贯且多样的物品列表。
3. 核心方法和创新
HiGR 框架三个核心模块重新定义了列表推荐任务:基于对比学习的语义量化 (CRQ-VAE)、分层列表解码器 (HSD) 以及 多目标偏好对齐。
1. 基于对比学习的语义量化 (CRQ-VAE)
针对传统语义ID存在的语义纠缠和缺乏协作结构的问题,HiGR 提出了一种改进的变分自编码器 CRQ-VAE,用于构建结构化的物品标识符。
- • 前缀级对比约束:
- • 原理: 在量化过程中引入对比学习。模型构建“锚点-正样本”对(来自语义邻居或高共现物品)和负样本对。
- • 机制: 强制要求语义相似的物品在前 层共享相同的码本前缀,而推开不相似的物品。第 层不加此约束,以保留细粒度的区分能力。
- • 作用: 使得ID的前缀成为可靠的“语义锚点”,明确了语义边界,解决了传统量化中“不同前缀语义相似”或“相同前缀语义不同”的纠缠问题。
- • 全局量化损失:
-
• 问题: 传统的分层残差量化会导致深层码本的“残差消失”,即深层残差趋近于零。
-
• 解决: 直接在潜在空间层面优化全局量化误差,确保所有层级的码本都能保留有效的语义信息,防止深层码本退化为噪声。

2. 分层列表解码器
为了解决生成式推荐推理效率低(需逐个Token生成)和缺乏全局规划的问题,HiGR 将生成过程解耦为“粗粒度规划”和“细粒度生成”两个阶段。
- • 粗粒度列表规划器:
- • 功能: 这是一个自回归的 Transformer 模块。它不直接生成具体的物品ID,而是负责生成列表中每个位置的 偏好嵌入。
- • 输入: 用户的上下文嵌入以及前序位置生成的偏好嵌入。
- • 作用: 捕捉列表的全局结构和用户意图,决定“在这个位置应该推荐什么样的内容”。
- • 细粒度物品生成器:
- • 功能: 这是一个基于 Transformer 的解码器。它接收来自规划器的“偏好嵌入”,并将其解码为具体的物品语义ID序列(例如3个Token)。
- • 特点: 所有位置的物品生成器共享参数,以保证效率。
- • GSBI 推理策略:
- • 流程: 在推理阶段,规划器使用贪婪搜索快速确定每个位置的偏好方向;物品生成器则基于该偏好使用束搜索精确生成物品ID。
- • 优势: 这种解耦使得每个物品的解码过程可以独立进行,不再依赖其他物品的中间Token状态,从而大幅减少了顺序推理步数,实现了约 5倍 的推理加速。

3. 多目标列表级偏好对齐
为了让模型生成的列表更符合用户真实的体验(不仅仅是点击率),HiGR 引入了基于 ORPO 的对齐机制。
- • 无参考模型优化:
- • 相比于 RLHF 或 DPO,ORPO 不需要维护一个庞大的参考模型,计算和显存开销更低,非常适合工业界的流式训练环境。
- • 三维目标构建:
通过精心构造正负样本对 ,模型在一个统一的损失函数中同时优化三个目标:
-
- 排序保真度: 正样本基于用户真实反馈重排,负样本则是正样本的随机打乱。这让模型学习正确的排序。
-
- 真实兴趣: 负样本中替换入“有曝光但无交互”的物品,让模型学会区分噪声和真实兴趣。
-
- 列表多样性: 将“首个物品 + 后续重复/高相似物品”作为负样本(模拟信息茧房),惩罚重复推荐,强制模型生成多样化的列表。
4 实验
根据论文提供的实验结果,HiGR 框架在离线评估和在线实际部署中均取得了显著的性能提升,在推荐质量和推理效率之间取得了极佳的平衡。
以下是具体的实验数据分析:
1. 离线评估:全面超越现有基准
在大型工业数据集上的测试显示,HiGR 在各项核心指标上均优于现有的传统方法(如 ListCVAE)、判别式模型(如 SASRec, BERT4Rec)以及先进的生成式模型(如 TIGER, HSTU, OneRec)。
- • 推荐质量大幅提升:相比于最先进的基线方法,HiGR 的离线推荐质量提升了 10% 以上。
- • 在具体的 NDCG 指标上,HiGR-0.1B 版本达到了 0.2145,显著高于 OneRec (0.1603) 和 HSTU (0.1487)。
- • 在有效观看的召回率(Recall@5)上,HiGR 达到了 0.0831,而 OneRec 为 0.0589,传统 SASRec 仅为 0.0243。
- • 长序列生成稳定性:对比实验显示,随着列表生成长度(从1到10)的增加,HiGR 始终保持着相对于 OneRec 的显著性能优势,证明了其在长序列生成任务中的鲁棒性。
2. 在线 A/B 测试:核心业务指标显著增长
该模型已在拥有数千万日活跃用户(DAU)的腾讯商业媒体平台上进行了部署测试,结果证实了其商业价值:
- • 用户留存与时长:人均停留时长提升了 1.03%,人均观看时长提升了 1.22%。
- • 内容消费深度:人均视频观看数提升了 1.73%,人均请求次数提升了 1.57%。
这些数据表明,HiGR 不仅推得准,还能有效促进用户的长期活跃和深度消费。
3. 推理效率:5倍加速
针对生成式推荐通常面临的延迟问题,HiGR 的分层架构展示了极高的效率:
- • 速度对比:得益于“粗粒度规划+细粒度生成”的解耦设计以及贪婪-束搜索(GSBI)策略,HiGR 的推理速度是 OneRec(使用 Beam Search)的 5倍。
- • 效率与效果兼得:在同等硬件环境下,HiGR 不仅速度更快,其 Recall@5 性能也比 OneRec 高出 5% 以上。
4. 消融实验与深度分析
论文通过详细的消融实验验证了各核心模块的有效性:
- • 语义量化 (CRQ-VAE) 的优势:
- • 相比传统的 RQ-VAE,CRQ-VAE 将ID冲突率从 2.98% 降低到了 2.37%(越低越好)。
- • 语义一致性从 55.77% 提升到了 66.47%,证明对比学习有效地优化了码本空间的语义分布。
- • 偏好对齐 (ORPO) 的效果:
- • 相比于无强化学习(w/o RL)版本,引入 ORPO 后,NDCG 指标从 0.2012 提升至 0.2145。
- • 对比 DPO 和 SimPO,ORPO 在所有指标上均取得了最佳效果,证明了其在多目标优化(排序、兴趣、多样性)上的优越性。
- • 扩展性:
- • 模型参数从 0.05B 扩展到 2B 的过程中,Loss 和 NDCG 呈现出清晰的对数线性关系,表明该架构具有良好的缩放定律特性,可以通过增加模型规模持续获得性能收益。
5结论
HiGR 作为一个分层生成式框架,成功解决了将自回归生成模型应用于列表推荐时面临的推理效率低和缺乏全局规划这两大核心难题,同时保证了高质量的推荐效果。HiGR 能够在工业级场景中兼顾高保真生成与低延迟推理,具有极高的落地价值。作者认为,该工作为下一代生成式推荐系统奠定了坚实的基础,证明了端到端生成式模型在复杂的列表推荐任务中是可行且高效的。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)