概要

主题范围:LLM 多目标对齐、多偏好优化、帕累托对齐、可控偏好优化、多目标奖励模型。
选取标准:优先收录有论文链接且公开 GitHub / Hugging Face 数据或模型的项目。

1. 为什么要看“多目标对齐”

传统 RLHF / DPO 常把“人类偏好”压成一个标量奖励:回答更好就是 1,更差就是 0,或者由单个 Reward Model 给出一个分数。这个设定简单有效,但在真实产品里经常不够用,因为用户和场景通常同时关心多个目标:

  • Helpfulness:回答是否真正有用。
  • Harmlessness / Safety:是否避免危险、违法、歧视或越权建议。
  • Honesty / Factuality:是否诚实表达不确定性,是否少幻觉。
  • Conciseness / Verbosity:是否简洁,还是足够详细。
  • Style / Tone:是否幽默、正式、礼貌、适合特定用户。

这些目标经常互相拉扯。例如,安全性过强可能造成拒答泛化,有用性过强又可能牺牲安全边界;详细解释能提升帮助性,但也可能降低简洁性。多目标对齐的核心问题就是:不要训练一个“平均偏好”的模型,而是学会表示、控制和调整不同偏好之间的权衡。

2. 开源项目总览表

序号 论文 / 项目 年份 / 会议 核心关键词 开源内容 适合关注的问题
1 MODPO: Beyond One-Preference-Fits-All Alignment ACL Findings 2024 Multi-Objective DPO, RL-free GitHub 如何把 DPO 扩展到多目标偏好
2 Rewarded Soups NeurIPS 2023 Pareto, model soup, multi-policy GitHub 多个单目标模型如何插值出 Pareto 前沿
3 RiC: Rewards-in-Context ICML 2024 Reward conditioning, inference-time control GitHub 如何用上下文奖励条件实现动态偏好调节
4 DPA: Directional Preference Alignment ACL 2024 reward vector, direction control, RSF GitHub 如何用“方向向量”控制帮助性和冗长度等目标
5 ArmoRM: Interpretable Preferences via Multi-Objective Reward Modeling EMNLP 2024 multi-objective RM, MoE, interpretability GitHub / Model 如何训练可解释的多维奖励模型
6 CPO: Controllable Preference Optimization EMNLP 2024 controllable alignment, 3H, CDPO GitHub 如何显式指定 helpfulness / honesty / harmlessness 分数
7 MetaAligner NeurIPS 2024 policy-agnostic, unseen objectives GitHub 如何不改目标模型参数,做泛化多目标对齐
8 MORE: On Diversified Preferences EMNLP 2024 diverse preferences, reward calibration GitHub 多样化标注偏好如何影响奖励模型校准
9 SIPO: Self-Improvement Towards Pareto Optimality 2025 self-improvement, conflict mitigation GitHub 如何缓解 correctness / verbosity 等偏好冲突
10 PARM: Multi-Objective Test-Time Alignment ICML 2025 test-time alignment, autoregressive RM GitHub 如何冻结 LLM,仅训练小奖励模型做推理时对齐
11 AMPO: Active Multi-Preference Optimization ICML 2025 group preference, active selection Datasets 多候选答案场景下如何选择最有信息量的偏好样本

3. 方法脉络:从“一个分数”到“一个偏好空间”

可以把这些工作粗略分成五条路线。

3.1 多目标 DPO / 直接偏好优化路线

代表项目:MODPO、CPO、SIPO、AMPO

这一路线继承 DPO 的优点:不显式训练 PPO 式 RLHF 策略,也不需要高成本在线采样。不同之处在于,它不再只优化一个偏好标签,而是把偏好拆成多个目标,或把多个候选回答组成更丰富的训练信号。

  • MODPO:把 DPO loss 加上多目标 margin,用不同目标权重引导模型在安全性、帮助性、长度惩罚等维度上移动。
  • CPO:把目标偏好分数写进条件,让模型根据指定的 3H 偏好生成回答。
  • SIPO:先得到偏向不同目标的模型,再通过采样、评审、重写、过滤和再对齐,推动结果靠近 Pareto 更优区域。
  • AMPO:关注一组候选回答,不只选 best / worst,而是主动挑选覆盖奖励极端值和语义簇的子集。

适合场景:已有偏好数据、希望复用 DPO 系列训练栈、希望训练成本比 PPO 低。

3.2 帕累托前沿 / 模型插值路线

代表项目:Rewarded Soups、SIPO

核心想法是:面对多个相互冲突的目标,不必强行找一个全局最优点,而是找一条 Pareto front。Rewarded Soups 先针对不同奖励分别微调多个模型,再做权重插值;SIPO 也使用模型插值 / MOD sampling 作为生成候选的关键步骤。

优点是直观、工程上容易理解;缺点是如果目标很多,模型数量和搜索空间会迅速扩大。

3.3 奖励条件化 / 推理时动态控制路线

代表项目:RiC、DPA、PARM

这一路线强调:同一个模型最好能在推理阶段根据用户偏好切换行为。

  • RiC:把多个 reward 作为上下文条件,SFT 一个能读懂奖励条件的模型。
  • DPA:把用户偏好表示成 reward space 里的方向向量,例如更 helpful、更少 verbose。
  • PARM:冻结大模型,用 preference-aware autoregressive reward model 在 test-time 引导解码。

适合场景:产品侧需要“滑杆式”控制,如更详细 / 更简洁、更安全 / 更直接。

3.4 多目标奖励模型路线

代表项目:ArmoRM、MORE

单一 Reward Model 的问题是黑箱且不可解释:它给出一个高分,但不知道高在哪个维度。ArmoRM 先训练多维 absolute-rating reward model,再用 MoE gating 根据上下文聚合目标;MORE 则关注多样化人类偏好对 RM 校准的影响,并提出 Multi-Objective Reward learning。

适合场景:你不一定马上训练策略模型,但需要更可靠的偏好评估器、reward reranker 或数据筛选器。

3.5 策略无关 / 插件式对齐路线

代表项目:MetaAligner

MetaAligner 的特点是 policy-agnostic:它不要求访问或微调目标 policy model 的参数,而是学习一种“弱回答到强回答”的条件修正能力。更有意思的是,它尝试通过目标描述泛化到未见过的对齐目标。

适合场景:闭源模型、多个底座模型共存、或算力不足以对每个 policy 都重新做一轮多目标训练。

4. 重点项目速读

4.1 MODPO:多目标版 DPO 的基准入口

MODPO 的价值在于它把问题讲得很清楚:如果用 MORLHF 分别训练多个 reward weight 下的模型,成本和不稳定性都比较高;而 DPO 本身又是单目标的。MODPO 做的是把多目标权重并入 DPO 风格目标,让模型在不同 preference vector 下形成一组 Pareto 候选。

代码仓库提供了两个很适合入门的例子:BeaverTails 上的安全对齐,以及带长度惩罚的 summarization。想复现实验时,可以先跑 summarization,因为长度偏置更容易观察。

4.2 Rewarded Soups:用模型插值找 Pareto 解

Rewarded Soups 的思路非常工程友好:先针对每个 reward 各自训练一个模型,再对这些模型权重做线性插值。它的关键经验发现是:从同一个初始化出发、针对不同奖励微调后的模型,在权重空间里存在可用的线性连接。

如果你想理解“多目标对齐为什么不是简单平均奖励”,这篇很值得先看。它不仅覆盖文本任务,也涉及图文和控制任务,视野比纯 LLM 对齐更宽。

4.3 RiC:把 reward 写进上下文

RiC 的优点是简洁:不走复杂 PPO,而是构造带 reward 条件的数据,让模型学会“看到目标分数后生成对应回答”。仓库中不仅有 RiC,也包含 SFT、MORLHF 和 Rewarded Soups 的对比实现,适合做横向复现。

一个很实用的细节:仓库支持 assistant 和 summary 两类任务,reward names 包括 harmless、helpful、humor、summary、faithful 等,适合快速构造自己的多目标实验。

4.4 DPA:用方向向量控制偏好

DPA 很适合产品化理解:用户偏好被表示成 reward space 里的单位方向向量。比如 (1, 0) 偏向 helpfulness,(0, 1) 偏向 verbosity,(0.8, -0.6) 则表示更 helpful 但更少 verbose。

它的启发是:偏好控制不一定要靠自然语言 prompt 猜测,也可以显式使用数值向量。后续如果你想做“可调节助手”,DPA 是值得优先读的工作。

4.5 ArmoRM:多维、可解释的 Reward Model

ArmoRM 的思路是先输出多个可解释维度的奖励,再由 gating network 做上下文相关的聚合。相比单分数 RM,它更适合诊断 reward hacking:到底是因为安全高、事实性高,还是只是迎合了长度偏置?

它也很适合作为其他多目标对齐方法的评估器或数据筛选器。实际做项目时,可以先用 ArmoRM 给已有数据打分,看看不同目标之间是否存在明显冲突。

4.6 CPO:把 3H 偏好显式条件化

CPO 的目标是缓解 alignment tax:提升 harmlessness 时,不要无谓牺牲 helpfulness 或 honesty。它把多目标偏好分数显式写入条件,使模型按指定目标组合生成回答。

如果你的任务是安全对齐,这个项目很值得参考,因为它围绕 3H 组织数据和实验,和真实助手类应用比较贴近。

4.7 MetaAligner:不改 policy 的多目标对齐

MetaAligner 的独特之处是把多目标对齐做成一个外部修正器:给定原模型的弱回答和目标描述,生成更符合目标的强回答。这样可以在多个 policy model 上复用,也降低了每个模型单独对齐的训练成本。

它适合研究“对齐器”和“底座模型”解耦的方向,尤其适合没有权限微调闭源模型或超大模型的场景。

4.8 MORE:从奖励模型校准看多样化偏好

MORE 的关注点不是“如何控制一个偏好向量”,而是“人类偏好本身有分歧时,奖励模型会怎样”。它提出用校准误差评估 RM,并用多目标 reward learning 改善共享偏好上的表现。

如果你要构建自己的偏好数据集,这篇的价值很高:它提醒我们不要默认所有标注者共享同一个偏好函数。

4.9 SIPO:自改进走向 Pareto 更优

SIPO 面向偏好冲突问题,例如 correctness 和 verbosity。它先得到偏向不同目标的模型,然后通过 MOD sampling 生成候选,再用 review / rewrite / filter 形成更好的训练样本,最后再对齐。

这篇适合想做“迭代式数据改进”的同学:它不是只改 loss,而是把采样、评审、重写和再训练串成流程。

4.10 PARM:推理时对齐,冻结大模型

  • 论文 / 代码:Baijiong-Lin/PARM
  • 关键词:test-time alignment、preference-aware ARM、frozen LLM、weak-to-strong guidance。

PARM 的问题设定很现实:很多时候我们不想、也不能重新训练大模型。它训练一个 preference-aware autoregressive reward model,在解码阶段引导冻结 LLM 的生成。

如果算力有限,或业务侧已经固定了底座模型,PARM 这类 test-time alignment 方法会很有吸引力。

5. 复现路线建议

如果从零开始,不建议一上来就跑最复杂的 PPO / MORLHF。更稳的路线如下:

  1. 先读 DPO 和 MODPO:理解单目标偏好优化如何扩展到多目标。
  2. 跑 RiC 的小实验:它的代码中包含 RiC、SFT、MORLHF、Rewarded Soups 对比,最适合建立实验直觉。
  3. 用 ArmoRM 给数据打分:观察 helpfulness、safety、verbosity 等维度之间是否冲突。
  4. 尝试 CPO 或 DPA 做可控生成:把偏好向量变成推理时可调参数。
  5. 再看 MetaAligner / PARM:当你希望不改原模型参数,或对闭源模型做外部对齐时再深入。

6. 选题地图

研究问题 推荐起点 原因
DPO 如何做多目标? MODPO、CPO 都是 DPO 系思路,工程迁移成本低
如何获得一条 Pareto front? Rewarded Soups、SIPO 直接围绕 Pareto 最优与权衡建模,且有公开代码可参考
如何做推理时动态控制? RiC、DPA、PARM 都支持偏好条件化或 test-time control
如何训练多维 RM? ArmoRM、MORE 关注多目标奖励建模与校准
如何减少每个模型单独对齐成本? MetaAligner、PARM 一个偏向外部修正,一个偏向解码引导
如何构造更丰富偏好数据? AMPO、MORE 一个关注多候选选择,一个关注偏好多样性

7. 个人阅读顺序

如果目标是快速入门并能动手复现,我建议按这个顺序:

  1. Rewarded Soups:先建立 Pareto / 多奖励直觉。
  2. MODPO:理解 DPO 系多目标对齐的基本范式。
  3. RiC:上手 reward-conditioned SFT。
  4. ArmoRM:补上多维奖励模型。
  5. CPODPA:研究可控生成。
  6. MetaAligner / PARM:看更轻量的外部对齐和推理时对齐。

8. 小结

多目标对齐的关键趋势已经比较清晰:从“训练一个平均助手”转向“训练一个可表达偏好空间、可调节、可解释、可迁移的助手”。

短期看,MODPO / CPO / RiC 更适合工程复现;ArmoRM / MORE 更适合做评估和数据分析;MetaAligner / PARM 则代表了低成本、策略无关或推理时对齐方向。长期看,多目标对齐很可能会和个性化助手、企业安全策略、模型路由、RAG 质量控制结合,成为后训练系统里的基础能力。

参考链接

  • MODPO paper: https://arxiv.org/abs/2310.03708
  • MODPO code: https://github.com/ZHZisZZ/modpo
  • Rewarded Soups paper: https://arxiv.org/abs/2306.04488
  • Rewarded Soups code: https://github.com/alexrame/rewardedsoups
  • RiC paper: https://arxiv.org/abs/2402.10207
  • RiC code: https://github.com/YangRui2015/RiC
  • DPA paper: https://arxiv.org/abs/2402.18571
  • DPA code: https://github.com/RLHFlow/Directional-Preference-Alignment
  • ArmoRM paper: https://arxiv.org/abs/2406.12845
  • RLHFlow Reward Modeling code: https://github.com/RLHFlow/RLHF-Reward-Modeling
  • CPO paper: https://arxiv.org/abs/2402.19085
  • CPO code: https://github.com/OpenBMB/CPO
  • MetaAligner paper: https://arxiv.org/abs/2403.17141
  • MetaAligner code: https://github.com/SteveKGYang/MetaAligner
  • MORE paper: https://arxiv.org/abs/2312.07401
  • MORE code: https://github.com/dunzeng/MORE
  • SIPO paper: https://arxiv.org/abs/2502.14354
  • SIPO code: https://github.com/zyttt-coder/SIPO
  • PARM code: https://github.com/Baijiong-Lin/PARM
  • AMPO paper: https://arxiv.org/abs/2502.18293
  • AMPO datasets: https://huggingface.co/Multi-preference-Optimization
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐