大模型多目标对齐开源论文代码整理
文章目录
概要
主题范围:LLM 多目标对齐、多偏好优化、帕累托对齐、可控偏好优化、多目标奖励模型。
选取标准:优先收录有论文链接且公开 GitHub / Hugging Face 数据或模型的项目。
1. 为什么要看“多目标对齐”
传统 RLHF / DPO 常把“人类偏好”压成一个标量奖励:回答更好就是 1,更差就是 0,或者由单个 Reward Model 给出一个分数。这个设定简单有效,但在真实产品里经常不够用,因为用户和场景通常同时关心多个目标:
- Helpfulness:回答是否真正有用。
- Harmlessness / Safety:是否避免危险、违法、歧视或越权建议。
- Honesty / Factuality:是否诚实表达不确定性,是否少幻觉。
- Conciseness / Verbosity:是否简洁,还是足够详细。
- Style / Tone:是否幽默、正式、礼貌、适合特定用户。
这些目标经常互相拉扯。例如,安全性过强可能造成拒答泛化,有用性过强又可能牺牲安全边界;详细解释能提升帮助性,但也可能降低简洁性。多目标对齐的核心问题就是:不要训练一个“平均偏好”的模型,而是学会表示、控制和调整不同偏好之间的权衡。
2. 开源项目总览表
| 序号 | 论文 / 项目 | 年份 / 会议 | 核心关键词 | 开源内容 | 适合关注的问题 |
|---|---|---|---|---|---|
| 1 | MODPO: Beyond One-Preference-Fits-All Alignment | ACL Findings 2024 | Multi-Objective DPO, RL-free | GitHub | 如何把 DPO 扩展到多目标偏好 |
| 2 | Rewarded Soups | NeurIPS 2023 | Pareto, model soup, multi-policy | GitHub | 多个单目标模型如何插值出 Pareto 前沿 |
| 3 | RiC: Rewards-in-Context | ICML 2024 | Reward conditioning, inference-time control | GitHub | 如何用上下文奖励条件实现动态偏好调节 |
| 4 | DPA: Directional Preference Alignment | ACL 2024 | reward vector, direction control, RSF | GitHub | 如何用“方向向量”控制帮助性和冗长度等目标 |
| 5 | ArmoRM: Interpretable Preferences via Multi-Objective Reward Modeling | EMNLP 2024 | multi-objective RM, MoE, interpretability | GitHub / Model | 如何训练可解释的多维奖励模型 |
| 6 | CPO: Controllable Preference Optimization | EMNLP 2024 | controllable alignment, 3H, CDPO | GitHub | 如何显式指定 helpfulness / honesty / harmlessness 分数 |
| 7 | MetaAligner | NeurIPS 2024 | policy-agnostic, unseen objectives | GitHub | 如何不改目标模型参数,做泛化多目标对齐 |
| 8 | MORE: On Diversified Preferences | EMNLP 2024 | diverse preferences, reward calibration | GitHub | 多样化标注偏好如何影响奖励模型校准 |
| 9 | SIPO: Self-Improvement Towards Pareto Optimality | 2025 | self-improvement, conflict mitigation | GitHub | 如何缓解 correctness / verbosity 等偏好冲突 |
| 10 | PARM: Multi-Objective Test-Time Alignment | ICML 2025 | test-time alignment, autoregressive RM | GitHub | 如何冻结 LLM,仅训练小奖励模型做推理时对齐 |
| 11 | AMPO: Active Multi-Preference Optimization | ICML 2025 | group preference, active selection | Datasets | 多候选答案场景下如何选择最有信息量的偏好样本 |
3. 方法脉络:从“一个分数”到“一个偏好空间”
可以把这些工作粗略分成五条路线。
3.1 多目标 DPO / 直接偏好优化路线
代表项目:MODPO、CPO、SIPO、AMPO
这一路线继承 DPO 的优点:不显式训练 PPO 式 RLHF 策略,也不需要高成本在线采样。不同之处在于,它不再只优化一个偏好标签,而是把偏好拆成多个目标,或把多个候选回答组成更丰富的训练信号。
- MODPO:把 DPO loss 加上多目标 margin,用不同目标权重引导模型在安全性、帮助性、长度惩罚等维度上移动。
- CPO:把目标偏好分数写进条件,让模型根据指定的 3H 偏好生成回答。
- SIPO:先得到偏向不同目标的模型,再通过采样、评审、重写、过滤和再对齐,推动结果靠近 Pareto 更优区域。
- AMPO:关注一组候选回答,不只选 best / worst,而是主动挑选覆盖奖励极端值和语义簇的子集。
适合场景:已有偏好数据、希望复用 DPO 系列训练栈、希望训练成本比 PPO 低。
3.2 帕累托前沿 / 模型插值路线
代表项目:Rewarded Soups、SIPO
核心想法是:面对多个相互冲突的目标,不必强行找一个全局最优点,而是找一条 Pareto front。Rewarded Soups 先针对不同奖励分别微调多个模型,再做权重插值;SIPO 也使用模型插值 / MOD sampling 作为生成候选的关键步骤。
优点是直观、工程上容易理解;缺点是如果目标很多,模型数量和搜索空间会迅速扩大。
3.3 奖励条件化 / 推理时动态控制路线
代表项目:RiC、DPA、PARM
这一路线强调:同一个模型最好能在推理阶段根据用户偏好切换行为。
- RiC:把多个 reward 作为上下文条件,SFT 一个能读懂奖励条件的模型。
- DPA:把用户偏好表示成 reward space 里的方向向量,例如更 helpful、更少 verbose。
- PARM:冻结大模型,用 preference-aware autoregressive reward model 在 test-time 引导解码。
适合场景:产品侧需要“滑杆式”控制,如更详细 / 更简洁、更安全 / 更直接。
3.4 多目标奖励模型路线
代表项目:ArmoRM、MORE
单一 Reward Model 的问题是黑箱且不可解释:它给出一个高分,但不知道高在哪个维度。ArmoRM 先训练多维 absolute-rating reward model,再用 MoE gating 根据上下文聚合目标;MORE 则关注多样化人类偏好对 RM 校准的影响,并提出 Multi-Objective Reward learning。
适合场景:你不一定马上训练策略模型,但需要更可靠的偏好评估器、reward reranker 或数据筛选器。
3.5 策略无关 / 插件式对齐路线
代表项目:MetaAligner
MetaAligner 的特点是 policy-agnostic:它不要求访问或微调目标 policy model 的参数,而是学习一种“弱回答到强回答”的条件修正能力。更有意思的是,它尝试通过目标描述泛化到未见过的对齐目标。
适合场景:闭源模型、多个底座模型共存、或算力不足以对每个 policy 都重新做一轮多目标训练。
4. 重点项目速读
4.1 MODPO:多目标版 DPO 的基准入口
- 论文:Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization
- 代码:ZHZisZZ/modpo
- 关键词:DPO、MORLHF 替代、多目标 margin、安全 vs 帮助性、长度偏置。
MODPO 的价值在于它把问题讲得很清楚:如果用 MORLHF 分别训练多个 reward weight 下的模型,成本和不稳定性都比较高;而 DPO 本身又是单目标的。MODPO 做的是把多目标权重并入 DPO 风格目标,让模型在不同 preference vector 下形成一组 Pareto 候选。
代码仓库提供了两个很适合入门的例子:BeaverTails 上的安全对齐,以及带长度惩罚的 summarization。想复现实验时,可以先跑 summarization,因为长度偏置更容易观察。
4.2 Rewarded Soups:用模型插值找 Pareto 解
- 论文:Rewarded soups: towards Pareto-optimal alignment by interpolating weights fine-tuned on diverse rewards
- 代码:alexrame/rewardedsoups
- 关键词:model soup、reward interpolation、Pareto-optimal、多策略。
Rewarded Soups 的思路非常工程友好:先针对每个 reward 各自训练一个模型,再对这些模型权重做线性插值。它的关键经验发现是:从同一个初始化出发、针对不同奖励微调后的模型,在权重空间里存在可用的线性连接。
如果你想理解“多目标对齐为什么不是简单平均奖励”,这篇很值得先看。它不仅覆盖文本任务,也涉及图文和控制任务,视野比纯 LLM 对齐更宽。
4.3 RiC:把 reward 写进上下文
- 论文:Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment
- 代码:YangRui2015/RiC
- 关键词:reward-conditioned SFT、动态偏好、低成本、多任务。
RiC 的优点是简洁:不走复杂 PPO,而是构造带 reward 条件的数据,让模型学会“看到目标分数后生成对应回答”。仓库中不仅有 RiC,也包含 SFT、MORLHF 和 Rewarded Soups 的对比实现,适合做横向复现。
一个很实用的细节:仓库支持 assistant 和 summary 两类任务,reward names 包括 harmless、helpful、humor、summary、faithful 等,适合快速构造自己的多目标实验。
4.4 DPA:用方向向量控制偏好
- 论文:Arithmetic Control of LLMs for Diverse User Preferences: Directional Preference Alignment with Multi-Objective Rewards
- 代码:RLHFlow/Directional-Preference-Alignment
- 关键词:multi-objective reward model、preference direction、RSF、arithmetic prompting。
DPA 很适合产品化理解:用户偏好被表示成 reward space 里的单位方向向量。比如 (1, 0) 偏向 helpfulness,(0, 1) 偏向 verbosity,(0.8, -0.6) 则表示更 helpful 但更少 verbose。
它的启发是:偏好控制不一定要靠自然语言 prompt 猜测,也可以显式使用数值向量。后续如果你想做“可调节助手”,DPA 是值得优先读的工作。
4.5 ArmoRM:多维、可解释的 Reward Model
- 论文:Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts
- 代码:RLHFlow/RLHF-Reward-Modeling
- 模型:ArmoRM-Llama3-8B-v0.1
- 关键词:absolute-rating、多目标 RM、MoE gating、RewardBench。
ArmoRM 的思路是先输出多个可解释维度的奖励,再由 gating network 做上下文相关的聚合。相比单分数 RM,它更适合诊断 reward hacking:到底是因为安全高、事实性高,还是只是迎合了长度偏置?
它也很适合作为其他多目标对齐方法的评估器或数据筛选器。实际做项目时,可以先用 ArmoRM 给已有数据打分,看看不同目标之间是否存在明显冲突。
4.6 CPO:把 3H 偏好显式条件化
- 论文:Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment
- 代码:OpenBMB/CPO
- 关键词:CPSFT、CDPO、UltraSafety、helpfulness / honesty / harmlessness。
CPO 的目标是缓解 alignment tax:提升 harmlessness 时,不要无谓牺牲 helpfulness 或 honesty。它把多目标偏好分数显式写入条件,使模型按指定目标组合生成回答。
如果你的任务是安全对齐,这个项目很值得参考,因为它围绕 3H 组织数据和实验,和真实助手类应用比较贴近。
4.7 MetaAligner:不改 policy 的多目标对齐
- 论文:MetaAligner: Towards Generalizable Multi-Objective Alignment of Language Models
- 代码:SteveKGYang/MetaAligner
- 关键词:policy-agnostic、weak-to-strong correction、unseen objectives。
MetaAligner 的独特之处是把多目标对齐做成一个外部修正器:给定原模型的弱回答和目标描述,生成更符合目标的强回答。这样可以在多个 policy model 上复用,也降低了每个模型单独对齐的训练成本。
它适合研究“对齐器”和“底座模型”解耦的方向,尤其适合没有权限微调闭源模型或超大模型的场景。
4.8 MORE:从奖励模型校准看多样化偏好
- 论文:On Diversified Preferences of Large Language Model Alignment
- 代码:dunzeng/MORE
- 关键词:diverse human preferences、reward calibration、ECE、multi-objective reward learning。
MORE 的关注点不是“如何控制一个偏好向量”,而是“人类偏好本身有分歧时,奖励模型会怎样”。它提出用校准误差评估 RM,并用多目标 reward learning 改善共享偏好上的表现。
如果你要构建自己的偏好数据集,这篇的价值很高:它提醒我们不要默认所有标注者共享同一个偏好函数。
4.9 SIPO:自改进走向 Pareto 更优
- 论文:Self-Improvement Towards Pareto Optimality: Mitigating Preference Conflicts in Multi-Objective Alignment
- 代码:zyttt-coder/SIPO
- 关键词:self-improvement、MOD sampling、review-rewrite-filter、conflict mitigation。
SIPO 面向偏好冲突问题,例如 correctness 和 verbosity。它先得到偏向不同目标的模型,然后通过 MOD sampling 生成候选,再用 review / rewrite / filter 形成更好的训练样本,最后再对齐。
这篇适合想做“迭代式数据改进”的同学:它不是只改 loss,而是把采样、评审、重写和再训练串成流程。
4.10 PARM:推理时对齐,冻结大模型
- 论文 / 代码:Baijiong-Lin/PARM
- 关键词:test-time alignment、preference-aware ARM、frozen LLM、weak-to-strong guidance。
PARM 的问题设定很现实:很多时候我们不想、也不能重新训练大模型。它训练一个 preference-aware autoregressive reward model,在解码阶段引导冻结 LLM 的生成。
如果算力有限,或业务侧已经固定了底座模型,PARM 这类 test-time alignment 方法会很有吸引力。
5. 复现路线建议
如果从零开始,不建议一上来就跑最复杂的 PPO / MORLHF。更稳的路线如下:
- 先读 DPO 和 MODPO:理解单目标偏好优化如何扩展到多目标。
- 跑 RiC 的小实验:它的代码中包含 RiC、SFT、MORLHF、Rewarded Soups 对比,最适合建立实验直觉。
- 用 ArmoRM 给数据打分:观察 helpfulness、safety、verbosity 等维度之间是否冲突。
- 尝试 CPO 或 DPA 做可控生成:把偏好向量变成推理时可调参数。
- 再看 MetaAligner / PARM:当你希望不改原模型参数,或对闭源模型做外部对齐时再深入。
6. 选题地图
| 研究问题 | 推荐起点 | 原因 |
|---|---|---|
| DPO 如何做多目标? | MODPO、CPO | 都是 DPO 系思路,工程迁移成本低 |
| 如何获得一条 Pareto front? | Rewarded Soups、SIPO | 直接围绕 Pareto 最优与权衡建模,且有公开代码可参考 |
| 如何做推理时动态控制? | RiC、DPA、PARM | 都支持偏好条件化或 test-time control |
| 如何训练多维 RM? | ArmoRM、MORE | 关注多目标奖励建模与校准 |
| 如何减少每个模型单独对齐成本? | MetaAligner、PARM | 一个偏向外部修正,一个偏向解码引导 |
| 如何构造更丰富偏好数据? | AMPO、MORE | 一个关注多候选选择,一个关注偏好多样性 |
7. 个人阅读顺序
如果目标是快速入门并能动手复现,我建议按这个顺序:
- Rewarded Soups:先建立 Pareto / 多奖励直觉。
- MODPO:理解 DPO 系多目标对齐的基本范式。
- RiC:上手 reward-conditioned SFT。
- ArmoRM:补上多维奖励模型。
- CPO 或 DPA:研究可控生成。
- MetaAligner / PARM:看更轻量的外部对齐和推理时对齐。
8. 小结
多目标对齐的关键趋势已经比较清晰:从“训练一个平均助手”转向“训练一个可表达偏好空间、可调节、可解释、可迁移的助手”。
短期看,MODPO / CPO / RiC 更适合工程复现;ArmoRM / MORE 更适合做评估和数据分析;MetaAligner / PARM 则代表了低成本、策略无关或推理时对齐方向。长期看,多目标对齐很可能会和个性化助手、企业安全策略、模型路由、RAG 质量控制结合,成为后训练系统里的基础能力。
参考链接
- MODPO paper: https://arxiv.org/abs/2310.03708
- MODPO code: https://github.com/ZHZisZZ/modpo
- Rewarded Soups paper: https://arxiv.org/abs/2306.04488
- Rewarded Soups code: https://github.com/alexrame/rewardedsoups
- RiC paper: https://arxiv.org/abs/2402.10207
- RiC code: https://github.com/YangRui2015/RiC
- DPA paper: https://arxiv.org/abs/2402.18571
- DPA code: https://github.com/RLHFlow/Directional-Preference-Alignment
- ArmoRM paper: https://arxiv.org/abs/2406.12845
- RLHFlow Reward Modeling code: https://github.com/RLHFlow/RLHF-Reward-Modeling
- CPO paper: https://arxiv.org/abs/2402.19085
- CPO code: https://github.com/OpenBMB/CPO
- MetaAligner paper: https://arxiv.org/abs/2403.17141
- MetaAligner code: https://github.com/SteveKGYang/MetaAligner
- MORE paper: https://arxiv.org/abs/2312.07401
- MORE code: https://github.com/dunzeng/MORE
- SIPO paper: https://arxiv.org/abs/2502.14354
- SIPO code: https://github.com/zyttt-coder/SIPO
- PARM code: https://github.com/Baijiong-Lin/PARM
- AMPO paper: https://arxiv.org/abs/2502.18293
- AMPO datasets: https://huggingface.co/Multi-preference-Optimization
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)