大模型多目标对齐开源论文代码整理

m0_59012280

523人浏览 · 2026-05-20 09:24:57

m0_59012280 · 2026-05-20 09:24:57 发布

文章目录

概要

主题范围：LLM 多目标对齐、多偏好优化、帕累托对齐、可控偏好优化、多目标奖励模型。
选取标准：优先收录有论文链接且公开 GitHub / Hugging Face 数据或模型的项目。

1. 为什么要看“多目标对齐”

传统 RLHF / DPO 常把“人类偏好”压成一个标量奖励：回答更好就是 1，更差就是 0，或者由单个 Reward Model 给出一个分数。这个设定简单有效，但在真实产品里经常不够用，因为用户和场景通常同时关心多个目标：

Helpfulness：回答是否真正有用。
Harmlessness / Safety：是否避免危险、违法、歧视或越权建议。
Honesty / Factuality：是否诚实表达不确定性，是否少幻觉。
Conciseness / Verbosity：是否简洁，还是足够详细。
Style / Tone：是否幽默、正式、礼貌、适合特定用户。

这些目标经常互相拉扯。例如，安全性过强可能造成拒答泛化，有用性过强又可能牺牲安全边界；详细解释能提升帮助性，但也可能降低简洁性。多目标对齐的核心问题就是：不要训练一个“平均偏好”的模型，而是学会表示、控制和调整不同偏好之间的权衡。

2. 开源项目总览表

序号	论文 / 项目	年份 / 会议	核心关键词	开源内容	适合关注的问题
1	MODPO: Beyond One-Preference-Fits-All Alignment	ACL Findings 2024	Multi-Objective DPO, RL-free	GitHub	如何把 DPO 扩展到多目标偏好
2	Rewarded Soups	NeurIPS 2023	Pareto, model soup, multi-policy	GitHub	多个单目标模型如何插值出 Pareto 前沿
3	RiC: Rewards-in-Context	ICML 2024	Reward conditioning, inference-time control	GitHub	如何用上下文奖励条件实现动态偏好调节
4	DPA: Directional Preference Alignment	ACL 2024	reward vector, direction control, RSF	GitHub	如何用“方向向量”控制帮助性和冗长度等目标
5	ArmoRM: Interpretable Preferences via Multi-Objective Reward Modeling	EMNLP 2024	multi-objective RM, MoE, interpretability	GitHub / Model	如何训练可解释的多维奖励模型
6	CPO: Controllable Preference Optimization	EMNLP 2024	controllable alignment, 3H, CDPO	GitHub	如何显式指定 helpfulness / honesty / harmlessness 分数
7	MetaAligner	NeurIPS 2024	policy-agnostic, unseen objectives	GitHub	如何不改目标模型参数，做泛化多目标对齐
8	MORE: On Diversified Preferences	EMNLP 2024	diverse preferences, reward calibration	GitHub	多样化标注偏好如何影响奖励模型校准
9	SIPO: Self-Improvement Towards Pareto Optimality	2025	self-improvement, conflict mitigation	GitHub	如何缓解 correctness / verbosity 等偏好冲突
10	PARM: Multi-Objective Test-Time Alignment	ICML 2025	test-time alignment, autoregressive RM	GitHub	如何冻结 LLM，仅训练小奖励模型做推理时对齐
11	AMPO: Active Multi-Preference Optimization	ICML 2025	group preference, active selection	Datasets	多候选答案场景下如何选择最有信息量的偏好样本

3. 方法脉络：从“一个分数”到“一个偏好空间”

可以把这些工作粗略分成五条路线。

3.1 多目标 DPO / 直接偏好优化路线

代表项目：MODPO、CPO、SIPO、AMPO

这一路线继承 DPO 的优点：不显式训练 PPO 式 RLHF 策略，也不需要高成本在线采样。不同之处在于，它不再只优化一个偏好标签，而是把偏好拆成多个目标，或把多个候选回答组成更丰富的训练信号。

MODPO：把 DPO loss 加上多目标 margin，用不同目标权重引导模型在安全性、帮助性、长度惩罚等维度上移动。
CPO：把目标偏好分数写进条件，让模型根据指定的 3H 偏好生成回答。
SIPO：先得到偏向不同目标的模型，再通过采样、评审、重写、过滤和再对齐，推动结果靠近 Pareto 更优区域。
AMPO：关注一组候选回答，不只选 best / worst，而是主动挑选覆盖奖励极端值和语义簇的子集。

适合场景：已有偏好数据、希望复用 DPO 系列训练栈、希望训练成本比 PPO 低。

3.2 帕累托前沿 / 模型插值路线

代表项目：Rewarded Soups、SIPO

核心想法是：面对多个相互冲突的目标，不必强行找一个全局最优点，而是找一条 Pareto front。Rewarded Soups 先针对不同奖励分别微调多个模型，再做权重插值；SIPO 也使用模型插值 / MOD sampling 作为生成候选的关键步骤。

优点是直观、工程上容易理解；缺点是如果目标很多，模型数量和搜索空间会迅速扩大。

3.3 奖励条件化 / 推理时动态控制路线

代表项目：RiC、DPA、PARM

这一路线强调：同一个模型最好能在推理阶段根据用户偏好切换行为。

RiC：把多个 reward 作为上下文条件，SFT 一个能读懂奖励条件的模型。
DPA：把用户偏好表示成 reward space 里的方向向量，例如更 helpful、更少 verbose。
PARM：冻结大模型，用 preference-aware autoregressive reward model 在 test-time 引导解码。

适合场景：产品侧需要“滑杆式”控制，如更详细 / 更简洁、更安全 / 更直接。

3.4 多目标奖励模型路线

代表项目：ArmoRM、MORE

单一 Reward Model 的问题是黑箱且不可解释：它给出一个高分，但不知道高在哪个维度。ArmoRM 先训练多维 absolute-rating reward model，再用 MoE gating 根据上下文聚合目标；MORE 则关注多样化人类偏好对 RM 校准的影响，并提出 Multi-Objective Reward learning。

适合场景：你不一定马上训练策略模型，但需要更可靠的偏好评估器、reward reranker 或数据筛选器。

3.5 策略无关 / 插件式对齐路线

代表项目：MetaAligner

MetaAligner 的特点是 policy-agnostic：它不要求访问或微调目标 policy model 的参数，而是学习一种“弱回答到强回答”的条件修正能力。更有意思的是，它尝试通过目标描述泛化到未见过的对齐目标。

适合场景：闭源模型、多个底座模型共存、或算力不足以对每个 policy 都重新做一轮多目标训练。

4. 重点项目速读

4.1 MODPO：多目标版 DPO 的基准入口

论文：Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization
代码：ZHZisZZ/modpo
关键词：DPO、MORLHF 替代、多目标 margin、安全 vs 帮助性、长度偏置。

MODPO 的价值在于它把问题讲得很清楚：如果用 MORLHF 分别训练多个 reward weight 下的模型，成本和不稳定性都比较高；而 DPO 本身又是单目标的。MODPO 做的是把多目标权重并入 DPO 风格目标，让模型在不同 preference vector 下形成一组 Pareto 候选。

代码仓库提供了两个很适合入门的例子：BeaverTails 上的安全对齐，以及带长度惩罚的 summarization。想复现实验时，可以先跑 summarization，因为长度偏置更容易观察。

4.2 Rewarded Soups：用模型插值找 Pareto 解

论文：Rewarded soups: towards Pareto-optimal alignment by interpolating weights fine-tuned on diverse rewards
代码：alexrame/rewardedsoups
关键词：model soup、reward interpolation、Pareto-optimal、多策略。

Rewarded Soups 的思路非常工程友好：先针对每个 reward 各自训练一个模型，再对这些模型权重做线性插值。它的关键经验发现是：从同一个初始化出发、针对不同奖励微调后的模型，在权重空间里存在可用的线性连接。

如果你想理解“多目标对齐为什么不是简单平均奖励”，这篇很值得先看。它不仅覆盖文本任务，也涉及图文和控制任务，视野比纯 LLM 对齐更宽。

4.3 RiC：把 reward 写进上下文

论文：Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment
代码：YangRui2015/RiC
关键词：reward-conditioned SFT、动态偏好、低成本、多任务。

RiC 的优点是简洁：不走复杂 PPO，而是构造带 reward 条件的数据，让模型学会“看到目标分数后生成对应回答”。仓库中不仅有 RiC，也包含 SFT、MORLHF 和 Rewarded Soups 的对比实现，适合做横向复现。

一个很实用的细节：仓库支持 assistant 和 summary 两类任务，reward names 包括 harmless、helpful、humor、summary、faithful 等，适合快速构造自己的多目标实验。

4.4 DPA：用方向向量控制偏好

论文：Arithmetic Control of LLMs for Diverse User Preferences: Directional Preference Alignment with Multi-Objective Rewards
代码：RLHFlow/Directional-Preference-Alignment
关键词：multi-objective reward model、preference direction、RSF、arithmetic prompting。

DPA 很适合产品化理解：用户偏好被表示成 reward space 里的单位方向向量。比如 (1, 0) 偏向 helpfulness，(0, 1) 偏向 verbosity，(0.8, -0.6) 则表示更 helpful 但更少 verbose。

它的启发是：偏好控制不一定要靠自然语言 prompt 猜测，也可以显式使用数值向量。后续如果你想做“可调节助手”，DPA 是值得优先读的工作。

4.5 ArmoRM：多维、可解释的 Reward Model

论文：Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts
代码：RLHFlow/RLHF-Reward-Modeling
模型：ArmoRM-Llama3-8B-v0.1
关键词：absolute-rating、多目标 RM、MoE gating、RewardBench。

ArmoRM 的思路是先输出多个可解释维度的奖励，再由 gating network 做上下文相关的聚合。相比单分数 RM，它更适合诊断 reward hacking：到底是因为安全高、事实性高，还是只是迎合了长度偏置？

它也很适合作为其他多目标对齐方法的评估器或数据筛选器。实际做项目时，可以先用 ArmoRM 给已有数据打分，看看不同目标之间是否存在明显冲突。

4.6 CPO：把 3H 偏好显式条件化

论文：Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment
代码：OpenBMB/CPO
关键词：CPSFT、CDPO、UltraSafety、helpfulness / honesty / harmlessness。

CPO 的目标是缓解 alignment tax：提升 harmlessness 时，不要无谓牺牲 helpfulness 或 honesty。它把多目标偏好分数显式写入条件，使模型按指定目标组合生成回答。

如果你的任务是安全对齐，这个项目很值得参考，因为它围绕 3H 组织数据和实验，和真实助手类应用比较贴近。

4.7 MetaAligner：不改 policy 的多目标对齐

论文：MetaAligner: Towards Generalizable Multi-Objective Alignment of Language Models
代码：SteveKGYang/MetaAligner
关键词：policy-agnostic、weak-to-strong correction、unseen objectives。

MetaAligner 的独特之处是把多目标对齐做成一个外部修正器：给定原模型的弱回答和目标描述，生成更符合目标的强回答。这样可以在多个 policy model 上复用，也降低了每个模型单独对齐的训练成本。

它适合研究“对齐器”和“底座模型”解耦的方向，尤其适合没有权限微调闭源模型或超大模型的场景。

4.8 MORE：从奖励模型校准看多样化偏好

论文：On Diversified Preferences of Large Language Model Alignment
代码：dunzeng/MORE
关键词：diverse human preferences、reward calibration、ECE、multi-objective reward learning。

MORE 的关注点不是“如何控制一个偏好向量”，而是“人类偏好本身有分歧时，奖励模型会怎样”。它提出用校准误差评估 RM，并用多目标 reward learning 改善共享偏好上的表现。

如果你要构建自己的偏好数据集，这篇的价值很高：它提醒我们不要默认所有标注者共享同一个偏好函数。

4.9 SIPO：自改进走向 Pareto 更优

论文：Self-Improvement Towards Pareto Optimality: Mitigating Preference Conflicts in Multi-Objective Alignment
代码：zyttt-coder/SIPO
关键词：self-improvement、MOD sampling、review-rewrite-filter、conflict mitigation。

SIPO 面向偏好冲突问题，例如 correctness 和 verbosity。它先得到偏向不同目标的模型，然后通过 MOD sampling 生成候选，再用 review / rewrite / filter 形成更好的训练样本，最后再对齐。

这篇适合想做“迭代式数据改进”的同学：它不是只改 loss，而是把采样、评审、重写和再训练串成流程。

4.10 PARM：推理时对齐，冻结大模型

论文 / 代码：Baijiong-Lin/PARM
关键词：test-time alignment、preference-aware ARM、frozen LLM、weak-to-strong guidance。

PARM 的问题设定很现实：很多时候我们不想、也不能重新训练大模型。它训练一个 preference-aware autoregressive reward model，在解码阶段引导冻结 LLM 的生成。

如果算力有限，或业务侧已经固定了底座模型，PARM 这类 test-time alignment 方法会很有吸引力。

5. 复现路线建议

如果从零开始，不建议一上来就跑最复杂的 PPO / MORLHF。更稳的路线如下：

先读 DPO 和 MODPO：理解单目标偏好优化如何扩展到多目标。
跑 RiC 的小实验：它的代码中包含 RiC、SFT、MORLHF、Rewarded Soups 对比，最适合建立实验直觉。
用 ArmoRM 给数据打分：观察 helpfulness、safety、verbosity 等维度之间是否冲突。
尝试 CPO 或 DPA 做可控生成：把偏好向量变成推理时可调参数。
再看 MetaAligner / PARM：当你希望不改原模型参数，或对闭源模型做外部对齐时再深入。

6. 选题地图

研究问题	推荐起点	原因
DPO 如何做多目标？	MODPO、CPO	都是 DPO 系思路，工程迁移成本低
如何获得一条 Pareto front？	Rewarded Soups、SIPO	直接围绕 Pareto 最优与权衡建模，且有公开代码可参考
如何做推理时动态控制？	RiC、DPA、PARM	都支持偏好条件化或 test-time control
如何训练多维 RM？	ArmoRM、MORE	关注多目标奖励建模与校准
如何减少每个模型单独对齐成本？	MetaAligner、PARM	一个偏向外部修正，一个偏向解码引导
如何构造更丰富偏好数据？	AMPO、MORE	一个关注多候选选择，一个关注偏好多样性

7. 个人阅读顺序

如果目标是快速入门并能动手复现，我建议按这个顺序：

Rewarded Soups：先建立 Pareto / 多奖励直觉。
MODPO：理解 DPO 系多目标对齐的基本范式。
RiC：上手 reward-conditioned SFT。
ArmoRM：补上多维奖励模型。
CPO 或 DPA：研究可控生成。
MetaAligner / PARM：看更轻量的外部对齐和推理时对齐。

8. 小结

多目标对齐的关键趋势已经比较清晰：从“训练一个平均助手”转向“训练一个可表达偏好空间、可调节、可解释、可迁移的助手”。

短期看，MODPO / CPO / RiC 更适合工程复现；ArmoRM / MORE 更适合做评估和数据分析；MetaAligner / PARM 则代表了低成本、策略无关或推理时对齐方向。长期看，多目标对齐很可能会和个性化助手、企业安全策略、模型路由、RAG 质量控制结合，成为后训练系统里的基础能力。