Re-ranking Reasoning Context with Tree Search Makes Large Vision-Language Models Stronger

thesky123456

672人浏览 · 2026-03-25 09:00:00

thesky123456 · 2026-03-25 09:00:00 发布

核心提出了一种名为RCTS的多模态检索增强生成（RAG）框架，通过构建含推理上下文的知识库和树搜索重排序方法，解决了大视觉语言模型（LVLMs）在视觉问答（VQA）中存在的幻觉问题、指令失准、检索知识响应不稳定等痛点，在多个推理 / 非推理 VQA 数据集上实现了 SOTA 性能，显著优于零样本、上下文学习（ICL）和基础 RAG 方法。

一、研究背景与问题提出

1. 现有 LVLMs 的能力与痛点

大视觉语言模型（LVLMs）凭借多模态处理和上下文学习（ICL）能力，在 VQA 任务中表现突出，且多模态 RAG 技术通过检索外部知识库补充信息，有效降低了模型生成错误内容的概率。但现有方法仍存在核心问题：

幻觉问题：一是生成与现实事实不符的内容，二是生成与用户指令 / 问题错位的不稳定响应（指令失准）；
知识库缺陷：现有知识库仅包含视觉问答对，无详细推理过程，模型难以捕捉底层逻辑模式；
检索样本问题：检索的样本因 ICL 固有局限性和查询多样性，无法持续带来正向效果，且缺乏有效的重排序策略筛选高相关样本；
人工标注局限性：ICL 中手动构建少样本示例对可扩展性差，无法适配多样化的用户查询。

2. 核心研究方向

针对指令失准这一核心痛点，论文将研究聚焦于两个关键方向：

构建含推理上下文的知识库，优化生成过程并助力 ICL；
对检索样本进行策略性重排序，优先选择适配的样本，提升响应生成的效率和准确性。

二、核心贡献

论文的三大核心贡献为后续 LVLMs 的 VQA 性能提升提供了全新的框架和方法：

提出RCTS 多模态 RAG 框架：通过构建含推理上下文的综合知识库 + 高相关上下文重排序，显著增强 LVLMs 的 VQA 能力；
设计自动化推理上下文生成机制：基于 VQA 对实现知识库的推理上下文构建，并提出带启发式奖励的蒙特卡洛树搜索（MCTS-HR） 方法，对检索样本进行重排序；
大规模实验验证：在多个推理 / 非推理 VQA 数据集上实现性能大幅提升，证明了推理上下文和树搜索重排序机制的有效性。

三、RCTS 框架整体设计

RCTS 框架为无训练式多模态 RAG 框架，整体包含三大核心组件，框架流程如图 2 所示，核心目标是让 LVLMs 从 “仅知晓答案（known）” 升级为 “理解推理过程（know-how reasoning）”，最终输出更精准、一致的 VQA 响应。

基于自洽评估机制构建含推理上下文的知识库；
采用混合嵌入策略实现多模态知识库的相关样本检索；
提出带启发式奖励的改进 MCTS 算法对检索样本进行重排序。

整体流程：用户问题经混合嵌入检索得到 Top-N 样本，再通过 MCTS-HR 重排序得到 Top-K 含推理上下文的样本，与用户问题拼接后输入 LVLMs，最终生成答案。

四、方法论细节

3.1 问题定义

知识库：定义为包含 M 个视觉问答对的集合DKB={xi}i=1M，每个样本xi=(Ii,Qi,Ai,Ci)，其中Ii为图像、Qi为问题、Ai为参考答案、Ci为推理上下文；
核心目标：根据用户查询(Iu,Qu)从知识库中检索 K 个相关样本Xret，通过 LVLMs 模型G生成预测答案yˉ∼G([Iu;Qu;Xret])，让yˉ尽可能贴近真实答案，且框架可通过扩展知识库自适应多领域。

3.2 基于自洽评估的推理上下文生成

为解决现有知识库无推理过程的问题，论文借鉴 Auto-CoT 思想，设计自动化推理上下文生成 + 验证流程（图 3），核心是利用 LVLMs 的自洽机制生成候选推理上下文，并通过相互答案预测验证筛选最优解，步骤如下：

生成候选推理上下文：对知识库中的每个 VQA 对(Qkb,Akb)，由 LVLMs 生成Nc个候选推理上下文{Ci}i=1Nc；
预测答案并评分：将问题Qkb与每个候选Ci拼接，生成Np个预测答案，与真实答案Akb对比得到预测分数{Scorei}i=1Nc；
筛选最优上下文：选择得分最高的候选推理上下文作为该 VQA 对的关联Ci，纳入知识库。

3.3 基于混合嵌入的知识检索

为充分利用多模态信息（图像 + 文本问题），避免单一模态检索的信息丢失，采用混合嵌入检索策略，步骤如下：

模态嵌入：分别用文本编码器FL和图像编码器FI将用户问题的文本Qu和图像Iu编码为同维度d的嵌入向量ETu和EIu；
混合嵌入拼接：将文本和图像的 token 级嵌入拼接，得到用户查询的混合嵌入Eu=[ETu,EIu]；
知识库嵌入一致性：对知识库中的样本，剔除答案仅保留图像和文本问题，用相同方法生成混合嵌入集合EKB={[ETi,EIi]}i=1M；
相关性计算与检索：计算Eu与EKB中每个样本的相关性分数r(Eu,Ei)=∑j=1lumaxk=1liEujEik⊤，按分数选取 Top-N 相关样本作为后续重排序的候选。

3.4 基于带启发式奖励的树搜索的重排序（MCTS-HR）

这是论文的核心创新点，将样本重排序转化为序列决策问题，借鉴蒙特卡洛树搜索（MCTS）的探索 - 利用平衡能力，设计 MCTS-HR 对检索的 Top-N 样本重排序，筛选出最适配的 Top-K 样本，核心包含树搜索流程、动作构建与选择、启发式奖励设计、奖励反向传播四部分。

（1）MCTS-HR 整体流程

遵循标准 MCTS 的 “初始化 - 扩展 - 模拟 - 评估 - 反向传播” 循环，直至满足终止条件（最大模拟次数 / 早停）：

树初始化：用用户问题的零样本响应初始化根节点；
节点扩展：基于节点访问次数N(a)和节点值Q(a)，贪心选择未完全扩展的节点进行扩展；
动作选择：从检索样本构建的动作空间中采样动作，作为扩展节点；
分支模拟：达到最大树深度 K 时，将分支中的动作与用户问题拼接为 K-shot 提示，生成响应；
奖励评估：通过启发式奖励函数R评估响应，得到奖励值Q；
反向传播：将奖励值回传至父节点和祖先节点，更新树的价值信息；
UCT 更新：更新所有节点的树置信上界（UCT），指导下一轮探索。

（2）动作构建与选择

动作空间：将检索的 Top-N 样本作为候选动作A={[x1,s1],[x2,s2],...,[xN,sN]}，其中si为样本与用户查询的归一化相似度；
动作采样：设已选动作集合为C，有效动作空间为Avalid=A∖C，基于相似度的概率分布P(ai)=∑j,aj∈Avalidsjsi采样动作，直至达到最大深度 K。

（3）自洽 + 互启发式奖励设计

摒弃传统 MCTS 直接用语言模型作为奖励函数的方式，设计双启发式奖励，通过上下文一致性保证评分的可靠性和公平性，最终奖励为两者的加权和：

自洽启发式奖励（QS）：评估模型基于推理上下文生成答案的一致性。将用户问题与预测的推理上下文拼接，生成Ns个答案，若这些答案与原预测答案一致，则奖励高，公式为：QS,i=Ns1∑n=1NsR(A~i(n),A~i)其中R为基于规则的评估器，A~i为原预测答案，A~i(n)为新生成答案。
互启发式奖励（QM）：评估推理上下文对其他相关问题的正向迁移能力。从动作空间中选取Nm个样本作为参考问题，将用户问题 + 预测响应作为上下文，生成参考问题的答案，若与参考问题的真实答案一致，则奖励高，公式为：QM,i=Nm1∑n=1NmR(A~i(n),Aigt(n))
最终奖励：Qi=α⋅QS,i+(1−α)⋅QM,i，其中α为权重参数，控制两者的重要性，默认设为 0.2。

（4）奖励反向传播

当子节点的奖励值变化时，父节点p的奖励值Q(p)按以下公式更新，既考虑所有子节点的答案可靠性，也兼顾最优子节点的奖励值：Q′(p)=21(N(p)+1Q(p)⋅N(p)+Q(c)+maxi∈Children(p)Q(i))其中N(p)为父节点访问次数，Q(c)为变化的子节点奖励值，Children(p)为父节点的子节点集合。

五、实验设计与结果

4.1 实验数据集

论文在3 个推理型 VQA 数据集和2 个非推理型 VQA 数据集上开展实验，将数据集分为知识库（训练 / 验证集） 和评估集（测试 / 开发集），且两者无重复样本，数据集统计如下：

表格

评估集	规模	知识库	规模	数据集类型
ScienceQA test	4241	ScienceQA trainval	16967	推理型（中小学科学）
MMMU-Dev	150	MMMU-Val	900	推理型（大学多学科）
MathV testmini	304	MathV test	2736	推理型（多模态数学）
VizWiz val	4319	VizWiz train	20523	非推理型（盲人日常视觉问答）
VSR-MC test	1181	VSR-MC trainval	4440	非推理型（视觉空间推理）

4.2 实验设置

实验模型：选用不同规模 / 类型的主流 LVLMs，包括 Qwen2-VL（2B/7B）、InternVL-2（8B），7B 以上模型采用 AWQ 4 位量化部署；
编码器：文本编码器用冻结的 BERT-base，图像编码器用 ViT-L+2 层 MLP（均来自 PreFLMR）；
超参数：推理上下文生成Nc=Np=10，奖励评估Ns=Nm=5，MCTS-HR 最大树深度K=3、初始检索样本N=20、树最大宽度 3、最大模拟次数P=10、奖励权重α=0.2。

4.3 主实验结果

（1）推理型 VQA 数据集（Table 2）

RCTS 在所有推理数据集和 LVLMs 上均实现显著性能提升，核心结论：

相比零样本：Qwen2-VL（2B）在 ScienceQA 上提升 11.81%，MathV 上提升 3.29%；
相比 ICL（随机检索）：平均提升 3%，证明语义感知的样本选择 + 推理上下文的有效性；
相比 Vanilla-RAG（顶级检索）：所有模型上均提升超 3%（Qwen2-VL 7B 提升 4.2%，InternVL-2 8B 提升 3.9%），验证 MCTS-HR 重排序和推理上下文的协同作用。