拒绝AI“一本正经地胡说八道”：2026年热门幻觉缓解GitHub项目全盘点

VYAKING

439人浏览 · 2026-04-20 12:59:55

VYAKING · 2026-04-20 12:59:55 发布

前言：当AI学会“自信地撒谎”

你有没有遇到过这样的场景：问AI一张图片里有什么，它信誓旦旦地说“有一个红色的气球”，但图片里明明什么都没有；让AI帮你查资料，它给你编造了一堆不存在的参考文献，还编得有模有样；写代码时AI助手自信满满地给出一个函数，结果那个函数压根就不存在。

这就是所谓的AI幻觉——模型以极高的置信度输出与事实不符的内容。

随着大模型在各个领域的普及，幻觉问题已经成为阻碍AI走向可信应用的最大拦路虎。好消息是，学术界和开源社区已经涌现出大量缓解幻觉的创新方案。本文盘点了2026年最值得关注的几个GitHub项目，它们从不同角度切入，共同目标是让AI学会“我知道就知道，不知道就说不知道”。

一、为什么AI会“睁眼说瞎话”？

在介绍具体项目之前，先简单理解一下幻觉的成因：

统计偏差：大模型本质上是“高级的概率预测器”，它学的是训练数据中的统计规律。如果数据里“红色气球”经常和“草地”一起出现，模型看图时可能“脑补”出并不存在的气球。
语言先验过强：尤其是在多模态模型中，语言模块的“惯性”太强，有时会忽略视觉输入，直接凭语言习惯生成内容。
缺乏自我纠错机制：传统模型生成答案是一次性完成的，没有“再检查一遍”的环节，错了也就错了。

理解了病因，我们来看看各路大神开出的“药方”。

二、2026年热门幻觉缓解项目盘点

1. MUG：让AI玩“谁是卧底”，在博弈中揪出幻觉

GitHub地址：https://github.com/YongLD/MUG

核心思想：别让AI们“一团和气”地投票——如果大家都在瞎说，投票只会让错误更自信。不如主动制造信息差，让一个模型当“卧底”看假图，然后通过多轮博弈把它揪出来。

这是入选AAAI 2026的工作，灵感竟然来自聚会游戏“谁是卧底”。

怎么玩的？

传统多智能体辩论的致命缺陷是：假设所有模型都是理性的。但如果每个模型都带着幻觉，它们的“共识”可能只是一群人一起胡说八道。

MUG的做法是：

准备两张图：一张真实图，一张“反事实图”（看起来很像，但关键细节被改了，比如把红色气球改成蓝色）
随机选一个模型当“卧底”，给它看反事实图；其他模型看真实图
多轮博弈：每个模型描述自己看到的，互相质疑，投票找出最可疑的那个
揪出“卧底”后，剩下的“清白”模型给出最终答案

效果有多强？

在Qwen2.5VL-7B模型上引入MUG后：

HallusionBench和POPE（专门测幻觉的基准）：比传统辩论方法平均提升13.0%以上
MMMU（跨学科综合考试）：精度提升约5%
大部分卧底能在两轮内被识别

为什么有效？

这个设计的精妙之处在于：信息不对称迫使模型给出足够细致的描述来证明自己“清白”。含糊其辞反而成了高风险策略，更鼓励模型主动做出细粒度推理。简单说，就是让AI们“互相监督”，比你一个人盯着它们管用多了。

适合谁关注？

对多模态、智能体博弈方向感兴趣的开发者
需要高可靠性视觉问答的场景（医疗影像分析、自动驾驶感知等）

2. Nullu：找到“幻觉子空间”，一键投影消除

GitHub地址：https://github.com/Ziwei-Zheng/Nullu

核心思想：研究发现，模型的幻觉其实集中在某个低维的“幻觉子空间”里。只要找到这个子空间，把模型的隐藏状态投影出去，幻觉就被“滤掉”了。

这个思路来自一个深刻的观察：大语言模型本身就带有“先验偏见”，这些偏见是多模态幻觉的重要来源。Nullu的做法是：用真实描述和幻觉描述作为对比，提取出幻觉特征的差异方向，构成一个“HalluSpace”（幻觉空间）。

怎么做的？

离线阶段：用真实图文对和幻觉图文对，提取模型内部表征的差异向量
奇异值分解：把这些差异向量堆叠起来做SVD，得到幻觉子空间的一组正交基
推理时：把模型的隐藏状态投影到幻觉子空间的正交补上——相当于把“想胡说八道”的部分切掉

亮点在哪？

无需重新训练：不需要昂贵的微调或重训练
零额外推理成本：投影操作极其轻量，几乎不影响推理速度
跨模型通用：在不同LVLM家族上都有效

适合谁关注？

对模型可解释性、表征工程感兴趣的算法工程师
需要在资源受限环境下部署、无法承受额外计算开销的场景

3. MARL：给LLM加一个“自我审查”中间件

项目主页：https://vidraft.net/ | Hugging Face/GitHub：搜索“VIDRAFT/MARL”

核心思想：不要试图一次生成正确答案，而是把回答过程拆成“规划→草稿→验证→修正”四个步骤，让模型自己检查自己。

MARL全称Model-Agnostic Runtime Middleware，是一个与模型无关的运行时中间件，由韩国AI初创公司VIDRAFT开发，2026年3月正式开源。

工作流程：

text

用户问题 → 规划(Plan) → 草稿(Draft) → 独立验证(Verify) → 修正(Revise) → 最终答案

每一步都有明确分工：

规划：模型先思考回答这个问题的思路和步骤
草稿：基于规划生成初步答案
验证：用独立的验证步骤检查草稿中的问题（这一步是“自我怀疑”的关键）
修正：基于验证结果生成修正后的最终答案

效果数据：

VIDRAFT自研的FINAL Bench评估框架发现，当前最先进的模型在“意识到自己可能错了”和“实际纠正错误”之间存在巨大鸿沟。MARL在困难任务上的提升最为显著，大部分改进来自于自纠错阶段。

特别之处：

MARL支持OpenAI API格式，意味着GPT、Claude、Gemini、DeepSeek、Llama等主流模型都能用，无需微调，代码改动极小。还针对药物发现、法律分析、创意写作等垂直领域提供了专门的推理引擎。

适合谁关注？

构建RAG应用、AI Agent的开发者
对模型“思维链”优化感兴趣的研究者
需要在生产环境中提升LLM可靠性的工程团队

4. CIPHER：用“反事实图片”教模型识别幻觉

项目主页：https://hamidreza-dastmalchi.github.io/cipher-cvpr2026/

核心思想：先故意制造“假图”（用扩散模型把图片里的某个对象改成不存在的），然后让模型对比真实图片和假图片的内部表征差异，从中学习什么样的特征会导致幻觉。

这是针对视觉语言模型中视觉诱发幻觉的解决方案。现有方法主要处理文本侧的幻觉，但很多幻觉其实根源于视觉模块——模型“看走眼”了。

两步走策略：

离线阶段——构建反事实数据集OHC-25K：

从MSCOCO数据集中选取图文对
用GPT-3.5修改图片描述（比如把“红苹果”改成“青苹果”）
用扩散模型基于修改后的描述生成一张“反事实图片”——整体看起来和原图很像，但关键对象被改了
让LVLM处理真实图文对和反事实图文对，提取表征差异，通过SVD得到“视觉幻觉子空间”

推理阶段——投影去幻觉：

输入真实图片时，提取中间层表征
向视觉幻觉子空间的正交补投影
用修正后的表征继续生成

效果：

多个基准测试显示，CIPHER显著降低了幻觉率，同时保持了模型在图像描述、视觉问答等任务上的整体性能。

适合谁关注？

多模态、视觉语言模型方向的研究者
对“数据驱动+表征编辑”混合思路感兴趣的人

5. CRoPS：同时处理视觉幻觉和文本幻觉

论文地址：arXiv:2601.00659

核心思想：之前的对比解码方法只扰动视觉输入，但生成到后面模型越来越依赖自己生成的文本，视觉信号的影响会衰减。CRoPS同时移除视觉标记和关键文本标记，让对比信号在整个生成过程中保持强烈。

这是一个无训练、推理时的幻觉缓解框架，来自IIT和新加坡国立大学的研究者。

关键洞察：

研究者发现了一个现象——视觉依赖性随时间衰减。生成初期，模型还依赖图像信息；但生成到后面，模型越来越依赖自己已经生成的文本，视觉输入的影响力大幅下降。而幻觉恰恰在后期最常出现。

这意味着：只扰动视觉输入的方法，在需要它发挥作用的时候反而最无力。

CRoPS的解法：

两个幻觉模型并用：
- 一个移除视觉标记 → 捕捉视觉相关的幻觉
- 一个移除关键文本标记 → 捕捉文本相关的幻觉
广义对比解码：整合多个幻觉模型的输出，而不是只用单一对比信号

效果：

在CHAIR（物体幻觉经典基准）上提升20%，在6个基准测试和3个LVLM家族上一致超越现有最佳无训练方法。

适合谁关注？

对对比解码、推理时干预技术路线感兴趣的研究者
想在现有模型上“零成本”降幻觉的开发者

三、横向对比：我该选哪个？

项目	核心方法	是否需要训练	适用场景	上手难度
MUG	多智能体博弈、反事实测试	否	多模态推理、高可靠性VQA	中
Nullu	表征空间投影	否（需离线计算子空间）	各类LVLM，追求零推理开销	低
MARL	多阶段自验证中间件	否	通用LLM应用、RAG、Agent	低
CIPHER	扩散反事实+子空间投影	否（需离线构建数据集）	视觉诱发幻觉严重的LVLM	中
CRoPS	双路对比解码	否	长文本生成、LVLM	中