拒绝AI“一本正经地胡说八道”:2026年热门幻觉缓解GitHub项目全盘点
前言:当AI学会“自信地撒谎”
你有没有遇到过这样的场景:问AI一张图片里有什么,它信誓旦旦地说“有一个红色的气球”,但图片里明明什么都没有;让AI帮你查资料,它给你编造了一堆不存在的参考文献,还编得有模有样;写代码时AI助手自信满满地给出一个函数,结果那个函数压根就不存在。
这就是所谓的AI幻觉——模型以极高的置信度输出与事实不符的内容。
随着大模型在各个领域的普及,幻觉问题已经成为阻碍AI走向可信应用的最大拦路虎。好消息是,学术界和开源社区已经涌现出大量缓解幻觉的创新方案。本文盘点了2026年最值得关注的几个GitHub项目,它们从不同角度切入,共同目标是让AI学会“我知道就知道,不知道就说不知道”。
一、为什么AI会“睁眼说瞎话”?
在介绍具体项目之前,先简单理解一下幻觉的成因:
-
统计偏差:大模型本质上是“高级的概率预测器”,它学的是训练数据中的统计规律。如果数据里“红色气球”经常和“草地”一起出现,模型看图时可能“脑补”出并不存在的气球。
-
语言先验过强:尤其是在多模态模型中,语言模块的“惯性”太强,有时会忽略视觉输入,直接凭语言习惯生成内容。
-
缺乏自我纠错机制:传统模型生成答案是一次性完成的,没有“再检查一遍”的环节,错了也就错了。
理解了病因,我们来看看各路大神开出的“药方”。
二、2026年热门幻觉缓解项目盘点
1. MUG:让AI玩“谁是卧底”,在博弈中揪出幻觉
GitHub地址:https://github.com/YongLD/MUG
核心思想:别让AI们“一团和气”地投票——如果大家都在瞎说,投票只会让错误更自信。不如主动制造信息差,让一个模型当“卧底”看假图,然后通过多轮博弈把它揪出来。
这是入选AAAI 2026的工作,灵感竟然来自聚会游戏“谁是卧底”。
怎么玩的?
传统多智能体辩论的致命缺陷是:假设所有模型都是理性的。但如果每个模型都带着幻觉,它们的“共识”可能只是一群人一起胡说八道。
MUG的做法是:
-
准备两张图:一张真实图,一张“反事实图”(看起来很像,但关键细节被改了,比如把红色气球改成蓝色)
-
随机选一个模型当“卧底”,给它看反事实图;其他模型看真实图
-
多轮博弈:每个模型描述自己看到的,互相质疑,投票找出最可疑的那个
-
揪出“卧底”后,剩下的“清白”模型给出最终答案
效果有多强?
在Qwen2.5VL-7B模型上引入MUG后:
-
HallusionBench和POPE(专门测幻觉的基准):比传统辩论方法平均提升13.0%以上
-
MMMU(跨学科综合考试):精度提升约5%
-
大部分卧底能在两轮内被识别
为什么有效?
这个设计的精妙之处在于:信息不对称迫使模型给出足够细致的描述来证明自己“清白”。含糊其辞反而成了高风险策略,更鼓励模型主动做出细粒度推理。简单说,就是让AI们“互相监督”,比你一个人盯着它们管用多了。
适合谁关注?
-
对多模态、智能体博弈方向感兴趣的开发者
-
需要高可靠性视觉问答的场景(医疗影像分析、自动驾驶感知等)
2. Nullu:找到“幻觉子空间”,一键投影消除
GitHub地址:https://github.com/Ziwei-Zheng/Nullu
核心思想:研究发现,模型的幻觉其实集中在某个低维的“幻觉子空间”里。只要找到这个子空间,把模型的隐藏状态投影出去,幻觉就被“滤掉”了。
这个思路来自一个深刻的观察:大语言模型本身就带有“先验偏见”,这些偏见是多模态幻觉的重要来源。Nullu的做法是:用真实描述和幻觉描述作为对比,提取出幻觉特征的差异方向,构成一个“HalluSpace”(幻觉空间)。
怎么做的?
-
离线阶段:用真实图文对和幻觉图文对,提取模型内部表征的差异向量
-
奇异值分解:把这些差异向量堆叠起来做SVD,得到幻觉子空间的一组正交基
-
推理时:把模型的隐藏状态投影到幻觉子空间的正交补上——相当于把“想胡说八道”的部分切掉
亮点在哪?
-
无需重新训练:不需要昂贵的微调或重训练
-
零额外推理成本:投影操作极其轻量,几乎不影响推理速度
-
跨模型通用:在不同LVLM家族上都有效
适合谁关注?
-
对模型可解释性、表征工程感兴趣的算法工程师
-
需要在资源受限环境下部署、无法承受额外计算开销的场景
3. MARL:给LLM加一个“自我审查”中间件
项目主页:https://vidraft.net/ | Hugging Face/GitHub:搜索“VIDRAFT/MARL”
核心思想:不要试图一次生成正确答案,而是把回答过程拆成“规划→草稿→验证→修正”四个步骤,让模型自己检查自己。
MARL全称Model-Agnostic Runtime Middleware,是一个与模型无关的运行时中间件,由韩国AI初创公司VIDRAFT开发,2026年3月正式开源。
工作流程:
text
用户问题 → 规划(Plan) → 草稿(Draft) → 独立验证(Verify) → 修正(Revise) → 最终答案
每一步都有明确分工:
-
规划:模型先思考回答这个问题的思路和步骤
-
草稿:基于规划生成初步答案
-
验证:用独立的验证步骤检查草稿中的问题(这一步是“自我怀疑”的关键)
-
修正:基于验证结果生成修正后的最终答案
效果数据:
VIDRAFT自研的FINAL Bench评估框架发现,当前最先进的模型在“意识到自己可能错了”和“实际纠正错误”之间存在巨大鸿沟。MARL在困难任务上的提升最为显著,大部分改进来自于自纠错阶段。
特别之处:
MARL支持OpenAI API格式,意味着GPT、Claude、Gemini、DeepSeek、Llama等主流模型都能用,无需微调,代码改动极小。还针对药物发现、法律分析、创意写作等垂直领域提供了专门的推理引擎。
适合谁关注?
-
构建RAG应用、AI Agent的开发者
-
对模型“思维链”优化感兴趣的研究者
-
需要在生产环境中提升LLM可靠性的工程团队
4. CIPHER:用“反事实图片”教模型识别幻觉
项目主页:https://hamidreza-dastmalchi.github.io/cipher-cvpr2026/
核心思想:先故意制造“假图”(用扩散模型把图片里的某个对象改成不存在的),然后让模型对比真实图片和假图片的内部表征差异,从中学习什么样的特征会导致幻觉。
这是针对视觉语言模型中视觉诱发幻觉的解决方案。现有方法主要处理文本侧的幻觉,但很多幻觉其实根源于视觉模块——模型“看走眼”了。
两步走策略:
离线阶段——构建反事实数据集OHC-25K:
-
从MSCOCO数据集中选取图文对
-
用GPT-3.5修改图片描述(比如把“红苹果”改成“青苹果”)
-
用扩散模型基于修改后的描述生成一张“反事实图片”——整体看起来和原图很像,但关键对象被改了
-
让LVLM处理真实图文对和反事实图文对,提取表征差异,通过SVD得到“视觉幻觉子空间”
推理阶段——投影去幻觉:
-
输入真实图片时,提取中间层表征
-
向视觉幻觉子空间的正交补投影
-
用修正后的表征继续生成
效果:
多个基准测试显示,CIPHER显著降低了幻觉率,同时保持了模型在图像描述、视觉问答等任务上的整体性能。
适合谁关注?
-
多模态、视觉语言模型方向的研究者
-
对“数据驱动+表征编辑”混合思路感兴趣的人
5. CRoPS:同时处理视觉幻觉和文本幻觉
论文地址:arXiv:2601.00659
核心思想:之前的对比解码方法只扰动视觉输入,但生成到后面模型越来越依赖自己生成的文本,视觉信号的影响会衰减。CRoPS同时移除视觉标记和关键文本标记,让对比信号在整个生成过程中保持强烈。
这是一个无训练、推理时的幻觉缓解框架,来自IIT和新加坡国立大学的研究者。
关键洞察:
研究者发现了一个现象——视觉依赖性随时间衰减。生成初期,模型还依赖图像信息;但生成到后面,模型越来越依赖自己已经生成的文本,视觉输入的影响力大幅下降。而幻觉恰恰在后期最常出现。
这意味着:只扰动视觉输入的方法,在需要它发挥作用的时候反而最无力。
CRoPS的解法:
-
两个幻觉模型并用:
-
一个移除视觉标记 → 捕捉视觉相关的幻觉
-
一个移除关键文本标记 → 捕捉文本相关的幻觉
-
-
广义对比解码:整合多个幻觉模型的输出,而不是只用单一对比信号
效果:
在CHAIR(物体幻觉经典基准)上提升20%,在6个基准测试和3个LVLM家族上一致超越现有最佳无训练方法。
适合谁关注?
-
对对比解码、推理时干预技术路线感兴趣的研究者
-
想在现有模型上“零成本”降幻觉的开发者
三、横向对比:我该选哪个?
| 项目 | 核心方法 | 是否需要训练 | 适用场景 | 上手难度 |
|---|---|---|---|---|
| MUG | 多智能体博弈、反事实测试 | 否 | 多模态推理、高可靠性VQA | 中 |
| Nullu | 表征空间投影 | 否(需离线计算子空间) | 各类LVLM,追求零推理开销 | 低 |
| MARL | 多阶段自验证中间件 | 否 | 通用LLM应用、RAG、Agent | 低 |
| CIPHER | 扩散反事实+子空间投影 | 否(需离线构建数据集) | 视觉诱发幻觉严重的LVLM | 中 |
| CRoPS | 双路对比解码 | 否 | 长文本生成、LVLM | 中 |
快速选择指南:
-
想要“拿来就能用”:MARL(加几行代码就生效)
-
对多模态幻觉最头疼:MUG(博弈思路最巧妙)或Nullu(最轻量)
-
做研究、想深入理解幻觉机制:CIPHER或CRoPS(论文质量高,思路有启发性)
-
资源受限、零额外开销:Nullu(投影操作几乎不花时间)
四、这些项目的共同趋势:从“治标”到“治本”
回顾这5个项目,可以发现2026年幻觉缓解研究的几个趋势:
趋势1:从“后验检测”到“主动预防”
早期的工作大多是“生成了再检测”,准确率有限且无法阻止错误发生。现在的主流是推理时干预——在模型生成的过程中就进行校正,不让错误“生出来”。
趋势2:从“单一策略”到“多策略融合”
无论是MUG的多智能体博弈、CRoPS的多幻觉模型对比,还是MARL的多阶段验证,都在证明:没有一个万能方案能解决所有幻觉问题。用多个视角、多个机制相互补充,才是正道。
趋势3:从“黑盒调优”到“可解释干预”
Nullu、CIPHER这类工作代表了一个新方向:找到幻觉的结构化表征(子空间),然后做手术刀式的精确干预。这不仅效果好,还让我们更理解幻觉是怎么产生的。
趋势4:从“开源模型专用”到“闭源模型兼容”
MARL通过前向传播机制工作,不依赖梯度或参数访问,这意味着GPT-4、Claude等闭源模型也能用。这对企业级应用意义重大。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)