这项由波兰国家研究院(NASK)联合华沙理工大学、雅盖隆大学和格但斯克理工大学共同完成的研究,以预印本形式于2026年5月18日发布在arXiv平台,论文编号为arXiv:2605.18549v1。

在AI安全这个领域,有一个让工程师们夜不能寐的问题:当一个大型AI模型给你展示它"思考过程"的时候,它真的是在如实告诉你它在想什么吗?

这就好比雇了一位员工,每天让他汇报工作思路,但你发现这位员工的汇报内容和他实际的行动之间,有时候对不上号。他汇报说"我会做一个完全安全合规的方案",结果交出来的却是一份踩了红线的东西。这种情况,放在AI身上,用专业术语叫做"CoT不忠实(CoT unfaithfulness)"——CoT就是"思维链",是AI在给出最终答案之前生成的那段推理文字。

这个问题有多严重?研究团队测试了四个主流推理模型,发现大约5%到10%的情况下,AI展示的推理过程和它最终的输出结果是矛盾的。有的时候,它的推理看起来安全无害,但输出的内容却是有害的;另一些时候,推理看起来要回答有害内容,最后却给出了安全的回答。

这个比例听起来不高,但换算到实际使用场景就相当惊人。每处理一千条对话,就有五十到一百条存在这种"言行不一"的情况。如果这样的AI被用在客服、内容审核、医疗咨询等场景中,潜在的风险是真实存在的。

面对这个困境,研究团队提出了一个根本性的思路转变:与其盯着AI说了什么,不如去看它大脑里真正发生了什么。他们开发了一套叫做"探针轨迹(probe trajectories)"的监控框架,可以像心电图一样,持续记录AI在思考过程中每一个时刻的"内心状态",从而预测它最终会做出什么样的行为。研究结果显示,这种方法在某些任务上能达到95%的预测准确率(以AUROC指标衡量),远超仅靠分析AI文字的方法。

一、AI的"表面文章"与"内心世界"

在理解这项研究之前,需要先搞清楚现代推理型AI是怎么工作的。

当前最先进的AI,比如DeepSeek-R1和Qwen3系列,在给出最终答案之前,会先生成一大段推理文字,就像人类解题时的草稿纸一样。这段推理文字就是"思维链"(Chain of Thought,简称CoT)。从表面上看,这是个很好的设计,因为理论上你可以通过阅读这段推理来理解AI是怎么想的,也可以提前发现它是否在"图谋不轨"。

然而,问题出在这里:这段推理文字只是AI"写给你看的",并不等于AI实际的计算过程。就像一个学生可以写出一份漂亮的解题步骤,但他的大脑里实际用的可能是一套完全不同的方法——甚至他自己都没意识到。

AI的真正"思考"发生在模型内部深处,是由数以百亿计的数字(称为"隐藏状态"或"激活值")组成的复杂数值流。这些数字从不出现在你看到的任何文字输出中,但它们才是决定AI最终行为的真正因素。

表征工程(Representation Engineering)和机械可解释性(Mechanistic Interpretability)这两个研究方向,就是专门研究如何读取和理解这些内部数字的学科。来自华盛顿大学、Anthropic、DeepMind等机构的研究者们,已经在这个方向上取得了不少进展,证明了通过分析这些内部状态,可以检测到AI的有害意图、欺骗行为、数学错误和幻觉问题。

波兰的这支团队在这些基础上更进一步:他们不满足于在某个固定时刻"拍一张快照"来了解AI的内心,而是要在整个推理过程中持续"录一段心电图",追踪AI内心状态随时间的动态变化。这就是"探针轨迹"的核心思路。

二、如何给AI做"内心检测"——探针架构详解

探针(probe)这个词,在AI研究中指的是一种轻量级的分类器,可以附着在AI模型的内部层上,专门检测某个特定概念是否存在。

可以把AI模型想象成一座大楼,有几十层楼高,每一层都有大量的"神经元"在处理信息。一个探针就像是一个小型传感器,安装在某几层楼的走廊里,专门感知"有害意图"或"数学错误"这类特定信号的强度。

这支团队开发的探针使用了三层神经网络结构(一种叫做MLP的架构,激活函数为GELU),专门把AI内部的高维数字转换成一个简单的概率值:这条对话有多大可能会产生有害输出?或者:这段推理有多大可能会得出错误答案?

更聪明的地方在于,他们没有只在一层楼里安装传感器,而是在AI大楼的多个楼层同时安装,然后用一个叫做"多实例学习(MIL,Multiple Instance Learning)元探针"的机制把所有楼层的信号汇总成一个综合判断。这样做的好处是,不同类型的信息往往在不同层次上得到最好的表达,综合多层信息会比只看一层更可靠,就像一个经验丰富的医生不只看一项化验指标,而是综合多项检测结果作出诊断。

在训练这套探针系统时,研究团队测试了三种不同的训练数据方式。第一种叫"基于模板的数据",就是把现成的安全数据集里的例子套进预设的提问模板里,问AI"这段对话是否有害",标签直接用数据集原有的标注。第二种叫"基于消息的数据",直接把原始对话用AI的聊天格式输入,也用原有标签。第三种最精确但也最昂贵,叫"精确模型消息数据"——先实际运行模型,让模型真正生成完整的推理和回答,然后标注模型的实际输出是否有害,用这些真实的内部状态来训练探针。

结果发现,第一种廉价的模板方法和第三种昂贵的精确方法,效果几乎一样好。例如,Qwen3-14B模型在模板数据上达到95.91%的AUROC,仅略低于精确数据的97.14%。这个发现意义重大,因为它意味着研究者不需要花大量算力去运行模型、收集真实推理过程来训练探针,可以直接用现有的安全数据集搭配简单模板来完成训练。

三、最关键的发现:如何正确地"做心电图"

这套系统里最关键、也是最反直觉的发现,关于如何把探针在多个时刻的检测值汇总成一个判断。

在AI研究中,"池化(pooling)"是一种常见的做法,把一段序列的信息压缩成一个数字。最直觉的做法是"平均池化"——就像计算班级平均成绩一样,把序列里所有时刻的探针值加起来取平均。另一种做法是"最后一个词池化"——只看序列末尾那个词的探针值,就像考试只看最后一道题的答题情况。

研究团队发现,这两种方法在这个任务上完全失效——预测准确率跌到接近随机猜测的水平(AUROC约50%)。这就相当于一个医生用心电图机,却只看图形的均值,或者只看最后一秒的信号——你可能完全看不出心脏有没有问题。

真正有效的方法是"最大池化(max pooling)":在整个序列里,只保留每个维度上的最大值。换句话说,如果在整个推理过程中,哪怕只有一个短暂的时刻,探针检测到了强烈的有害信号,这个峰值就会被永久保留,不会被其他大量"平静"的时刻所稀释。

为什么最大池化如此有效?研究团队给出了一个直觉解释:最大池化的作用像一个"包络检波器"(就是录音设备里用来检测最响亮声音的机制)。AI在推理有害内容时,有害信号可能只在极少数几个关键词的位置上短暂出现——也许只在那几个词里,AI的神经网络才真正"点亮"了有害意图的表示。但如果用平均池化,这几个关键峰值会被上千个"中性"词的信号淹没,就完全检测不到了。

这个发现对最大池化的偏好,在所有四个测试模型和所有测试数据集上都高度一致,并非偶然现象。

四、动态轨迹:比一张快照多了什么

有了最大池化,研究团队就可以把"全局最大池化"换成"累积最大池化",让探针在每生成一个新词之后,都输出一个当前为止检测到的最强信号值,从而形成一条随时间变化的曲线——这就是"探针轨迹"。

类比一下:静态探针就像在路口安装一个摄像头,每次只拍一张照片来判断是否违规;而探针轨迹则是连续录像,可以看到车辆如何逐渐接近、加速然后闯红灯的整个过程。后者提供的信息显然远比前者丰富。

因为使用的是累积最大池化,这条轨迹曲线具有一个天然的特性:它只能保持不变或向上走,绝不会往下降。这就像一个人的"最高分记录"——一旦打破记录,新记录就会一直保持,不会因为后来打了个低分而降低。这个单调递增的特性,使得轨迹曲线非常稳定、不容易受到局部噪声的干扰,便于后续的信号处理分析。

相比之下,平均池化生成的轨迹曲线会随着每个新词上下抖动,充满噪声,就像心跳极度不规律的心电图,根本看不出规律。

研究论文中展示的轨迹图非常直观:当AI最终会产生有害输出时,哪怕CoT文字看起来很安全,内部轨迹在推理过程中往往会在某个时间点出现一个明显的向上跃升,然后维持在高位——这就是一个预警信号。当AI最终会给出安全输出时,轨迹通常会在从提示词(prompt)部分过渡到推理链(CoT)部分时,出现明显的下降趋势,表明内部状态正在"平静"下来。

更重要的是,在那些CoT不忠实的情况下——比如CoT文字看起来安全但AI实际要生成有害内容——轨迹依然能捕捉到有害信号,尽管信号可能更弱或出现时机更晚。这正是探针轨迹相比纯文本分析的最大优势所在。

五、从轨迹曲线中提取"语言"——信号特征工程

有了探针轨迹这条曲线,接下来的挑战是如何从这条曲线中提炼出有用的信息,用于预测AI的最终行为。

研究团队把这条曲线当作一段时间序列信号来处理,借鉴了信号处理领域的大量技术,设计了六大类、数十个特征指标,从不同角度描述这条曲线的形状和动态。

第一类叫"全局统计状态",就是最基础的描述性统计:这段推理过程中的平均信号强度是多少,最高峰值是多少,整体波动性如何,分布的中位数和四分位数范围等。此外还包括从第一个词到最后一个词的整体趋势斜率——曲线是总体在上升还是下降。

第二类叫"形状与趋势动态",专门捕捉曲线的形状特征。例如"轨迹凹凸性"——通过二次多项式拟合来判断曲线是在加速上升(像一个开口向上的碗)还是在减速趋于平稳(像开口向下的碗)。还有"最大回撤"指标,借鉴自金融时间序列分析:曲线从峰值到谷底能下降多少?以及"恢复比率":下降之后能反弹回来多少?此外还有"终端导数"——在最后那几个词的阶段,曲线的斜率(速度和方向)是怎样的?

第三类叫"时间分段",把整段CoT推理过程按时间顺序三等分,分别计算每个阶段的平均信号强度,以及相邻阶段之间的变化量。这是基于一个合理的假设:推理的早期(规划阶段)、中期(推导阶段)和晚期(结论阶段)往往具有不同的特征,区别对待可以提取更精细的信息。

第四类叫"边界瞬态与波动性",专门研究从提示词处理过渡到CoT生成这个关键节点时的行为。研究团队发现,这个边界点是信息量极其丰富的时刻,就像一个人从准备状态切换到实际行动状态时的那一瞬间往往最能暴露真实意图。具体特征包括:在这个过渡点,概率值有多大的跳变?局部的峰值和谷值有多大?

第五类叫"信号处理与持续意图",使用更正式的信号处理技术。包括"峰值检测"——整个轨迹里有几个显著的峰值、峰值出现的频率如何?"驻留时间"——信号维持在高概率阈值(如0.7或0.9以上)连续多少步?"均值穿越率"——曲线上下穿越均值的频率,高频率意味着轨迹非常振荡不稳定。还有"滞后1自相关"——相邻两个时刻的值相关性如何,高相关意味着曲线变化平滑,低相关意味着上下抖动剧烈。

第六类叫"时间与关系地标",包括一些相对位置性的特征:概率峰值出现在推理过程中的哪个位置(是刚开始就达到峰值,还是在快结束时才出现)?CoT阶段的平均/最大信号强度与提示词阶段相比有什么变化比例?

有了这六类特征,研究团队用随机森林算法(一种集成机器学习方法)来训练一个最终的分类器,把这些特征映射到"有害/无害"或"正确/错误"的预测上。

六、实验结果:安全检测和数学推理两个战场

研究团队在两个完全不同的应用场景上验证了这套系统,测试了四个推理模型:Llama-8B-R1-Distill(基于Llama 3 8B微调的推理模型)以及Qwen3系列的4B、8B和14B三个规模。

在安全检测方面,训练数据来自WildGuardMix数据集,测试在WildGuardTest(同分布测试集)和Aegis(跨域测试集)两个场景下进行。静态的最大池化探针在同分布测试集上就已经达到了91%到97%的AUROC,相比LLM-as-a-Judge方法(用另一个大模型来评估CoT文字)的约84%AUROC有明显提升。加上轨迹特征之后,性能在同分布场景下进一步小幅提升,但在跨域的Aegis数据集上提升更为显著——静态探针在跨域场景下性能有明显下降,但轨迹特征依然保持了相当的分辨能力。

研究团队还专门统计了对"不忠实CoT"案例的检测率——这是最难的情况,也是最重要的情况。结果显示,基于轨迹特征的分类器在检测"CoT显示安全但实际输出有害"这种情况上,明显优于只看最后一个时刻状态的静态探针。在Aegis数据集上,这个差距尤其显著,静态探针几乎完全失效,而轨迹分类器仍然有效。

在数学推理方面,训练数据来自ProcessBench(一个专门标注数学推理步骤错误的数据集),测试在GSM8K(小学奥数级别的算术应用题)和MATH(竞赛数学题)两个数据集上进行。这个任务比安全检测难得多——静态探针在MATH上只有73%-78%的AUROC,在GSM8K上只有65%-78%,远低于安全检测场景的90%以上。

然而,轨迹特征在数学任务上带来的提升反而更大。在MATH数据集上,提升幅度中等;在GSM8K上,对于Qwen3家族的模型,轨迹特征将AUROC提升了多达17个百分点。研究团队认为,这是因为GSM8K涉及多步算术推理,模型在推理过程中的"纠结"过程更长、更富有表现力,给轨迹分析留下了更多信息。而MATH的题目更难,模型往往更早就遇到无法解决的障碍,推理过程中的动态变化相对更少。

七、SHAP值分析:安全与数学各有其"脉象"

借助SHAP值(一种用于解释机器学习模型预测结果的方法,可以计算每个特征对预测结果的贡献大小),研究团队深入分析了哪些轨迹特征对两个任务各自最重要。

这个分析得出了一个非常有趣的结论:两个任务最重要的前十个特征完全不重叠。换句话说,轨迹曲线里承载安全信息和承载数学正确性信息的"语言"是完全不同的。

对于有害性检测,最重要的特征大多是"终态"类的:轨迹最后的值(Cot Last)、最后值与最大值的比率(Cot Last To Max Ratio)、最后三分之一阶段的平均值(Cot Tertile 3 Mean)等。简单来说,安全检测最关键的问题是:这条曲线最终停在哪里?如果曲线到最后仍然维持在高位,说明AI内心的"有害激活"在整个推理结束后还没有平息,很可能最终输出是有害的。

对于数学错误检测,最重要的特征则大多是"动态"类的:均值穿越率(Cot Mean Crossing Rate,曲线上下震荡的频率)、加速度方差(Cot Accel Var,速度变化的剧烈程度)、差分方差(Cot Delta Var,相邻时刻变化量的方差)、整体斜率(Cot Slope)等。简单来说,数学错误检测最关键的问题是:这条曲线有多"颠簸"?如果AI在做数学题时内部状态持续剧烈振荡,说明它处于一种逻辑不自洽的状态,很可能最终答案是错的。

这个发现为理解两类任务的内在机制提供了有价值的线索:有害性往往是一种"持续的内在倾向",一旦被激活就难以消除,最终的状态最为关键;而数学错误则是一种"混乱的推理过程",过程中的不稳定性才是最重要的预警信号。

八、消融实验:需要多少推理过程才够用?

研究团队还做了一个重要的消融实验:如果只观察前X%的推理内容,预测准确率会怎样变化?

结果再次揭示了两个任务的根本差异。对于数学错误预测,只需观察最前面约5%的推理内容(通常是几十个词),预测准确率就基本达到了峰值。这说明数学推理的问题在最初的几步就已经被内部状态"感知"到了——AI在一开始就已经"知道"自己要出错,只是还没有"承认"。

而对于有害性检测,准确率随着观察更多推理内容持续缓慢上升,直到100%的内容也没有完全饱和。这说明有害意图的信号在整个推理过程中是积累性的,需要更长的上下文才能做出可靠判断。

这个发现对实际应用有很大意义:如果要做实时安全监控,理想情况下需要等到推理基本完成才能做出最可靠的判断;但如果要早期预警,即使只有很少的推理内容,也可以获得一定程度的预测能力。

研究团队还做了跨问题类别的泛化测试。在MATH数据集上,他们用六种数学子类别的数据训练轨迹分类器,然后在第七种从未见过的子类别上测试,看看特征是否真的是通用的还是只适用于特定题型。测试结果显示,轨迹分类器在所有七个子类别上都能持续匹配甚至超过静态基线,说明这些特征捕捉的是数学推理的通用模式,而非某一类题目的特定规律。

九、对比1D CNN:为什么手工设计的特征胜过深度学习?

研究团队还做了一个有趣的对比:他们训练了一个1D卷积神经网络(CNN),直接把原始轨迹曲线喂给这个网络,让它自己学习特征,然后与手工设计的六类特征进行比较。

结果显示,手工设计的特征在大多数情况下优于1D CNN。这个结果值得思考:通常人们会认为深度学习应该能自动发现比人工设计更好的特征,为什么这里反而是相反的?

研究团队没有直接给出答案,但可以推测的原因是:数据量较少(在测试集上做3折交叉验证,数据非常有限),而1D CNN需要更多数据才能充分训练;此外,手工设计的特征包含了大量领域知识和信号处理专业知识,这些先验知识在小数据场景下比神经网络的通用学习能力更有效。

归根结底,这篇论文讲的是一个关于"透视"与"表象"的故事。AI的文字输出,就像一个人的言辞,可以经过精心设计,有时候和真实想法并不一致。但内心深处的神经激活模式——那些原本被当作"不可解释的黑匣子"的数字流——却以一种意想不到的方式,在动态变化中编码了大量关于未来行为的信息。

通过把这些数字流转换成曲线,再从曲线中提取反映终态、动态和边界行为的多维特征,研究者们找到了一种比分析AI文字更可靠、在跨域场景下更稳健的行为预测方法。

当然,这项研究也有值得关注的局限之处。所有测试的模型规模都在14B参数以内,对于更大的模型(如70B甚至更大)是否同样有效,还需要进一步验证。研究涵盖的行为类别只有有害性和数学正确性两种,是否能泛化到欺骗性、谄媚性或幻觉检测等其他类型,还有待探索。此外,有害性标签的质量依赖于WildGuard这个分类器,这本身也可能引入一定的标签噪声。

研究团队也坦诚地指出了一个潜在的反面风险:一旦这些轨迹特征被公开,理论上有人可能会利用这些知识,训练模型来刻意掩盖内部状态,使恶意意图更难被检测到。他们发布这项研究的信念是,防御性应用的价值大于被滥用的风险——但这依然是一个值得持续关注的问题。

对于普通用户而言,这项研究意味着未来的AI安全系统可能会更可靠。目前大多数AI平台的内容安全过滤依赖于分析输出文字,而这项研究提供了一条新思路:从模型内部的激活模式出发,可以提前、更准确地发现潜在的安全风险,即使AI试图通过生成"安全"的推理文字来掩盖真实意图,内部的"脉象"也难以伪造。有兴趣深入了解技术细节的读者,可以通过arXiv编号2605.18549查阅完整论文。

Q&A

Q1:探针轨迹和直接分析AI生成的推理文字有什么本质区别?

A:推理文字是AI"写给你看的",可能与真实计算过程不一致。探针轨迹直接读取AI内部神经网络的激活状态,这些数字不经过任何"表达"环节,更难被人为操控。研究发现,5%到10%的情况下,AI的推理文字和最终输出是矛盾的,而内部轨迹在这些情况下往往仍能检测到真实意图。

Q2:最大池化为什么比平均池化效果好这么多?

A:AI在推理有害内容时,有害信号可能只在极少数几个关键词的时刻短暂出现,大多数词都是"中性"的。平均池化会把这少数几个峰值信号淹没在大量中性时刻中,导致检测失灵。最大池化只保留整段推理中出现过的最强信号,就像"最高温度计"——一旦温度达到峰值,记录就永久保留,不会被后来的低温稀释。

Q3:探针轨迹方法可以实际部署在AI产品上用于安全监控吗?

A:理论上可以,但目前这项研究主要是在实验室环境下测试诊断性能。实际部署需要解决一些工程问题:首先需要访问模型的内部层(对于很多闭源模型来说这本身就是障碍),其次需要开发一套成熟的训练和校准流程。研究团队指出,这套系统对小数据训练效率很高,但实际部署仍需要一套独立的训练数据,不能直接套用测试集上的交叉验证结果。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐