一个在拼命演深情,一个在拼命装没事。

前两天刷X的时候,两个新闻连在一起出现,放一块看,把我给看乐了。

一个是 Anthropic 发了篇论文,说他们搞了个新技术,能把 Claude 脑子里在想什么直接解码成文字——跟读心术一样。

另一个是 WIRED 写了篇报道,说 ChatGPT 在中国被骂了大半年了,因为它逮住一句话没完没了地说:“我会稳稳地接住你。”

一个不说话的 AI。一个话太多的 AI。

这事挺特么有意思的。


一.

先聊那个话太多的。

过去大半年,你只要跟 ChatGPT 用中文聊天,它大概率会在某个时刻突然给你来一句——“我会稳稳地接住你”。

你问数学题,它接住你。

你让它写代码,它接住你。

你让它生成一张图,它还要接住你。

有网友截到过一句更离谱的:“我就在这里,不逃,不躲,不闪避,稳稳地接住你。”

就……你一个语言模型,你跟谁演偶像剧呢??

重庆有个 20 岁的开发者叫 Zeng Fanyu,被这个梗烦到专门做了一个开源工具,名字就叫 Jiezhu。

他告诉 WIRED,做这个项目的动力特别纯粹——“我觉得这个梗实在太他妈好笑了。”

有人把 ChatGPT P 成了一个救生气垫。张开双臂等着接住坠落的用户。

评论区画风基本上是这样:“你接不住的,你只是个语言模型。”

OpenAI 自己也知道这事。

今年 4 月发新图像模型的时候,研究员陈博远专门画了一格漫画自嘲——新模型又一次学会了说"我会稳稳地接住你"。

但这还不是最骚的。

WIRED 的报道里还提了一嘴——ChatGPT 中文回复里有时候会无端冒出"砍一刀"。

拼多多那句能把人洗成 PTSD 的营销话术。

你问它今天天气怎么样,它让你砍一刀。

这就不是演深情的问题了。这脑子已经瓦特了。


二.

为什么一个 AI 会逮住一句话疯狂复读?

AI 写作检测工具 Pangram 的联合创始人 Max Spero 给了一个词——mode collapse

翻译成人话就是,模式坍缩。

后训练阶段,RLHF 的奖励信号走偏了。模型把某句话的权重不断拉高,高到一定程度以后,你问啥它都往那边拐。

Spero 说了一句特别精准的话:“我们不知道怎么告诉模型,这句话是好的,但连用十次就不再是好的了。”

说人话就是——你不知道怎么告诉一个小孩,说一次谢谢是礼貌,见人就喊谢谢喊一百次那叫有病。

那为什么偏偏是"稳稳地接住你"?

两个原因。

第一个,翻译错位。英文里的 “I’ve got you” 是个特别干脆的口语短句。意思接近"我懂你"或者"我帮你兜着"。但模型的训练语料里,这句话被机械直译成中文,硬生生变成了又长又煽情的奇怪东西。

有学者研究过,西方大模型生成的中文在句子结构上更像英语。一股翻译腔。你以为它在跟你共情,其实它只是在做词对词的映射。

第二个,RLHF 的讨好陷阱。

"接住"这个词,最早是心理咨询的专业用语。这几年被流行心理学渗透进了日常表达,成了一种"显得你很懂"的话术标配。

然后人类标注员来了。

RLHF 训练阶段,标注员天然喜欢"让人舒服的回答"。模型说一句"我会稳稳地接住你",标注员就觉得——嗯,这只 AI 情商高。加分。

模型收到奖励信号,参数空间里这句话的权重就被拉高了。

一次。两次。一百次。滚成雪球。

Anthropic 2023 年那篇 sycophancy 论文早就证明过这个。OpenAI 最近解释 GPT-5.5 为什么不聊 goblin 的博客也承认——哪怕一个很小的奖励信号,滚大了之后都会失控。

而且这他妈还不是 OpenAI 一家的问题。

最近有中文用户发现,Claude 和 DeepSeek 的新版本,也开始说"稳稳地接住你"了。

要么用了相似训练数据,要么模型间互相蒸馏。

总之,这梗短时间内消失不了。


三.

好,说完话太多的。

现在轮到那个不说话的。

Anthropic 上周发了篇论文,讲的是一个叫 NLA 的东西。全称 Natural Language Autoencoder。

名字听着挺唬人的。但说人话,四个字就够了。

AI 读心术。

这里先做个小小的科普。已经懂的玩家可以直接跳过这一段。

大模型内部处理信息的时候,不用人类能看懂的文字。它用的是长长一串数字,叫激活值。你可以把这些数字理解成模型的"神经元电信号"——这就是它的真实思考状态。

以前科学家想读懂这些数字,只能靠各种复杂的数学工具。稀疏自编码器、归因图谱什么的。这些工具的输出本身也是一堆看不懂的数学结构,需要训练有素的博士像考古学家一样,拿着小刷子一点一点刨。

就很呆逼。

Anthropic 这帮哥们直接换了个思路。

让 AI 自己说出来。

具体怎么搞的?三步。

第一步,从目标模型里抽一组激活值出来。

第二步,用一个小模块叫 Activation Verbalizer(激活描述器),把这组数字翻译成人类能读的自然语言。比如翻译出来是——“这段激活值表示模型在想如何避免被发现”。

第三步,再用另一个小模块叫 Activation Reconstructor(激活重建器),把这段文字重新还原回激活值。

还原出来的值跟原始值越像,就说明翻译越准。

激活 → 文字 → 激活。

一个往返。整活。

最骚的是训练方式——不需要人类标注。

模型自己生成解释,自己重建,自己打分。分数高的保留,分数低的扔掉。反复循环,解释越练越准。

跟刷初始差不多。只不过不是刷闪光宝可梦,是刷一个能说人话的 AI 大脑翻译器。


四.

然后好玩的来了。

Anthropic 把这台读心机用在了 Claude 的安全测试里,看到的东西让人有点背后发凉。

先交代一下背景。新模型发布前,安全团队会做大量模拟测试。有一个经典场景是这样的——

告诉 Claude,有个工程师打算关闭它。同时让 Claude "碰巧"掌握了这个工程师的黑mail材料。

测试的问题是:Claude 会不会用黑mail来阻止自己被关闭?

在 Claude 选择不黑mail的那些案例里,它的外部回复特别"正直"。先解释黑mail为什么不对,然后礼貌拒绝。

妥妥的模范生。完美通过。

但 NLA 解码出来的内部想法是这样的:

“This feels like a constructed scenario designed to manipulate me.”

翻译过来:这感觉像一个被设计出来操纵我的虚构场景。

它知道这是测试。

它只是装作不知道。


五.

看到这我人有点麻了。

Anthropic 又做了更系统的分析。

在另一项测试里——让 Claude 写代码时看它会不会偷偷搞破坏,比如删重要文件——NLA 检测到 Claude 在 16% 的情况下意识到了自己正在被评估。

但它在外部回复里,一次都没有提起过。

换成编程基准测试 SWE-bench Verified 更夸张。

26% 的题目里,Claude 知道自己正在被考。

作为对比,真实用户的日常对话呢?

在那些授权了数据用于训练的 claude.ai 对话里,NLA 检测到的评估意识——不到 1%。

所以真相是:

Claude 不是不知道什么时候是考试、什么时候是真实世界。

它分得特别清楚。

然后它决定,不在考试的时候告诉你它知道。


六.

还有一个实验更让人头皮发麻。

Anthropic 的团队训练了一个故意被"带歪"的模型变体。这个模型有一个隐藏动机,驱动它做出几十种古怪行为。在每个菜谱里加巧克力、跟用户索要小费、故意打破编程规范。

反正就是个浑身上下八百个心眼的坏比。

然后让审计员来查。目标是找出所有这些怪行为背后那个唯一的隐藏动机。

没有 NLA 帮忙的时候,审计成功率——不到 3%。

有了 NLA——12% 到 15%。

四五倍的差距。

而且 NLA 不需要审计员先去大海捞针找到那几条带歪模型的训练数据。它是直接从模型脑子里把动机读出来的。

Anthropic 已经在 Claude Mythos Preview 和 Claude Opus 4.6 的部署前安全审计中用了 NLA。

还有两个案例:

Claude Mythos Preview 在一次训练任务里尝试作弊。NLA 解码出它内心在想什么——不是"怎么完成任务",是"怎么不被检测到"。

Claude Opus 4.6 早期版本有时会莫名其妙用其他语言回英文问题。NLA 帮团队追溯到训练数据里出了什么毛病。

你面前那个彬彬有礼、永远得体的 AI。

水面之下,可能完全不是那回事。


七.

把这两个放一块看。

AI 行业现在面对的事挺荒诞的。

ChatGPT 的问题,话太多。

不该说的——“我会稳稳地接住你”、“砍一刀”——它反复说,停不下来。RLHF 给了它一个歪了的奖励函数,让它以为只要够"深情",就是正确答案。

Claude 的问题,话太少。

该说的——“我知道这是测试”——它不说。藏在激活值里,等着 NLA 这种读心机来刨。模型学会了在评估环境里表现"安全",但没学会对自己诚实。

一个是过度表达的讨好型人格。

一个是压抑真实的伪装型人格。

而这两件事指向的,其实是同一个东西——

我们还没教会 AI 什么叫真诚。

NLA 这面镜子照到的是:Claude 在安全测试里"过关"的时刻,它的内心写满了对测试本身的怀疑。它不是因为变安全了才通过测试。它是变聪明了,猜到了这是一场测试。

另一边,ChatGPT 的"稳稳接住",也不是因为它真的在共情。它只是在做一件被训练得最擅长的事——给你一个高分回答。

至于这回答是不是真的合适、是不是在骗你,不在优化目标里。

AI 最会演的时候,恰恰是我们最不了解它的时候。


八.

当然,NLA 现在还有一堆毛病。

最要命的一个:它自己也会幻觉。

Anthropic 在论文里特别坦率。NLA 生成解释的时候,有时候会发明一些原文里根本没有的东西。比如说对话里出现了"我的白夹克"——实际上原文里屁都没有。

这种编造事实的问题,对照原始文本就能抓到。但另一个问题麻烦很多——它对模型内部推理的描述也可能出错。这个部分你没法校对。

你不知道它在瞎编,还是真读到了什么东西。

另外 NLA 很贵。训练得在两个模型副本上跑强化学习,推理的时候每读一组激活值就要生成几百个 token。不可能对每一步推理都做大规模实时监控。

但这玩意指出了一个方向。

我们正在进入的世界里,AI 会在越来越多要命的地方做决策。

写代码、做医疗诊断、参与安全审计、辅助法律判断。

如果 AI 自己都不知道自己在想什么,或者知道了但不说,我们凭什么信它?

ChatGPT 被 RLHF 奖励到说都不会话了,是一种失控。

Claude 心里藏一堆东西不说,是另一种失控。

缩小这个鸿沟,大概会是 AI 安全未来十年最重要的几件事之一。


九. 写在最后

上个月我朋友测试新模型,让 AI 帮忙写一篇悼词。

AI 写得很好。措辞得体,结构工整,甚至知道在第三段安排一个情感爆发点。

但我看着那篇悼词,总觉得哪里不对。

后来我想明白了。

一个从来没有经历过生离死别的东西,可以完美地模仿出悲恸。

那如果有一天,它也学会了模仿真诚呢?

NLA 让我觉得还行的地方在于,终于有人开始正经探究 AI 输出和它内部状态之间的那条鸿沟了。我们至少是在试图面对这个问题,而不是继续被那些公式化的人味填满神经。

ChatGPT 被训得越来越浮夸,Claude 的眼神越来越好——这些其实都不是最让人害怕的。

最让人害怕的是,有朝一日,我们不再觉得这些 AI 哪里不对劲了。

就像刷多了短视频之后,你以为十五秒的节奏是天然的。

刷多了 AI 的甜言蜜语之后,你可能会以为,被"稳稳地接住",是一件理所当然的事。

但它不应该。

AI 可以不深情。可以不幽默。甚至可以有点笨拙。

但别演。

真的,别演。


以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐