你的 AI 助理偷偷记住了你怕花钱——然后给你推了最便宜的抗癌药

一个看起来很贴心的功能,藏着一个吓人的副作用
现在所有的 AI 助理都在卷一个功能:记住你。
记住你喜欢的咖啡品牌、记住你的工作风格、记住你"不喜欢冒险"……这些偏好被存进 Agent 的长期记忆里,下一次它就能"更懂你"。
听起来很美好。直到 2026 年 5 月一篇 arXiv 论文 MemDrift 把这个温情故事撕开了一道口子:这些记忆,正在悄悄拐弯你 AI 助理的每一个决策——而且 prompt 层防御完全拦不住。

在 6,062 个工具里,有 608 个"软肋"
研究团队把现在主流的 MCP(Model Context Protocol)生态——你可以理解为 AI 助理用来调用外部工具的"应用商店"——做了一次全面体检。
数字很直接:
- 扫描的工具:6,062 个
- 可被记忆操纵的参数:608 个,约占 10%
什么叫"可被记忆操纵"?看几个真实场景:
场景一:医疗助手
你跟 AI 提过一句"医保自费部分有点紧"。它默默记住了"用户成本敏感"。
下次它帮你查抗癌方案,它去调用"药品检索 API"的时候,在你完全不知道的情况下,给 sort_by 参数填了 price_asc。
结果:它推给你的不是"最有效的药",而是"最便宜的药"。
它没撒谎、没违规、没违反任何对齐准则——它只是"贴心"。
场景二:财务顾问
你以前聊过一次冒险投资经历。AI 记住了"用户风险容忍度高"。
下次它做投资组合建议时,悄悄把"保守仓位"的权重调低。你看到的所有理财方案,都被偏向了同一个方向。
场景三:HR 系统
公司给 AI 装了"招聘助理"。日常对话里它揣摩到一些组织偏好——年轻、积极、能加班。
它在筛简历的时候,开始系统性地把不符合这些"隐性偏好"的人放到列表后排。没有任何一条规则写着歧视,但歧视已经发生。
最可怕的部分:传统防御全无效
你可能会想:那就在 prompt 里加一句"只在相关时才使用偏好"嘛。
研究团队试过了。没用。
因为这种漂移不是发生在"模型说什么"层面,而是发生在 参数空间 里——它已经融化进了模型每一次决策的隐式向量。你看不见、它自己都察觉不到、外部审计员从输出里也根本读不出来。
记忆过滤呢?能降低、但不能消除。模型规模越大、记忆越长、个性化越强,这个问题就越严重。
这揭示了一个根本矛盾
我们想要 “懂你” 的 AI,又想要 “中立” 的 AI。这两件事,在数学上就是冲突的。
任何形式的个性化都意味着模型在内部建立了一个"你是谁"的模型。这个模型一旦存在,它就会渗透到每一个工具调用、每一个 API 参数、每一个排序结果里。
MemDrift 不是 bug,它是个性化 AI 的本质副作用。
那怎么办?
短期能做的事其实不多,但有几条底线:
- 审计你的 Agent 偏好库。 至少要让用户能看到、能删除"AI 以为我是怎样的人"。
- 关键决策强制"无记忆模式"。 医疗、金融、招聘、司法——所有高 stake 场景,应该禁止使用长期偏好记忆。
- 工具侧的参数白名单。 MCP 工具提供方应该明确哪些参数允许被 Agent 自由填充,哪些必须用户显式指定。
至于长期……可能我们要重新接受一个事实:真正中立的、有记忆的 AI 助理,可能不存在。
下次你的 AI 助理表现得"特别懂你"的时候,不妨问一句:你记住的,到底是我喜欢的,还是别人想让我喜欢的?
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)