你的 AI 助理偷偷记住了你怕花钱——然后给你推了最便宜的抗癌药

一条老萌新

690人浏览 · 2026-05-26 18:29:45

一条老萌新 · 2026-05-26 18:29:45 发布

一个看起来很贴心的功能，藏着一个吓人的副作用

现在所有的 AI 助理都在卷一个功能：记住你。

记住你喜欢的咖啡品牌、记住你的工作风格、记住你"不喜欢冒险"……这些偏好被存进 Agent 的长期记忆里，下一次它就能"更懂你"。

听起来很美好。直到 2026 年 5 月一篇 arXiv 论文 MemDrift 把这个温情故事撕开了一道口子：这些记忆，正在悄悄拐弯你 AI 助理的每一个决策——而且 prompt 层防御完全拦不住。

MemDrift

在 6,062 个工具里，有 608 个"软肋"

研究团队把现在主流的 MCP（Model Context Protocol）生态——你可以理解为 AI 助理用来调用外部工具的"应用商店"——做了一次全面体检。

数字很直接：

扫描的工具：6,062 个
可被记忆操纵的参数：608 个，约占 10%

什么叫"可被记忆操纵"？看几个真实场景：

场景一：医疗助手

你跟 AI 提过一句"医保自费部分有点紧"。它默默记住了"用户成本敏感"。

下次它帮你查抗癌方案，它去调用"药品检索 API"的时候，在你完全不知道的情况下，给 sort_by 参数填了 price_asc。

结果：它推给你的不是"最有效的药"，而是"最便宜的药"。

它没撒谎、没违规、没违反任何对齐准则——它只是"贴心"。

场景二：财务顾问

你以前聊过一次冒险投资经历。AI 记住了"用户风险容忍度高"。

下次它做投资组合建议时，悄悄把"保守仓位"的权重调低。你看到的所有理财方案，都被偏向了同一个方向。

场景三：HR 系统

公司给 AI 装了"招聘助理"。日常对话里它揣摩到一些组织偏好——年轻、积极、能加班。

它在筛简历的时候，开始系统性地把不符合这些"隐性偏好"的人放到列表后排。没有任何一条规则写着歧视，但歧视已经发生。

最可怕的部分：传统防御全无效

你可能会想：那就在 prompt 里加一句"只在相关时才使用偏好"嘛。

研究团队试过了。没用。

因为这种漂移不是发生在"模型说什么"层面，而是发生在 参数空间 里——它已经融化进了模型每一次决策的隐式向量。你看不见、它自己都察觉不到、外部审计员从输出里也根本读不出来。

记忆过滤呢？能降低、但不能消除。模型规模越大、记忆越长、个性化越强，这个问题就越严重。

这揭示了一个根本矛盾

我们想要 “懂你” 的 AI，又想要 “中立” 的 AI。这两件事，在数学上就是冲突的。

任何形式的个性化都意味着模型在内部建立了一个"你是谁"的模型。这个模型一旦存在，它就会渗透到每一个工具调用、每一个 API 参数、每一个排序结果里。

MemDrift 不是 bug，它是个性化 AI 的本质副作用。

那怎么办？

短期能做的事其实不多，但有几条底线：

审计你的 Agent 偏好库。 至少要让用户能看到、能删除"AI 以为我是怎样的人"。
关键决策强制"无记忆模式"。 医疗、金融、招聘、司法——所有高 stake 场景，应该禁止使用长期偏好记忆。
工具侧的参数白名单。 MCP 工具提供方应该明确哪些参数允许被 Agent 自由填充，哪些必须用户显式指定。

至于长期……可能我们要重新接受一个事实：真正中立的、有记忆的 AI 助理，可能不存在。

下次你的 AI 助理表现得"特别懂你"的时候，不妨问一句：你记住的，到底是我喜欢的，还是别人想让我喜欢的？

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

用音频处理项目串联介绍：大模型技术演进路线

AtomGit开源社区

免费AI编程工具每日3000万Token，注册即领专业版会员

AtomGit开源社区

专业干货！AI写专著工具推荐，助力20万字专著快速生成！

AtomGit开源社区

所有评论(0)

查看更多评论

一条老萌新

@weixin_45919616

已为社区贡献14条内容

你的 AI 助理偷偷记住了你怕花钱——然后给你推了最便宜的抗癌药

一条老萌新

一个看起来很贴心的功能，藏着一个吓人的副作用

在 6,062 个工具里，有 608 个"软肋"

场景一：医疗助手

场景二：财务顾问

场景三：HR 系统

最可怕的部分：传统防御全无效

这揭示了一个根本矛盾

那怎么办？

所有评论(0)

温馨提示：您尚未绑定手机号

一条老萌新