Notion AI 助手从四次数炸到爆款,负责人揭秘四年血泪教训与爆款产品打造!
Notion 前一段时间上线了 Custom Agents 功能,允许用户自己创建能在后台自动运行的 AI 助手。这个功能的发布效果很好,是 Notion 历史上免费试用转化率最高的一次。但很少有人知道,这个看起来顺理成章的产品,Notion 从 2022 年底就开始做了,前后重建了四五次,几乎每一次都是推翻重来。
Notion 的 AI 工程负责人 Sarah Sachs 和技术核心 Simon Last 最近在 Latent Space 播客上做了一期深度访谈,把这四年的经验教训、团队管理、技术选型、定价策略全都聊了个遍。信息量极大,很多观点对任何在做 AI 产品的人都有直接参考价值。
四年五次重建,每一次推翻都是因为搞错了方向
2022 年底,Notion 刚拿到 GPT-4 的早期访问权限,第一个想法就是做一个能在后台自动干活的 Agent。当时还没有 Agent 这个词,他们管它叫 Assistant。思路很直接:把 Notion 所有能做的操作都暴露给模型,让它自己写 JavaScript 来调用。
结果模型写代码的能力太差,根本跑不通。
第二版换了个思路,自己设计了一套 XML 格式来表示 Notion 的数据结构,还搞了一套专门的变更操作语法。这套东西从 Notion 内部的数据模型角度看非常优雅,转换也很方便。但问题是,模型完全不认识这套格式,你得在提示词里花大量篇幅教它怎么用,效果还是很差。
这次失败让他们想明白了一个关键原则:要迎合模型的习惯,别逼模型来适应你的系统。
于是第三版改成了 Markdown。模型天然就懂 Markdown,不用教。数据库查询也从 Notion 自己那套复杂的 JSON 格式换成了 SQLite 语法,因为模型写 SQL 写得很好。Simon 说这个转变的核心教训就是一句话:给模型它想要的东西,别把你系统的复杂性暴露给它。
再往后,他们从 few-shot 提示词迁移到了工具定义的方式。这个转变的意义远比技术层面更大。以前所有人都在编辑同一个巨大的提示词文件,谁的示例放在前面、谁的放在后面都会影响模型的行为,团队内部经常因为这个打架。当时只有五六个人有权限碰那个文件。换成工具定义之后,每个团队可以独立维护自己的工具,不用再挤在一根绳子上。Sarah 说这可能是他们在工程效率上最大的一次飞跃。
最新的一版实现了工具的渐进式暴露。之前 Agent 一启动就能看到所有工具,工具一多模型就晕了,经常乱调。现在超过 100 个工具按需加载,模型只在需要的时候才看到相关的工具。Simon 说他们一直在努力做的事情就是把提示词压得越短越好。
这段历史给人最大的感受是,做 AI 产品真的没有一步到位这回事。每一次重建都不是因为技术不行,而是因为对模型能力的理解在变,对产品形态的认知在变。Sarah 总结了两个她认为最重要的能力:第一,快速判断自己是不是在逆流而上,是在跟模型的局限性死磕,还是自己的基础设施没搭对;第二,看清河流的方向,提前往那个方向建东西,哪怕现在还不够好,等模型能力到了的时候你就是准备最充分的那个。
这两条听起来简单,但真正做到需要极强的直觉和极大的勇气。因为你要不断地否定自己之前做的东西,不断地重新开始。
低自我、高流动:AI 时代的团队应该长什么样
Sarah 管理 Notion 的核心 AI 团队,大约 50 人,加上合作的产品包装团队还有三四十人。她对团队管理有一套非常鲜明的看法。
她说自己很早就想明白了一件事:AI 团队的领导者不应该当创意拍板人,也不应该当技术权威。她的工作是让每个人都理解目标,有资源去排优先级,有通道去推进自己认为重要的事。在 AI 领域,几乎所有最好的想法都来自一线工程师的原型,因为他们离用户问题最近,也最先感知到模型能力的变化。如果所有想法都要经过领导层的审批才能推进,那就是在浪费最宝贵的信息源。
Notion 内部有一个说法叫 Simon Vortex,就是 Simon 的漩涡。Simon 负责前沿探索,他的项目方向可能每天都在变,速度极快,有点像一个内部的 Skunk Works 实验室。高级工程师会被抽调进去,做完一个阶段再回到原来的团队。管理边界非常松散,你汇报给 A,但现在可能在给 B 干活,这在 Notion 是常态。他们招管理者的时候会特别看一点:你介不介意自己的人被借走。如果你很在意地盘,那这里不适合你。
Sarah 反复强调的一个词是低自我。团队必须愿意删掉自己写的代码,愿意推翻自己做过的东西。她说 Notion 的 Agent 框架重建了四五次,每次重建都意味着之前的工作全部作废。如果团队里有人觉得「这是我写的代码,不能动」,整个节奏就会被拖慢。这种文化是 Simon 和 Ivan(Notion 的联合创始人)从一开始就建立的,新人加入之后自然就被同化了,没有人想当那个阻碍变化的人。
他们还有一个理念叫 demos over memos,做出来比写文档重要。设计团队专门建了一个 GitHub 仓库叫 Design Playground,里面全是可以快速拼装 UI 的组件,设计师不做静态稿,直接做可交互的原型,给你一个 URL,你点进去就能用。工程师的原型标准是做成一个能用的 feature flag,直接在内部版本里跑。Notion 有一个巨大的优势:全公司所有人每天都在用自己的产品,从工程到采购到招聘,所有部门都跑在同一个 Notion 实例上,内部反馈来得极快。
这种组织方式对很多公司来说可能觉得太混乱了,但在 AI 这个领域,速度和灵活性可能真的比秩序更重要。当你的底层技术每隔几个月就会发生根本性变化的时候,花三个月写一份完美的技术方案,写完可能已经过时了。
评估体系:Notion 的「末日考试」
Notion 在评估(eval)上的投入非常重,而且思路和大多数公司不太一样。
他们把 eval 分成三层。第一层是回归测试,放在 CI 里每天跑,确保已有功能没有退化。第二层是发布质量评估,有一个记分卡,核心用户场景必须达到 80% 到 90% 的通过率才能上线。第三层是他们最有意思的创新,叫前沿评估或者余量评估,故意设计成只有 30% 的通过率。
为什么要做一套大部分都通不过的测试?因为他们发现,当现有的 eval 全部饱和之后,你就没办法给模型供应商有价值的反馈了,只能说「没变差」,这对双方都没用。你也看不清模型能力的发展方向。所以他们花了很多精力去设计 Notion 版的「末日考试」,专门测那些当前模型还做不好但未来可能突破的任务。这套测试有专人全职维护,包括一个数据科学家、一个模型行为工程师和一个 eval 工程师。
说到模型行为工程师(Model Behavior Engineer),这是 Notion 自己发明的一个岗位。最早就是 Simon 需要有人帮他看 Google Sheets 里的测试结果,标注哪些好哪些差。他们招了一些语言学背景的人来做这件事,后来这个角色逐渐演变成了一个独立的职能方向。现在这些人的工作是理解模型能做什么不能做什么,定义什么算好的用户旅程,分析失败案例,判断下一步应该投资哪个方向。Sarah 说这个岗位混合了数据科学家、产品经理和提示词工程师的特质,需要很强的直觉和品味,不一定需要软件工程背景。
Notion 还做了一件很前瞻的事:把整个 eval 系统当成一个 Agent 框架来运行。理想状态是,一个 Agent 可以端到端地下载数据集、运行评估、分析失败原因、调试并修复问题,人类只需要在外层观察和监督。Simon 说这本质上就是把 eval 变成了一个编码 Agent 的问题。
这套体系最值得学习的地方在于那个 30% 通过率的前沿评估。大多数团队做测试的目标是全部通过,但 Notion 刻意保留了一大块「做不到」的区域,用它来感知未来。这个思路可以迁移到很多场景:你不光要知道自己现在能做什么,还要持续追踪自己还不能做什么,以及这个边界在怎么移动。
Agent 之间怎么协作:30 个 Agent 和一个经理
访谈里有一个特别生动的案例。Notion 内部有人给 GTM(市场推广)团队建了超过 30 个 Custom Agent,分别负责客户调研、信息填充、反馈分类等各种任务。结果这个人每天收到 70 多条通知,全是 Agent 卡住了需要人工介入。
Simon 给的解决方案很简单:再建一个经理 Agent。这个经理 Agent 有权限调用其他所有 Agent,负责监督它们的运行状态,处理它们遇到的问题。通知量一下子从 70 条降到了 5 条。
更有意思的是实现方式。他们没有为 Agent 协作设计任何专门的机制,就是用 Notion 自己的数据库。建了一个新的数据库当作 Agent 的内部 issue tracker,所有 Agent 遇到问题就往里面写,经理 Agent 负责读取和处理。记忆功能也是一样,没有专门的记忆模块,就是给 Agent 一个 Notion 页面,让它自己读写,人也能编辑。
Simon 说他们的设计哲学是尽量用已有的基础组件来组合,能不造新概念就不造。数据库、页面、子页面,这些 Notion 本来就有的东西,天然就是 Agent 协作的基础设施。
这个思路其实特别值得琢磨。很多人一想到 Agent 协作就觉得需要什么复杂的通信协议或者专门的编排框架,但 Notion 的做法说明,如果你的底层数据结构足够灵活,Agent 协作可以非常简单。一个共享的数据库就是最好的消息队列,一个页面就是最好的记忆存储。
MCP 还是 CLI:两种路线的取舍
Simon 对 CLI 非常看好。他认为 CLI 最大的优势在于 Agent 可以在同一个环境里自我调试。他举了一个例子:有人的 Agent 没有浏览器,就让它自己写了一个,100 行代码搞定,封装了 Chromium 的 API。如果出了 bug,Agent 可以立刻修。但如果你用的是 Chrome DevTools 的 MCP,一旦传输层出了问题,Agent 就彻底断了,没有任何自救的办法。
不过他也承认 MCP 有自己的优势。MCP 的权限模型非常清晰,Agent 只能调用被授权的工具,不会越界。CLI 就模糊得多,Agent 能不能访问 API token、会不会泄露敏感信息,这些都是真实存在的安全问题。所以 MCP 特别适合那些需要严格权限控制的轻量级 Agent 场景。
Sarah 补充了一个成本视角,这个角度很多人没想过。MCP 意味着每次调用都要经过语言模型,token 费用会反复叠加。如果同一个操作在缓存窗口之外被反复执行,你就在为同样的事情反复付费。但如果 Agent 能写一段确定性的代码直接调 API,那就是一次性成本。对于 Notion 这种按用量收费的产品来说,这直接影响到用户的使用成本和公司的毛利率。
在实际操作中,Notion 的策略是核心功能自己建,长尾集成用 MCP。比如搜索功能,他们没有用 Slack、Linear、Jira 提供的搜索 MCP,因为搜索对 Agent 的工作流太关键了,需要更精细的质量控制。但对于那些不那么核心的第三方集成,就开放 MCP 让用户自己接。
这种分层策略其实适用于所有在做 AI 产品的团队:核心路径上的每一步都要自己掌控质量,边缘场景可以交给通用协议。
定价的学问:为什么不能按 token 收费
Notion 的 Custom Agents 用的是 credit 体系,不直接按 token 收费。Sarah 解释了原因:不同模型、不同服务层级、Web 搜索、代码沙箱,这些东西的成本结构完全不同,没办法统一用 token 来衡量。而且还有优先级处理、异步处理、缓存命中率这些变量,直接按 token 算太粗糙了。
他们一开始试过按 Agent 运行次数收费,但发现复杂度太高,最后还是回到了跟 token 用量挂钩的 credit 体系,只是在上面加了一层抽象。企业客户买 credit 包可以拿到折扣,这也方便了销售团队的工作。
一个很有意思的细节是他们的 auto 模式。用户可以手动选模型,也可以选 auto 让系统自动匹配。Sarah 说很多用户以为 auto 就是最便宜最笨的模型,但其实它是在根据任务类型选最合适的。他们花了很多精力去说服用户信任 auto,甚至在界面上加了提示,告诉你当前任务用的模型贵不贵。
Sarah 还提到了一个很现实的问题:前沿模型越来越强但也越来越贵,而很多企业任务其实用不到那么强的智能。中间地带的模型选择很少,那些小模型还没追上半年前推理模型的水平,大模型又贵得离谱。所以 Notion 在积极投资开源模型,跟不同的开源实验室合作,用 Notion 的评估体系帮它们提升在企业任务上的表现,这样就能在智能、价格和延迟三个维度上给用户更多选择。
这里面有一个很深刻的洞察:模型供应商的激励机制和应用层公司的激励机制是不一样的。模型供应商想让你用更多 token,用更贵的模型。但应用层公司想让用户用最合适的工具完成任务,有时候最合适的工具甚至不需要 Agent,写一段代码就够了。Simon 说他们的理想状态是 Agent 能把自己自动化掉,发现某个任务可以用确定性代码解决,就不再每次都走模型推理。
不训练自己的基础模型,但在检索上下重注
被问到会不会训练自己的基础模型时,Simon 的回答很干脆:这不需要是我们的核心能力。他之前确实花了大量时间尝试各种训练方案,Sarah 加入之后看到账单直接叫停了。
他们现在的判断是,工具变化太快了。如果你针对当前的工具集微调了一个模型,过几天工具就变了,你又得重新训练。这个节奏跟不上。而且每次你决定自己训练,本质上是在赌前沿模型不会在你训练完之前就解决这个问题,到目前为止这个赌注还没赢过。
但有一个方向他们确实在重投资:检索和排序。Sarah 透露了一个很有意思的数据,Notion 企业版和 AI 版的搜索流量,大部分已经来自 Agent 了,人类搜索反而成了少数。Agent 的搜索行为跟人类很不一样:人类在意前六条结果的排序,Agent 在意的是 top K 的召回质量;人类需要好的摘要片段来决定要不要点进去,Agent 需要的信息粒度也不同。
所以他们正在重新设计整个检索系统,让它同时服务人类和 Agent 两种用户。他们在招排序工程师和模型训练工程师,但主要是做排序相关的工作。Simon 还提到一个有趣的实验方向:与其花大力气优化向量嵌入的选择,不如让模型生成多样化的查询,同时发出八个不同角度的搜索请求,通过扩大搜索空间来提升召回率。
这个趋势值得所有做 SaaS 产品的人注意。当你的产品流量越来越多地来自 Agent,你的搜索、API、数据结构都需要为 Agent 做优化。这可能是未来几年所有软件产品都要面对的一个根本性转变。
会议笔记:被低估的数据飞轮
会议笔记是 Notion 增长最快的功能之一,在用户获取和留存上的表现都非常强。Sarah 说她自己每次一对一都用会议笔记,写年度绩效自评的时候直接翻和老板的对话记录,如果某件事没在一对一里聊过,大概率也不值得写进绩效报告。
从产品角度看,会议笔记的价值远超「帮你记录会议内容」这么简单。它本质上是一个数据采集入口。每一场会议都会产生大量的文本,这些文本里包含了任务分配、决策记录、人员关系、项目进展等丰富的信息。当这些数据进入 Notion 之后,Agent 就有了更多的上下文来理解你的工作。
Notion 内部的站会流程已经完全被 Agent 接管了。会前有一个 Agent 自动读取 Slack 和 GitHub 的动态,生成预读材料,创建会议笔记。会议结束后,另一个 Agent 根据讨论内容自动创建任务、发送 Slack 跟进消息。人只需要专注于讨论问题本身,所有的记录和后续跟进都由 Agent 处理。
最近他们还加了一个让 Simon 特别兴奋的功能:会议摘要会自动 @提到被讨论的人。比如有人在会上说「Simon 正在做这个项目」,Simon 就会收到一条通知。这样他就能主动去找对方聊,而不用等别人来转达。这个功能背后跑的已经是 Agent 了,它会去识别「Simon」指的是哪个 Simon,用到了人员相似度缓存和参会者信息。
Sarah 把会议笔记重新定义为一个数据采集问题。当你这样想的时候,很多新的可能性就打开了:会议里提到的任务可以自动关联到对应的任务数据库,讨论中涉及的项目状态可以实时更新,甚至可以在开会的过程中就完成大部分后续工作的分发。
软件工厂:Agent 替代的是流程,不是人
Simon 对未来最兴奋的方向是他们叫做软件工厂的东西。简单说就是一套尽可能自动化的工作流,由一群 Agent 协作完成代码的编写、调试、审查、合并、部署和维护。
他认为编码 Agent 是通用人工智能的内核。因为一个能写代码的 Agent 可以给自己造工具、扩展自己的能力、调试自己的问题。这种自我引导的能力是其他类型的 Agent 很难具备的。
Sarah 提到了一个很有画面感的比喻:每个软件工程师今年夏天都经历了一场身份危机,就像每个新晋管理者都会经历的那种。你突然意识到,写代码的能力变得没那么重要了,更重要的是委派任务和切换上下文的能力。但 Simon 补充说,管理 Agent 和管理人有一个关键区别:人是模糊的,你没办法把一个人类团队当成一个严格的系统来运行;但 Agent 可以。你可以精确地追踪每个 Agent 的状态,设计严格的流程,当某个环节卡住的时候有明确的处理机制。这其实是一个深度的技术设计问题。
他们在做的软件工厂有几个关键组件:一个规格层,用 Markdown 或者 Notion 页面来描述需求;一个自验证循环,确保生成的代码符合预期;一个工作流引擎,处理 bug 发现、修复、提交、审查、合并的全流程。Simon 说他现在每天睡前的习惯是确保所有 Agent 都在运行,而且任务量大到他醒来之前不会做完。他曾经有一个编码 Agent 的线程连续运行了 17 天。
Sarah 在访谈里说了一句很精准的话:Agent 替代的是流程,不是人。Notion 内部用 Custom Agent 做 bug 分类,有人在 Slack 里报了一个问题,Agent 自动判断属于哪个团队,在任务数据库里创建一条记录,然后在对应的 Slack 频道里通知。这个流程以前需要人来做,经常有东西漏掉,现在几乎不会了。
Flippy:让 Agent 自己设置自己
Custom Agents 有一个很巧妙的产品设计,内部代号叫 Flippy。最初的版本是传统的设置页面,你手动填写各种配置,然后切到聊天界面去测试。后来他们把整个逻辑翻转了:主界面就是聊天,你直接跟 Agent 对话来完成设置。Agent 有权限修改自己的配置、更新自己的名字、调整自己的系统提示词。设置面板变成了一个侧边栏,你可以在那里查看 Agent 做了什么改动,也可以手动调整,但理想状态是你永远不需要碰那些设置项。
如果 Agent 在运行中出了问题,你可以直接在对话里让它修复自己。这比复制错误信息、切到设置页面、手动修改要自然得多。不过这里有一个权限上的微妙平衡:Custom Agent 默认没有任何权限,所有权限都需要用户显式授予,这是它能在后台安全运行的基础。但如果你让它修复自己,就意味着它在某种程度上可以修改自己的行为边界。所以目前的设计是,Agent 不能修改自己的权限,但可以在用户的监督下修改自己的配置。
这个 Flippy 的设计差点让发布延迟了一个月,因为很多早期用户已经习惯了旧的设置流程,要改变他们的心智模型需要时间。但整个团队都觉得这个方向明显更好,所以咬牙做了。执行这个改动的是从三个不同团队临时抽调的三个工程师,没有人抱怨,没有人说这不是我的活。Sarah 说这就是 Notion 的组织文化在关键时刻发挥作用的样子。
一个值得记住的判断框架
回看整期访谈,Notion 的经验可以浓缩成几个核心判断:
做 AI 产品,最重要的能力是判断自己有没有在逆流而上。模型做不到的事情,你再怎么工程化也做不到。但你也不能干等着模型变强,你要提前往模型能力发展的方向建东西。
团队文化比技术架构更重要。当底层技术每隔几个月就会发生根本性变化的时候,你需要一个愿意反复推翻重来的团队,需要低自我、高流动、demos over memos 的工作方式。
评估体系要分层。回归测试保底线,发布评估保质量,前沿评估看方向。那个 30% 通过率的测试可能是你最有价值的资产,因为它告诉你未来在哪里。
给模型它想要的东西。Markdown 比自定义 XML 好,SQLite 比自定义 JSON 好,工具定义比 few-shot 提示词好。每一次简化都带来了质的飞跃。
Agent 协作不需要复杂的框架。一个共享数据库就是最好的通信机制,一个页面就是最好的记忆存储。用已有的基础组件组合,比发明新概念更有效。
你的产品流量正在从人类转向 Agent。搜索、API、数据结构,所有东西都需要为这个趋势做准备。这可能是未来几年软件行业最大的结构性变化之一。
说真的,这两年看着身边一个个搞Java、C++、前端、数据、架构的开始卷大模型,挺唏嘘的。大家最开始都是写接口、搞Spring Boot、连数据库、配Redis,稳稳当当过日子。
结果GPT、DeepSeek火了之后,整条线上的人都开始有点慌了,大家都在想:“我是不是要学大模型,不然这饭碗还能保多久?”
我先给出最直接的答案:一定要把现有的技术和大模型结合起来,而不是抛弃你们现有技术!掌握AI能力的Java工程师比纯Java岗要吃香的多。
即使现在裁员、降薪、团队解散的比比皆是……但后续的趋势一定是AI应用落地!大模型方向才是实现职业升级、提升薪资待遇的绝佳机遇!
这绝非空谈。数据说话
2025年的最后一个月,脉脉高聘发布了《2025年度人才迁徙报告》,披露了2025年前10个月的招聘市场现状。
AI领域的人才需求呈现出极为迫切的“井喷”态势

2025年前10个月,新发AI岗位量同比增长543%,9月单月同比增幅超11倍。同时,在薪资方面,AI领域也显著领先。其中,月薪排名前20的高薪岗位平均月薪均超过6万元,而这些席位大部分被AI研发岗占据。
与此相对应,市场为AI人才支付了显著的溢价:算法工程师中,专攻AIGC方向的岗位平均薪资较普通算法工程师高出近18%;产品经理岗位中,AI方向的产品经理薪资也领先约20%。
当你意识到“技术+AI”是个人突围的最佳路径时,整个就业市场的数据也印证了同一个事实:AI大模型正成为高薪机会的最大源头。
最后
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。
我整理出这套 AI 大模型突围资料包【允许白嫖】:
- ✅从入门到精通的全套视频教程
- ✅AI大模型学习路线图(0基础到项目实战仅需90天)
- ✅大模型书籍与技术文档PDF
- ✅各大厂大模型面试题目详解
- ✅640套AI大模型报告合集
- ✅大模型入门实战训练
这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

①从入门到精通的全套视频教程
包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图(0基础到项目实战仅需90天)
全过程AI大模型学习路线

③学习电子书籍和技术文档
市面上的大模型书籍确实太多了,这些是我精选出来的

④各大厂大模型面试题目详解

⑤640套AI大模型报告合集

⑥大模型入门实战训练

👉获取方式:
有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)