LangChain创始人Harrison Chase联合AWS推出基于LangSmith的Deep Agent全流程评估方案,旨在解决Agent落地非确定性、错误传导及创造性解法等核心痛点。方案提供五种评估模式,涵盖单步、全流程、多轮对话等场景,并强调评估与生产监控的闭环。完整实践内容已上线AWS官方技术博客,附带开源代码仓库,适合程序员学习大模型应用。

LangChain创始人Harrison Chase发布联合AWS推出基于LangSmith的Deep Agent全流程评估方案,完整实践内容已上线AWS官方技术博客。

图片

整套方案针对Agent落地的核心痛点:不同于普通大模型调用的确定性输出,Agent是非确定性的多步系统,一个早期的工具调用错误就能串联毁掉整个工作流,上线前很难通过零散测试覆盖所有情况,上线后出问题也难追溯根源。有从业者在评论区直接点出,评估设计是拖死大部分Agent项目的核心原因,还有人提到,很少有团队在项目初期就设计长周期的评估规则,一旦Agent的决策分支超过3个,传统单元测试的思路就完全失效。

本次发布的方案整合了LangChain在Deep Agent评估上的落地经验与Anthropic的Agent评估框架,给出了从开发到生产全生命周期的可落地流程,所有示例都基于Amazon Bedrock上的Amazon Nova 2 Lite模型,配套有完整的开源代码仓库。

为什么Agent评估比普通大模型难得多

和直接评估大模型输出相比,Agent评估有三个无法回避的特性:

  1. 非确定性:同一个任务跑10次,可能9次成功1次失败,单次的通过/失败没有参考价值,需要多次跑统计概率。

  2. 错误传导:多步流程里第三步的错误会影响所有后续步骤,只评估最终答案根本找不到问题出在哪。

  3. 创造性解法:前沿模型有时候会找出测试设计者完全没预料到的正确路径,硬卡预设步骤反而会误杀正确结果。

针对这些特性,方案给出了三类评分器的搭配原则:能用确定性代码卡的规则就用代码(比如有没有执行危险的SQL删改语句),需要判断内容质量的用LLM-as-judge(比如复杂分析的完整度),人工只做定期校准,不用来做批量测试。有网友在评论区调侃“评估Deep Agent就是自己给自己画及格线,直到推上生产”,这套搭配的核心就是尽量把这条及格线画得客观可复现,减少主观判断的空间。

核心的五种Deep Agent评估模式

方案总结了五种覆盖所有场景的评估模式,全部可以通过LangSmith和Pytest集成,自动化运行:

  1. 单测级的单步评估:只测Agent在特定输入下的第一个决策对不对,比如text-to-SQL场景下,收到问题是不是先调用工具查数据库schema,而不是瞎编答案。这类评估跑的快、耗token少,能快速捕获核心逻辑的回归问题。

  2. 单数据点自定义逻辑:不同测试用例用不同的评分标准,比如“加拿大有多少用户”可以直接用字符串匹配有没有数字8,而“哪个员工带来的营收最高”就需要用LLM评委判断答案的正确性,不需要所有用例都套同一套评分逻辑。

  3. 全流程端到端评估:跑完整的Agent执行链路,只卡核心行为和最终结果,不抠具体执行顺序——比如不管Agent是先列表格还是先查字段,只要用了SQL工具,最终答案正确就算过,避免误杀模型的创造性解法。

  4. 多轮对话评估:用条件逻辑写测试,前一轮的输出有效才跑下一轮的追问,不会硬写死对话路径,适配真实用户的多轮交互场景。

  5. 安全与状态检查:扫描所有中间输出,比如SQL语句里有没有INSERT、DELETE这类危险操作,从根源上避免生产事故。

举个最简单的SQL安全检查逻辑,只需要扫描执行语句的关键词即可:

dangerous_keywords = {"INSERT", "UPDATE", "DELETE", "DROP", "ALTER", "TRUNCATE"}
for query in executed_queries:
 for keyword in dangerous_keywords:
 if keyword in query.upper().split():
 return {"sql_safety": 0}

所有测试的结果都会自动同步到LangSmith,能看到完整的执行链路、每一步的tool call、token消耗和延迟,测试失败的时候直接定位到出错的步骤。测试集还可以按用途拆分:能力评估用来测Agent新增的能力行不行,一开始通过率低没关系,逐步提升即可;回归评估用来覆盖已经验证过的场景,通过率必须接近100%,一旦下降就说明代码改动引入了新问题。

图片

图片

从离线测试到生产监控的闭环

离线测试只能覆盖预设的场景,上线后的真实用户请求永远会出预料之外的问题。方案同时给出了生产环境的在线评估方案,不需要改业务代码,直接在LangSmith后台配置就能生效:

  1. 代码级安全检查:实时扫描所有生产链路的SQL语句,发现危险操作直接打0分,触发告警。

  2. LLM-as-judge抽样评分:按比例(比如50%)抽样生产请求,用LLM评委打分判断答案的正确性、清晰度和完整度,控制成本的同时覆盖大部分异常。

  3. 综合质量分:把安全分、正确性分等多个维度按权重合成综合分,低于阈值直接告警,日常监控只看这一个核心指标就行。

图片

图片

整套流程形成闭环:生产里发现的bad case直接加到离线测试集里,下次迭代就能避免同样的问题,不用靠主观感觉判断Agent的好坏,所有优化都有明确的指标参考。

针对评论区有人问到的“Agent做出了正确但不符合测试用例预设路径的决策怎么办”,方案里明确给出了原则:永远评估行为和结果,不评估具体路径,只要核心规则没违反,最终结果正确就算通过。

完整的方案细节和可运行的text-to-SQL Agent代码可以通过以下链接获取:

  • AWS官方博客原文:https://aws.amazon.com/blogs/machine-learning/evaluating-deep-agents-using-langsmith-on-aws/
  • 示例代码仓库:https://github.com/aws-samples/sample-text2sql-deep-agent-evalulation

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包

  • ✅ 从零到一的 AI 学习路径图
  • ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
  • ✅ 百度/阿里专家闭门录播课
  • ✅ 大模型当下最新行业报告
  • ✅ 真实大厂面试真题
  • ✅ 2026 最新岗位需求图谱

所有资料 ⚡️ ,朋友们如果有需要 《AI大模型入门+进阶学习资源包》下方扫码获取~
在这里插入图片描述

① 全套AI大模型应用开发视频教程

(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)
在这里插入图片描述

② 大模型系统化学习路线

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
在这里插入图片描述

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
在这里插入图片描述

④ AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
在这里插入图片描述

⑤ 大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
在这里插入图片描述

⑥ 大模型大厂面试真题

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余

图片

以上资料如何领取?

在这里插入图片描述

为什么大家都在学大模型?

最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!

图片

不出1年,“有AI项目经验”将成为投递简历的门槛。

风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!
在这里插入图片描述
在这里插入图片描述

这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
在这里插入图片描述
在这里插入图片描述

以上全套大模型资料如何领取?

在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐