LangChain：编码智能体技能评估5步法，Claude Code效率提升91%！

乔代码嘚

418人浏览 · 2026-03-19 14:26:23

乔代码嘚 · 2026-03-19 14:26:23 发布

编者摘要：2026 年 3 月 LangChain 发布的这篇博客，核心分享了编码智能体技能的定义、标准化评估流水线及实操最佳实践，旨在解决技能研发中的有效性验证问题。技能是为提升智能体特定领域性能、通过渐进式披露动态加载的指令 / 脚本 / 资源，本质为动态提示词，因会影响智能体行为，需像测试 LLM 提示词一样系统评估。

博客提出五步基础评估流水线：定义目标任务、开发适配技能、对比智能体有无技能的任务执行表现，进而迭代技能。落地核心分为四大步骤，且全程以 LangSmith 为核心工具支撑：一是搭建 Docker 等干净可复现的测试环境，消除智能体启动条件敏感的影响；二是基于实际失败案例设计有约束的任务，搭配技能调用情况、任务完成度等量化指标，避免过度设计任务难度；三是科学设计技能，通过 XML 标签实现模块化、依托 AGENTS.md 提升调用可靠性、平衡技能数量与内容分布；四是设计多组测试用例对比性能，借助 LangSmith 捕获智能体执行轨迹，实现可观测性，让智能体自主分析失败原因，形成研发迭代闭环。

测试数据显示，Claude Code 有技能时任务完成率达 82%，无技能仅 9%。博客最终指出，技能是提升编码智能体能力的有效方式，而干净的测试环境、标准化任务指标、科学的技能设计及基于 LangSmith 的可观测性，是搭建评估流水线的关键，量化评估与可观测性更是技能高效迭代的核心

这篇发布于 2026 年 3 月 5 日的 LangChain 官方博客，由 Robert Xu 撰写，核心围绕编码智能体（Coding Agent）的技能（Skills）评估展开，详细定义了技能的概念，提出了技能评估的基础流水线，并分享了落地该流水线的四大核心步骤与最佳实践，同时结合 LangSmith 平台的能力，阐述了如何实现技能的高效测试与迭代，以下是内容的详细总结：

一、背景与技能（Skills）的定义

研发背景

LangChain 为 Codex、Claude Code、Deep Agents CLI 等编码智能体打造适配 LangChain/LangSmith 生态的技能，而技能的有效性验证是研发核心；目前几乎所有企业都在探索为编码智能体开发技能，技能评估成为通用需求。
技能的定义

是经整理的指令、脚本和资源，用于提升智能体在特定领域的性能，核心特性为渐进式披露的动态加载—— 仅当技能与当前任务相关时，智能体才会调取，解决了 “给智能体过多工具导致性能下降” 的问题。
技能的本质与测试必要性

实际可视为智能体需要时动态加载的提示词（Prompt），其会对智能体行为产生不可预期的影响，因此需像测试 LLM 提示词一样，验证 “哪些技能能提升性能”“哪些内容修改的优化效果最显著”。

二、技能评估的基础流水线

LangChain 提出的标准化评估流程共 5 步，核心是对比智能体在 “有无技能” 下的表现，并持续迭代技能：

定义希望 Claude Code 等编码智能体完成的目标任务；
开发适配这些任务的对应技能；
让智能体在无技能的情况下执行任务；
让智能体在有技能的情况下执行相同任务；
对比两次执行的性能表现，对技能进行优化迭代。

三、技能评估的四大步骤与最佳实践

博客将基础流水线落地为四大可执行步骤，每个步骤均给出实操指南、避坑点和代码 / 案例示例，是全文的核心内容。

步骤 1：搭建干净、可复现的测试环境

核心原因

测试技能本质是测试智能体能否有效利用技能信息，而编码智能体 / 工具集的行动空间大，且对启动条件高度敏感（如 Claude Code 会先探索目录，目录内容会影响其执行策略），因此一致、干净的环境是测试可复现的关键。
实操方案

LangChain 采用轻量级 Docker 脚手架运行 Claude Code，并提供了对应的 Python 实现代码；也可选择 Harbor 或其他沙箱环境替代。
核心代码

给出run_claude_in_docker函数，实现 Docker 中 Claude CLI 的运行，支持指定测试目录、提示词、超时时间和模型，处理了 Docker 不可用、运行超时等异常情况。

步骤 2：定义标准化的测试任务

摒弃 “凭感觉判断性能” 的方式，通过明确、可量化的任务建立系统基准，避免性能退化，核心原则有 3 点：

创建有约束的任务

问题：开放式输出难以评分，且对智能体设计过度规定会否定有效解决方案；
方案：选择修复有 bug 的代码这类任务，缩小智能体的设计空间，便于验证正确性（若修复后仍在预定义测试中出现 bug，可直接判定失败）。

为任务匹配清晰的量化指标

核心跟踪指标（均通过 LangSmith 评估记录）：技能是否被正确调用（相关时调用、无关时不调用）；任务是否完成（统计完成步骤数，区分 “完全失败” 和 “接近成功”）；完成任务的轮次（衡量效率）；完成任务的实际耗时（更精准的效率指标）；
价值：实现技能对智能体性能提升的量化，为迭代提供数据支撑。

避免过度设计任务难度

原则：编码智能体本身的问题解决能力已很强，若任务过于复杂 / 对抗性，测试的将是智能体能力而非技能有效性；
方案：基于智能体的实际失败案例设计任务，打造 “能引发失败的最直接测试用例”（如针对 Claude Code 无法向 LangSmith 上传评估器的问题，设计 “基于数据集创建轨迹评估器并上传至 LangSmith” 的任务）。

案例与评分代码

给出 LangChain/LangSmith 相关的示例任务（创建轨迹数据集 + 评估器并上传），并提供check_accuracy评分函数，通过对比智能体输出与真实值（ground truth）验证结果正确性。

步骤 3：科学定义与设计技能内容

核心解决 **“技能内容包含什么、放在哪里”** 的问题，技能研发常伴随预加载的 AGENTS.md/CLAUDE.md 文件，需明确内容的存放位置和拆分方式，核心指南有 3 点：

让技能模块化

实现方式：用 XML 标签划分技能的不同内容板块，便于替换 / 移除板块进行 A/B 测试；
实践发现：300-500 行的大型技能中，小的格式 / 措辞修改（如正面 / 负面引导、markdown/XML 标签）对性能影响极小；迭代时建议修改一个或多个板块，而非精细化优化。

充分利用 AGENTS.md 和 CLAUDE.md

解决问题：技能的调用可靠性低（如 Claude Code 曾完全不调用 “langchain agents” 技能，即使加提示词，调用率也仅 70%）；
方案：因这两个文件会被可靠加载到上下文，可在其中写入技能的调用规则（何时 / 如何调用），以及多技能协同使用的指导，实现技能的稳定调用，提升任务通过率并减少执行轮次。

平衡技能间的内容分布

核心要点：技能名称和描述决定智能体的调用准确性，测试发现～20 个相似 LangGraph 技能会导致智能体调错，而 12 个技能时调用完全准确；
平衡原则：少量技能整合内容会提升加载一致性，但会让智能体读取无关内容；多技能拆分则相反，需通过测试找到最优平衡。

步骤 4：运行测试并对比性能表现

核心是多组合测试 + 结合 LangSmith 实现可观测性 + 基于结果迭代，具体实操：

设计多组测试用例

设置对照组（无技能）、全技能组、技能整合成少数大技能组、技能拆分为多个小技能组，覆盖不同的技能使用场景。
量化对比性能

通过 LangSmith 的 pytest 集成对比各组任务完成率，核心数据：Claude Code 有技能时任务完成率 82%，无技能时仅 9%；且不同的技能拆分 / 整合方式在不同任务上的表现有差异。
实现智能体轨迹的可观测性

解决问题：难以理解 Docker 中 Claude Code 的执行行为和失败原因；
方案：将 LangSmith 与测试集成，捕获智能体的所有行动（读取的文件、创建的脚本、技能调用情况），实现执行轨迹的全链路追踪。

高效迭代技能

让 Claude Code 利用自身的追踪技能分析 LangSmith 中的轨迹数据，自动总结失败问题；研发人员基于总结提出修复方案，重新测试后，在 LangSmith 的实验门户中查看性能变化，形成迭代闭环。

四、结论

技能是提升 Codex、Claude Code、Deep Agents CLI 等编码智能体能力的有效方式，可解决智能体 “工具过多导致性能下降” 的问题；
与 LLM 提示词、智能体其他组件一致，技能必须经过系统的评估与测试才能保证有效性，无评估的技能无法落地使用；
搭建技能评估流水线的关键：干净的测试环境、标准化的任务与指标、科学的技能设计、基于 LangSmith 的可观测性与性能对比；
对于编码智能体的技能研发，**“可观测性” 和 “量化评估”** 是核心，尤其针对 Claude Code 这类高性能智能体，只有明确其执行轨迹和失败原因，才能实现技能的高效迭代。

五、工具支撑

全文围绕LangSmith展开，其作为 LangChain 的可观测性与评估平台，承担了指标跟踪、轨迹捕获、实验对比、结果可视化的核心作用，是技能评估流水线落地的关键工具，同时其 pytest 集成、实验门户等功能实现了测试的自动化与迭代的高效化。

AI行业迎来前所未有的爆发式增长：从DeepSeek百万年薪招聘AI研究员，到百度、阿里、腾讯等大厂疯狂布局AI Agent，再到国家政策大力扶持数字经济和AI人才培养，所有信号都在告诉我们：AI的黄金十年，真的来了！

在行业火爆之下，AI人才争夺战也日趋白热化，其就业前景一片蓝海！

我给大家准备了一份全套的《AI大模型零基础入门+进阶学习资源包》，包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。😝有需要的小伙伴，可以VＸ扫描下方二维码免费领取🆓

在这里插入图片描述

人才缺口巨大

人力资源社会保障部有关报告显示，据测算，当前，****我国人工智能人才缺口超过500万，****供求比例达1∶10。脉脉最新数据也显示：AI新发岗位量较去年初暴增29倍，超1000家AI企业释放7.2万+岗位……

单拿今年的秋招来说，各互联网大厂释放出来的招聘信息中，我们就能感受到AI浪潮，比如百度90%的技术岗都与AI相关！

就业薪资超高

在旺盛的市场需求下，AI岗位不仅招聘量大，薪资待遇更是“一骑绝尘”。企业为抢AI核心人才，薪资给的非常慷慨，过去一年，懂AI的人才普遍涨薪40%+！

脉脉高聘发布的《2025年度人才迁徙报告》显示，在2025年1月-10月的高薪岗位Top20排行中，AI相关岗位占了绝大多数，并且平均薪资月薪都超过6w！

在去年的秋招中，小红书给算法相关岗位的薪资为50k起，字节开出228万元的超高年薪，据《2025年秋季校园招聘白皮书》，AI算法类平均年薪达36.9万，遥遥领先其他行业！

总结来说，当前人工智能岗位需求多，薪资高，前景好。在职场里，选对赛道就能赢在起跑线。抓住AI风口，轻松实现高薪就业！

但现实却是，仍有很多同学不知道如何抓住AI机遇，会遇到很多就业难题，比如：

❌ 技术过时：只会CRUD的开发者，在AI浪潮中沦为“职场裸奔者”；

❌ 薪资停滞：初级岗位内卷到白菜价，传统开发3年经验薪资涨幅不足15%；

❌ 转型无门：想学AI却找不到系统路径，83%自学党中途放弃。

他们的就业难题解决问题的关键在于：不仅要选对赛道，更要跟对老师！

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

TabPFN 深度技术解读：表格数据基础模型的颠覆性突破与工程化全景

AtomGit开源社区

5个C语言开源项目统治全球科技30年：今天却被AI逼到转型边缘？

AtomGit开源社区

基于 KMP 实现一个跨平台音乐播放器

摘要：LynMusic是一款基于KMP技术开发的跨平台音乐播放器，支持安卓、iOS、macOS等多平台。开发者利用AI编程工具Codex完成了开发，解决了歌词搜索难、平台兼容性等问题。该播放器支持本地音乐、云盘导入、歌词分享、定时播放等功能，并适配车机、电视等设备。采用Kotlin Compose开发，相比Web方案性能更优。项目已开源，开发者分享了使用AI编程的心得，包括需求沟通、代码维护等经验