市面上的 Agent 教程,要么太浅、要么太碎。真正能让你从"我想做一个Agent"到"我做出了一个能用的 Agent"的完整路径,几乎找不到。

干脆自己动手了vibecoding一个出来。

把 Anthropic、OpenAI 还有各路高手的零散资料全部揉碎,和我的搭档 Claude 一起,硬是肝出了一套面向普通人的完整课程。目标就一个:学完就能动手,今天就做出你的第一个 Agent。

1. Agent 是怎么工作的

先搞清楚底层逻辑,不然你根本不知道为什么要用 Agent,以及什么时候该用 Agent。

所有 Agent 的核心循环都是一样的:

用户输入 → LLM 思考 → LLM 决定(回复还是调用工具)→ 如果调用工具:执行,把结果传回 → 重复

LLM 是"大脑",负责推理。工具是"手",负责执行具体动作(计算器、网页搜索、文件读写)。记忆是"笔记本",记录已经发生的事情。不管你用 LangGraph、CrewAI、Anthropic 的 SDK 还是 OpenAI 的 Agents SDK,框架只是在这个循环上包了一层抽象,本质没变。

增强版 LLM

普通 LLM 输入文本、输出文本。增强版 LLM 加了三个能力:

  • **工具(Tools):**模型可以调用的函数,计算器、数据库、API、文件操作等。Anthropic 通过 input_schema 暴露工具,OpenAI 用 function 对象包装参数。
  • **检索(Retrieval):**从外部来源拉取相关信息,搜索引擎、文档、向量数据库。
  • **记忆(Memory):**通过消息历史或持久化存储,在多次交互中保留信息。

工作流 vs. 真正的 Agent

选型的时候搞清楚这个区别很重要。工作流是确定性的,你的代码控制执行流程,同样的输入永远走同一条路,适合步骤固定、定义明确的任务,成本也低。Agent 是动态的,LLM 自己决定下一步,可以反复调用工具,适合开放式任务,但成本更高。

正确的做法是:先用简单的工作流试试,看能不能满足需求,再考虑升级成完全自主的 Agent。

2. 五种工作流模式

大部分问题其实根本不需要 Agent 就能解决。这五个模式是 Anthropic 文档记录、被业界广泛采用的常见方案,每个都依赖增强版 LLM。

模式一:Prompt Chaining(链式提示)

把任务拆成顺序执行的步骤,每个 LLM 调用处理前一个的输出。在步骤之间加程序化的"门卫"来验证质量。

适用场景: 任务能干净地分解成固定子任务。用速度换精度,让每个 LLM 调用更简单。

例子: 生成营销文案再翻译。写大纲、验证覆盖了关键主题、再写完整文档。

模式二:Routing(路由)

对输入进行分类,然后分发给专门的处理器。每个处理器有自己的优化 prompt。

适用场景: 不同类别的输入需要完全不同的处理方式。客服工单分类是经典例子。

模式三:Parallelisation(并行化)

同时跑多个 LLM 调用。Sectioning 把任务拆成独立的子任务并行处理;Voting 跑同一个任务多次,聚合结果获得更高置信度。

适用场景: 子任务相互独立(sectioning),或者需要对关键决策达成共识(voting)。

模式四:Orchestrator-Workers(编排器-工作者)

一个中心 LLM(编排器)动态拆分任务,分发给 worker LLM。和并行化不同,子任务不是预定义的,编排器在运行时决定。

适用场景: 复杂任务,无法提前预知结构。跨多文件生成代码、研究任务、写报告。

模式五:Evaluator-Optimiser(评估器-优化器)

一个 LLM 生成输出,另一个评估并给出反馈。如果评估不通过,反馈循环回去。反复直到满足质量标准。

适用场景: 有明确评估标准,迭代优化能带来可衡量价值的场景。翻译、代码生成、写作任务。

3. 构建你的第一个 Agent

这部分是文章的核心——怎么把"我想要一个 Agent 帮我做 XYZ"变成真实可用的东西。

最简单的心法就五步:

  1. 把工作写下来
  2. 决定它需要什么工具
  3. 告诉模型怎么表现
  4. 用 5 个真实例子测试
  5. 只有失败了才加复杂度

你不需要同时掌握五个框架才能搭 Agent。对普通人来说,最好的起点就两个:

  • **Anthropic:**如果你想要一个能操作文件、跑 shell 命令、做网页搜索、coding 能力强的"能干的操作员"
  • **OpenAI:**如果你想要一个开发体验干净、有托管工具、handoffs、guardrails、能快速上生产的 SDK

这份指南主要讲这两个。

最简心智模型

构建 Agent 之前,先回答这四个问题:

1. 要达成什么结果?Agent 实际要产出什么?

例子:

  • “研究一个主题并写摘要”
  • “读我的笔记并转成卡片”
  • “看支持工单并正确路由”
  • “对比产品并给我最佳选项”
  • “审核内容并用自己的风格重写”

2. 它需要什么信息? 需要网页搜索、文件、数据库、表格、CRM,还是只要用户的消息?

3. 它可以执行什么操作? 只能回答?只能搜索?可以改文件?可以发邮件?可以写代码?可以调用你自己的函数?

4. 它必须遵守什么规则? 语气、格式、约束、安全规则、遇到不确定怎么办、"好"的标准是什么。

能清楚回答这四个问题,通常一天内就能搭出第一版 Agent。

用 AI 帮你设计 Agent

正式动手之前,先用 Claude 或 ChatGPT 帮你定义清晰。

粘贴类似这样的内容:

I want to build an AI agent.My goal:[描述你想要它做什么]The user will ask things like:[加5个真实例子]The agent should have access to:[网页搜索 / 文件 / 计算器 / 自定义 API / 其他]It must always:[列出不可妥协的规则]It must never:[列出边界]Please turn this into:1. A clear agent spec2. A system prompt3. A tool list4. A first version roadmap5. 10 test cases

这一个 prompt 就能把新手的模糊想法变成可执行的计划。

Agent 设计公式

每次设计都用这个结构:

Agent = 角色 + 目标 + 工具 + 规则 + 输出格式

例子:

  • **角色:**加密项目研究助手
  • **目标:**查找准确信息并清晰总结
  • **工具:**网页搜索、文件搜索、计算器
  • **规则:**引用来源、不猜测、标注不确定性
  • **输出格式:**总结、风险、机会、最终判断

这就是大多数有用 Agent 的基础。

五种入门 Agent 类型

新手别一上来就搞多 Agent 集群。先从这五个里挑一个:

1. 研究 Agent

适用场景:想让 Agent 收集信息并总结。

例子:

  • “研究脚踝扭伤最好的康复训练”
  • “找某个加密协议的最新动态”
  • “对比三款笔记本电脑”

需要的工具:网页搜索、如果用自己的文档还要文件搜索、清晰的输出格式。

2. 内容 Agent

适用场景:想让 Agent 写、改写、总结或转换内容。

例子:

  • “把我的笔记转成通讯”
  • “用我的品牌语气重写”
  • “总结这个会议记录”

需要的工具:通常只要一个强的 system prompt,可选加文件访问、加你的风格示例。

3. 工作流 Agent

适用场景:想让 Agent 执行可重复的业务流程。

例子:

  • “分类支持工单”
  • “把线索路由到正确分类”
  • “检查表单提交并生成回复草稿”

需要的工具:清晰的分类规则、有些场景还要自定义工具或 API 调用。

4. 个人知识 Agent

适用场景:想让 Agent 用你自己的文档回答问题。

例子:

  • “只用我的 PDF 回答”
  • “搜我的笔记并解释这个主题”
  • “找出所有提到这个客户的 reference”

需要的工具:文件搜索或 RAG、清晰的指令让 Agent 严格基于提供的材料。

5. 操作 Agent

适用场景:想让 Agent 在某个环境中执行操作。

例子:

  • “读这些文件并编辑”
  • “搜网页、收集发现、保存报告”
  • “跑 shell 命令并帮我 debug”

需要的工具:工具、权限、强的安全边界。

Anthropic:构建第一个 Agent 的最简路径

Anthropic 的 Agent 工具链在你需要模型使用工具、在某个环境中操作时特别顺手。Claude Code 2025 年 2 月上线,后来改名叫 Claude Agent SDK,2026 年 3 月 GitHub 最新 release 是 v0.1.50。

选 Anthropic 的场景:

优先选它如果你的 Agent 需要:

  • 读、写、编辑文件
  • 用 shell 命令
  • 搜索网页
  • 用 MCP 工具
  • 做 coding 和技术活
  • 像个能干的助手一样一步步操作

用 Anthropic 真正在做的事:

入门级来说,你就做了三件事:

  1. 给 Claude 一个任务
  2. 给 Claude 工具
  3. 让 Claude 循环执行直到完成

没了。

入门例子:研究总结 Agent

假设你想要:

“一个能研究主题并给我写出干净报告的 Agent”

设计计划:

  • **角色:**高级研究助手
  • **目标:**查找准确信息并清晰总结
  • **工具:**网页搜索,可选加文件访问
  • **规则:**引用来源,说不确定的地方,保持简洁
  • **输出:**要点总结 + 关键发现 + 风险或不确定性 + 最终结论

这就是你的 system prompt:

SYSTEM_PROMPT = '''You are a careful research assistant.Your job is to help the user research topics accurately.Use tools when needed.Do not guess.If information is uncertain or incomplete, say so clearly.Always produce:1. Summary2. Key findings3. Risks or uncertainty4. Final conclusion'''

然后用户可以问:

  • “研究最新的 AI Agent SDK”
  • “对比 Anthropic 和 OpenAI 哪个适合新手搭 Agent”
  • “找三个强来源并总结”

这已经是一个可用的 Agent 了。

OpenAI:构建第一个 Agent 的最简路径

OpenAI 2025 年 3 月 11 日发布了 Agents SDK,配合 Responses API,内置了网页搜索、文件搜索、电脑操作等工具。Python 包 openai-agents 2026 年 3 月版本是 0.13.1。

选 OpenAI 的场景:

优先选它如果你的需求是:

  • 一个非常干净的 Agent API
  • 简单的自定义函数工具
  • 内置托管工具
  • specialist Agent 之间的 handoffs
  • guardrails 和 tracing
  • 从原型到生产的平滑路径

用 OpenAI 真正在做的事:

入门级来说,你就做了四件事:

  1. 创建一个 Agent
  2. 给他指令
  3. 需要的话加工具
  4. 用真实用户请求跑起来

没了。

入门例子:支持分类 Agent

假设你的目标是:

“读收到的支持请求,判断是billing、technical还是sales”

设计:

  • **角色:**支持分类助手
  • **目标:**正确分类请求
  • **工具:**不用,后续可能加 CRM 工具
  • **规则:**只选一个分类,简短解释原因
  • **输出:**分类 + 原因

代码:

from agents import Agent, Runneragent = Agent(    name="Support Triage Agent",    instructions="""You classify customer requests.Choose exactly one category:- billing- technical- salesReply with:1. Category2. One sentence explaining why""",)result = Runner.run_sync(agent, "I was charged twice for my subscription this month.")print(result.final_output)

这已经是一个有用的 Agent 了。

入门例子:加一个自定义工具

假设你想要:

“在需要的时候帮用户计算值”

from agents import Agent, Runner, function_tool@function_tooldef calculate(expression: str) -> str:    import math    allowed = {k: v for k, v in math.__dict__.items() if not k.startswith("__")}    return str(eval(expression, {"__builtins__": {}}, allowed))agent = Agent(    name="Math Helper",    instructions="Help the user solve maths problems. Use the calculator tool when needed.",    tools=[calculate],)result = Runner.run_sync(agent, "What is compound growth on 10000 at 5 percent for 8 years?")print(result.final_output)

现在这个 Agent 不只是在聊天了,它在通过工具执行动作。

入门例子:用托管工具

OpenAI Agents SDK 也支持托管工具(网页搜索、文件搜索、代码解释器),新手可以理解成 SDK 文档里的"预建能力",直接 attach 到 Agent 上,不用从头写。

这意味着你可以搭这样的 Agent:

  • “搜这个主题的网页并总结”
  • “搜我的文件并从中回答”
  • “跑代码分析这个数据”

定制 Agent 的检查清单

新手常犯的错误是:搭了个通用助手,而不是具体的 Agent。

1. 把工作做窄

❌ 不好:“帮我处理业务的事”

✅ 好:

  • “把销售通话总结成行动要点”
  • “把线索分成热、温、冷”
  • “研究加密项目并输出风险、催化剂、最终判断”

2. 定义输出格式

❌ 不好:“给我一个答案”

✅ 好:

  • “返回:总结、证据、风险、下一步”
  • “返回 JSON:category、confidence、explanation”
  • “返回 bullet list,五个标题以下”

3. 给例子

想要特定语气、结构、分类质量的话,例子很有用。

告诉模型:

  • “这是三个好输出的例子”
  • “这是五个请求分类的例子”
  • “用这个精确的风格写”

4.只在需要的时候加工具

任务只是改写笔记就别加网页搜索。答案应该只来自 prompt 就别加文件访问。每个额外工具都会增加复杂度。

5. 用真实 prompt 测试,不要用理想的测试

用真实用户会输入的那种混乱 prompt 测试。

不要只测试:

  • “请分类这个技术问题”

也要测试:

  • “my account is broken and i keep getting charged what do i do”

这才是你真正能看到 Agent 实际表现的地方。

你的构建路径

**Step 1:**写一句话描述 Agent 例子:“我想要一个 Agent,把我的粗糙笔记整理成干净的周报。”

**Step 2:**问 Claude 或 ChatGPT 帮你转成:

  • Agent spec
  • System prompt
  • Tool list
  • 10 个测试 prompt

**Step 3:**搭最小可运行版本 不要多 Agent。不要复杂记忆。除非必要,不要上 RAG。

**Step 4:**用 10 个真实例子测试

**Step 5:**一次改进一件事

  • prompt
  • 输出结构
  • 例子
  • 工具
  • 记忆
  • 检索

这个顺序很重要,别搞混。

不要犯这个错:

最大的错误是试图搭一个"万能超级 Agent"。

不要一上来就:

  • 网页搜索
  • 文件搜索
  • 数据库访问
  • 记忆
  • 多 Agent handoffs
  • 复杂 guardrails
  • 自定义 dashboard
  • 20 个工具

从这些开始:

  • 一个任务
  • 一个 Agent
  • 一个清晰的 prompt
  • 最多一两个工具
  • 五到十个真实测试用例

不把自己搞复杂,这才是正确的路。

4. 怎么用好工具

大多数人都把这件事搞复杂了。

你只需要理解一件事:

工具就等于:“AI 自己做不到的事”

例子:

  • 算数字
  • 搜网页
  • 读文件
  • 发邮件
  • 查数据库

Step 1:先问自己"这需要工具吗?"

加任何东西之前,先问:

  • 模型能单靠推理回答这个问题吗?
  • 还是需要现实世界的数据或动作?

不需要工具的例子:

  • “改写这封邮件”
  • “总结这段文字”
  • “解释这个概念”

需要工具的例子:

  • “现在天气怎么样?”
  • “搜最新新闻”
  • “算复利”
  • “从我的表格拉数据”

👉 规则:需要外部数据或动作 → 用工具;不需要 → 别加

Step 2:用 AI 帮你设计工具

I am building an AI agent.My goal:[描述目标]Here is what I think the agent needs to do:[列出动作]Which of these require tools?What tools should I create?Keep them simple and minimal.Return:1. Tool list2. Tool descriptions3. Inputs required for each tool

这能帮你省很多时间。

Step 3:保持简单 stupid

❌ 差的工具:

manage_files(action, file, destination, overwrite, format, permissions)

✅ 好的工具:

read_file(path)write_file(path, content)delete_file(path)

👉 规则:一个工具 = 一个明确的任务

Step 4:告诉 Agent 什么时候用工具

这是大多数人失败的地方。

❌ 不好:“计算器工具”

✅ 好:“当需要数学的时候用这个工具。不允许猜测计算结果。”

Step 5:让 Agent 失败,然后修

用真实测试跑:

  • “2^16 是多少”
  • “算一下 10 年 7% 增长”

如果:

  • 不使用工具 → 修描述
  • 用得不对 → 修输入
  • 产生幻觉 → 规则定严格点

5. 给 Agent 加记忆

这件事也被严重过度复杂化了。

你只需要理解两件事:

记忆就两种

1. 短时记忆(对话)

就是:“到目前为止说了什么”

你用默认配置就已经有了。

2. 长时记忆(外部知识)

就是:“Agent 以后可以查的东西”

例子:

  • 你的笔记
  • PDF
  • 文档
  • 数据库

什么时候真正需要记忆?

问自己:

  • Agent 需要跨消息记住事情吗?→ 是 → 短时记忆
  • 需要用外部文档吗? → 是 → 长时记忆
  • 否则 → 大概率不需要

Step 1:用 AI 帮你决定要不要加记忆

I am building an AI agent.My goal:[目标]Does this agent need:1. Conversation memory?2. External knowledge (RAG)?If yes, explain why.If no, explain why not.Keep it simple.

Step 2:你有三个选项

选项 A:不用记忆(先从这里开始)

  • 大多数入门者的最佳选择
  • 70% 的场景够用

选项 B:对话记忆

  • 大多数 SDK 已经处理好了
  • 只要别 reset 消息就行

选项 C:基于文件的记忆(简单 RAG)

  • 上传文档
  • 用文件搜索工具

Step 3:不要用力过猛

大错:

  • 上向量数据库
  • 上 embeddings
  • 上复杂 pipeline

在甚至不知道是否需要之前就上这些。

👉 规则:如果 Agent 不用记忆就能工作 → 别加

6. 让 Agent 跑起来

这是 Agent 做得好不好、能不能用的关键。很多 Agent 做得很烂就是因为:

  • prompt 写得差
  • 不测试
  • 期望不现实

Step 1:用 AI 生成测试用例

I built an AI agent with this goal:[目标]Create 15 realistic user inputs:- messy- vague- real-world styleAlso include:- edge cases- confusing inputs- bad inputs

Step 2:像真实用户那样测试

不要测:

“请分类这个billing请求”

要测:

“why tf did i get charged again”

Step 3:一次只修一件事

失败的时候问:

  • prompt 不清楚?
  • 输出格式模糊?
  • 缺工具?
  • 缺规则?

Step 4:用 AI debug 你的 Agent

Here is my agent:Here is what I asked:[input]Here is the output:[output]What went wrong?How do I fix it?Be specific.

Step 5:不要过早搞复杂

在以下条件满足之前,不要加:

  • 多个 Agent
  • 复杂工作流
  • 自动化 pipeline

直到:你的简单版本能稳定工作

7. 多 Agent 协作

这件事很容易让你彻底跑偏。

有人觉得:“多 Agent = 更强”

错。

永远从一个 Agent 开始。

只有在以下情况才加更多:

  • 任务明显可拆分
  • 一个 Agent 扛不住
  • 角色差异很大

需要多 Agent 的三种情况

1. 不同技能

例子:

  • 研究 Agent
  • 写作 Agent

2. 清晰 pipeline

例子:

  • 输入 → 分析 → 写作 → 输出

3. 不同权限

例子:

  • 一个 Agent 可以读数据
  • 一个 Agent 可以执行动作

用 AI 帮你决定要不要多 Agent

I built an AI agent.Here is its job:[描述]Should this be:1. A single agent2. Multiple agentsIf multiple:- what roles?- why?Keep it simple.

最安全的模式

Supervisor 模式:

用户 → 主 Agent →(需要时调用其他 Agent)

不要一上来就用:

  • swarm
  • 完全自主的多 Agent 系统

这些很容易坏。

角色保持简单 stupid

❌ 不好:“AI 战略 Agent,带动态认知分层”

✅ 好:

  • “研究 Agent”
  • “写作 Agent”

慢速加 Agent

从:

  • 1 个 Agent

然后:

  • 最多 2 个 Agent

只有看到真实好处才扩展。

8. 收尾

这篇文章最重要的结论是:Agent 概念上简单,落地起来却要求很高。 Agent Loop(LLM 思考、调用工具、重复)50 行 Python 代码就能跑完。真正费功夫的是工具设计、错误处理、评估,以及知道什么时候该用更简单的模式(Prompt Chaining、Routing)而不是完全自主的 Agent。

三个可操作的结论

1. 先搭一个从零开始的 Agent

搞懂底层循环之后,每个框架对你来说都是透明的,而不是玄学。debug 问题的速度快得多,选工具也更明智。

2. 用能工作的最简单模式开始

Prompt Chain 能处理大多数多步任务。Routing 能处理大多数分类后执行的工作流。只有当你需要 LLM 动态决定执行路径的时候,才升级到自主 Agent。

3. 及早投资工具设计和评估

好工具的特征:名字清晰、描述精准、错误消息结构化。这三样东西对 Agent 性能的提升,比换模型或换框架有效得多。20 个好的测试用例,比大量人工测试能抓到更多 bug。


这个领域变化很快。MCP 不到一年就成了通用标准,两个大厂都出了 Agent SDK,新框架每月都在冒出来。但这份指南里的基础是稳定的:Agent Loop、五种工作流模式、好工具的设计原则,以及"从简单开始"的纪律。掌握这些,你就能适应接下来出现的一切。

你现在可以搭一个 Agent 了。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐