从一句话请求到AI应用全链路:小白也能看懂Token、Prompt到Harness Engineering(收藏学习)
从一个请求出发,走完 AI 应用的全链路,彻底搞懂 Token、Prompt、Context、Tool、MCP、Agent、Agent Skills 和 Harness Engineering。
想象你对一个 AI 助手说了这样一句话:
“帮我查一下杭州明天的天气,然后写一封邮件告诉我老板明天需要带伞。”
短短一句话,背后却触发了一场精密的连锁反应——你的文字被拆成碎片、装进信封、送入一个读过万亿文字的"大脑"、这个大脑思考后决定上网查天气、拿到结果后又动笔写邮件、最后把邮件发出去。
这篇文章,就是跟着这句话走完它的全部旅程。每经过一个站点,我们就认识一个核心概念。走完全程,你会对 AI 应用的整个技术栈有一个清晰的全景认知。
第一站:大脑 —— LLM(大语言模型)
LLM 就像一个读过整个图书馆的语言天才——它没有真正"理解"世界,但它见过太多文字,以至于能极其流畅地"接话"。
概念介绍
LLM,全称 Large Language Model(大语言模型),是整个 AI 应用的核心引擎。GPT、Claude、Gemini、千问大模型——这些都是 LLM。
它的工作原理,其实很简单,本质上只做一件事:预测下一个词。
当你说"今天天气真",LLM 会根据它在训练中见过的海量文本,计算出下一个词最可能是"好"(而不是"桌子"或"紫色")。把这个过程不断重复——预测下一个词、再预测下一个词——就能生成一整段流畅的文字。

LLM 预测下一个 Token
但别被"预测下一个词"这个简单描述骗了。现代 LLM 拥有数千亿个参数(可以理解为"神经连接"),在万亿级别的文本上训练。这种规模带来了涌现能力——它不仅能接话,还能推理、总结、翻译、写代码,甚至表现出一定的"常识"。
在 LLM 出现之前,让机器理解人类语言需要大量的规则编写和特征工程。你想做一个聊天机器人?得手写几百条 if-else。想做翻译?得雇语言学家标注语法树。
LLM 一次性解决了这个问题:你只需要用自然语言告诉它你想要什么,它就能理解并回应。这是从"编程控制机器"到"对话驱动机器"的范式转变。
回到我们的旅程:你说的那句"帮我查一下杭州明天的天气……",最终就是要告诉LLM来处理。但在送进去之前,它需要先经过一道翻译工序。

第二站:积木块 —— Token(词元)
Token 就像乐高积木块——LLM 不认识"文字",它只认识一块块标准化的小积木。你说的每句话,都要先被拆成这些小积木,才能送进大脑。
概念介绍
你说的那句话——“帮我查一下杭州明天的天气,然后写一封邮件告诉我老板明天需要带伞”——在 LLM 眼里,并不是一个个汉字或单词,而是一串 Token。
Token 是 LLM 处理文本的最小单位。它可能是一个完整的词,也可能是词的一部分,甚至是一个标点符号。不同的 LLM 使用不同的分词器(Tokenizer),拆法也不同。

Token 化过程
以英文为例,"Hello, world!" 会被拆成 ["Hello", ",", " world", "!"] 共 4 个 Token。中文的拆分更有趣——现代 LLM 使用的 BPE(Byte Pair Encoding)分词器并不是按"语义"来分词的,而是基于统计频率来合并字节对。常见的中文词会被合并成一个 Token,不常见的字可能被拆成更小的字节片段。
你可以在 OpenAI 的 Tokenizer 工具 中实际体验分词效果,亲眼看看你的文字是怎么被"拆积木"的。
为什么要关心 Token? 因为它直接关系到两件事:
- 成本:LLM 的 API 按 Token 数量计费。GPT-4.1 的价格是每百万输入 Token 2 美元,每百万输出 Token 8 美元。你的每一句话、每一个回复,都在"烧 Token"。
- 容量限制:每个 LLM 都有一个 Token 上限(后面会详细讲),超过了就装不下了。
回到旅程:你的那句话被拆成了大约 20 多个 Token,像一串编了号的积木块,准备送入下一个环节。
解决什么问题
计算机本质上只能处理数字,不能直接处理文字。Token 是人类语言和机器数字之间的桥梁。每个 Token 都对应一个数字编号(Token ID),LLM 实际上是在对这些数字做数学运算。
没有 Token 化这一步,LLM 就无法"阅读"你的任何输入。
第三站:指令 —— Prompt(提示词)
Prompt 就是你给天才下达的工作指令——同一个天才,给他不同的指令,产出天差地别。Prompt 的质量,直接决定了 AI 回答的质量。
概念介绍
你以为你只是说了一句"帮我查一下杭州明天的天气……“?实际上,在这句话到达 LLM 之前,系统已经在它前面拼接了大量的"隐藏指令”。最终送进 LLM 的完整 Prompt 可能长这样:
【系统指令 - 用户看不到】你是一个智能助手,能够帮助用户完成各种任务。你可以调用以下工具:天气查询、邮件发送。请用中文回复,语气友好专业。当需要查询信息时,先调用工具获取数据,再基于数据回复用户。【用户消息】帮我查一下杭州明天的天气,然后写一封邮件告诉我老板明天需要带伞。
一个完整的 Prompt 通常由三部分组成:

Prompt 三层结构
Prompt Engineering(提示词工程) 就是研究如何写出更好的 Prompt 的学问。一个经典的例子:
❌ 差的 Prompt: "写一首诗"✅ 好的 Prompt: "请用五言绝句的格式,写一首描写西湖春天景色的诗, 要求意境清新,最后一句要有转折。"
同样的 LLM,前者可能给你一首平庸的打油诗,后者则可能产出一首让你眼前一亮的作品。Prompt 是你和 LLM 之间最重要的沟通界面。
回到旅程:你的那句话被包装成了一个结构化的 Prompt,带上了系统指令和工具说明,准备送入 LLM 的"工作台"。
解决什么问题
LLM 虽然强大,但它是一个"通才"——什么都能聊,但不一定聊到点上。Prompt 解决的是精确控制的问题:让 LLM 在正确的角色、正确的约束下,产出符合预期的结果。
没有好的 Prompt,LLM 就像一个没有任务说明书的天才——能力很强,但不知道该往哪使劲。
第四站:工作台 —— Context(上下文窗口)
Context 就是天才的工作桌面大小——桌面越大,能同时摊开的资料越多;但桌面总有边界,超出的部分就会掉到地上,被"遗忘"。
概念介绍
Context Window(上下文窗口)是 LLM 一次能"看到"的全部信息量,用 Token 数量来衡量。你可以把它想象成 LLM 的"短期记忆"。
Context 里装了什么? 所有东西:

Context Window 内部结构
关键问题:Context 满了怎么办?
当对话越来越长,历史消息越来越多,Context Window 就会被塞满。这时候系统必须做出取舍——通常是丢弃最早的对话记录,或者对历史内容做摘要压缩。这就是为什么你和 AI 聊了很久之后,它可能会"忘记"你们最开始聊的内容。
回到旅程:你的 Prompt(系统指令 + 工具定义 + 你的请求)被装进了 Context Window。LLM 扫视整个"工作台"上的所有资料,开始思考该怎么回应你。
解决什么问题
Context 解决的是 LLM 的"视野"问题。没有足够大的 Context,LLM 就像一个只能看到眼前一行字的人——无法理解上下文,无法保持对话连贯,无法处理长文档。
Context Window 的扩大,是 LLM 从"一问一答的玩具"进化为"能处理复杂任务的助手"的关键因素之一。
第五站:双手 —— Tool(工具调用)
Tool 就是给天才配上了电话和电脑——光靠"想"是查不到真实天气的,得拿起电话打给气象局。Tool 让 AI 从"只会说"变成"能做事"。
概念介绍
LLM 读完你的请求后,它意识到一个问题:"杭州明天的天气"这个信息,我脑子里没有。 LLM 的知识截止于训练数据,它不知道"明天"的天气。
这时候,Tool(工具调用)登场了。
Tool 是预先定义好的、LLM 可以"调用"的外部功能。开发者会告诉 LLM:“你有以下工具可以使用”,并描述每个工具的功能和参数格式。
{ "tools": [ { "name": "get_weather", "description": "查询指定城市的天气预报", "parameters": { "city": "城市名称", "date": "日期,格式 YYYY-MM-DD" } }, { "name": "send_email", "description": "发送电子邮件", "parameters": { "to": "收件人邮箱", "subject": "邮件主题", "body": "邮件正文" } } ]}
LLM 分析你的请求后,决定先调用天气工具:
// LLM 的输出(不是给你看的,是给系统执行的){ "tool_call": "get_weather", "arguments": { "city": "杭州", "date": "2026-04-20" }}
注意:LLM 并不是自己去查天气。 它只是输出了一段结构化的"指令",告诉外部系统:“请帮我调用天气 API”。外部系统执行后,把结果返回给 LLM:
{ "result": { "city": "杭州", "date": "2026-04-20", "weather": "小雨", "temperature": "18-23°C", "suggestion": "建议携带雨具" }}
LLM 拿到这个结果,再继续处理你的第二个请求——写邮件。
完整的 Tool 调用流程:

Tool 调用流程
回到旅程:LLM 通过 Tool 查到了杭州明天有小雨,现在它有了写邮件所需的信息。但这里有一个问题——如果每个 AI 应用都要自己写一套工具接入代码,那岂不是重复造轮子?
解决什么问题
LLM 的训练数据是静态的、有截止日期的。它不知道今天的股价、明天的天气、你的日程安排。Tool 解决的是 LLM 与真实世界的连接问题——让 AI 能够获取实时信息、操作外部系统、执行真实动作。
没有 Tool,LLM 就是一个"关在房间里的天才"——博学但与世隔绝。
第六站:万能插座 —— MCP(模型上下文协议)
🎯 一句话理解
MCP 就像 USB-C 统一充电口——以前每个手机品牌都有自己的充电线,现在一根 USB-C 走天下。MCP 让所有 AI 应用和所有工具之间有了统一的"接口标准"。
概念介绍
在 MCP 出现之前,Tool 的接入是碎片化的。假设你有 3 个 AI 应用(ChatGPT、Claude、千问)和 5 个工具(天气、邮件、日历、数据库、文件系统),你需要写 3 × 5 = 15 套集成代码。每个 AI 应用都有自己的工具调用格式,每个工具都要为每个平台单独适配。

MCP:从 M×N 到 M+N
MCP(Model Context Protocol,模型上下文协议) 是 Anthropic 在 2024 年底推出的开源协议,它定义了一套标准化的通信方式,让任何 AI 应用都能通过同一个协议连接任何工具。如上图所示,MCP 将原本 M×N 的集成复杂度降低为 M+N。
MCP 采用 Client-Server 架构,并提供三种核心能力:
- Tools(工具):可执行的操作,如查天气、发邮件、读写数据库
- Resources(资源):可读取的数据源,如文件内容、数据库记录、API 数据
- Prompts(提示模板):预定义的提示词模板,帮助用户更好地与 AI 交互
架构上的两个角色:
- MCP Client(客户端):嵌入在 AI 应用中,负责发起请求
- MCP Server(服务端):包装了具体的能力(Tools / Resources / Prompts),负责执行并返回结果

MCP Client-Server 架构
一个 MCP Server 的定义非常简洁:
{ "name": "weather-server","description": "提供全球天气查询服务","tools": [ { "name": "get_weather", "description": "查询指定城市的天气预报", "inputSchema": { "type": "object", "properties": { "city": { "type": "string", "description": "城市名称" }, "date": { "type": "string", "description": "日期" } }, "required": ["city"] } } ]}
回到旅程:在我们的故事里,AI 助手通过 MCP 协议连接到天气服务的 MCP Server,用标准化的方式查询了杭州的天气。同样的协议,它还能连接邮件服务的 MCP Server 来发送邮件。一个协议,连接一切。
解决什么问题
MCP 解决的是 AI 工具生态的碎片化问题。就像 USB-C 终结了充电线的混乱,MCP 让工具开发者只需要写一次 Server,就能被所有支持 MCP 的 AI 应用使用;AI 应用开发者只需要实现一次 Client,就能接入所有 MCP 工具。
这是 AI 应用从"各自为战"走向"生态互通"的关键一步。
第七站:指挥官 —— Agent(智能体)
🎯 一句话理解
Agent 就像一个项目经理——它不只是回答问题,而是能自主拆解任务、制定计划、调配资源、执行行动,直到把整个项目交付。
概念介绍
让我们回顾一下你的请求:“帮我查一下杭州明天的天气,然后写一封邮件告诉我老板明天需要带伞。”
一个普通的 LLM 聊天机器人可能只会回复一段文字。但一个 Agent 会这样做:

Agent 执行任务的完整过程
Agent 和普通 LLM 对话的核心区别是什么?

Agent vs 普通 LLM 对话
Agent 的核心能力可以用一个循环来概括:

Agent 核心循环
这个 感知-思考-行动-观察 的循环,就是 Agent 的灵魂。它会不断循环,直到任务完成或者判断无法继续。
回到旅程:在我们的故事里,Agent 就是那个把"查天气"和"发邮件"串联起来的指挥官。它分析了你的请求,拆解成多个步骤,依次调用工具,最终完成了整个任务链。
解决什么问题
Agent 解决的是 复杂任务的自动化编排问题。在 Agent 出现之前,即使 LLM 能理解你的意图,也需要人类来手动拆解任务、依次调用工具、处理中间结果。
Agent 让 AI 从"被动回答者"进化为"主动执行者"——你只需要说出目标,它来搞定过程。
第八站:技能 —— Agent Skills(智能体技能)
Agent Skills 就像项目经理的专业认证——一个项目经理可以管理任何项目,但有了 PMP 认证、Scrum Master 认证,他在特定领域就更专业、更高效。
概念介绍
一个通用的 Agent 什么都能做一点,但什么都不够精。Agent Skills 是预定义的、针对特定任务领域的专业能力包。
以我们正在使用的 AI 编程助手为例,它可能拥有这些 Skills:

Agent的技能树
每个 Skill 本质上是一份结构化的指令文档,它告诉 Agent:
- 什么时候激活:遇到什么类型的任务时使用这个技能
- 怎么执行:具体的工作流程、步骤、检查清单
- 质量标准:什么样的结果算"做好了"
Skill 和 Tool 的区别是什么?

Skill 与 Tool 对比
Skill 是更高层次的抽象——它不是一个工具,而是使用多个工具完成复杂任务的策略和流程。
回到旅程:在我们的故事里,如果 Agent 拥有一个"邮件写作"的 Skill,它就不会只是干巴巴地写一封邮件,而是会考虑邮件的语气、格式、称呼,甚至根据"告诉老板"这个上下文,自动使用更正式的措辞。
解决什么问题
Agent Skills 解决的是 Agent 在特定领域的专业度问题。通用 Agent 像一个什么都会一点的实习生,而配备了 Skills 的 Agent 像一个在特定领域有深厚经验的专家。
Skills 让 Agent 的能力从"广而浅"变成"广而深"。
第九站: Harness Engineering(驾驭工程)
🎯 一句话理解
Harness Engineering 就像城市规划师——Agent 是在路上跑的车,而 Harness Engineer 是设计道路、红绿灯、护栏和交通规则的人。没有好的道路系统,再好的车也会翻车。
概念介绍
Birgitta Böckeler(Thoughtworks 杰出工程师)在 2026 年发表于 Martin Fowler 网站的文章中,给出了一个精辟的公式:
Agent = Model + Harness
Harness(驾驭系统) 是 Agent 中除了模型本身以外的一切——系统提示、工具定义、约束规则、反馈循环、错误处理、安全护栏……所有这些"包裹"在模型外面的东西,统称为 Harness。
Harness Engineering(驾驭工程) 就是设计、构建和维护这套 Harness 的工程学科。OpenAI 在 2025 年也发表了同名文章,描述他们如何围绕 Codex 构建 Harness,让 Agent 在实际工程中可靠运转。可以说,这个概念已经成为 AI 工程领域的共识。
为什么需要它?因为 LLM 是非确定性的——同样的输入,可能产生不同的输出。它可能犯错、幻觉、跑偏。Harness 的作用就是:
- 提高首次正确率(Feedforward / 前馈控制):在 Agent 行动之前,通过指令、规则、示例来引导它走正确的路
- 自动纠错(Feedback / 反馈控制):在 Agent 行动之后,通过检查、测试、验证来发现并修正错误

Harness 双重控制机制
一个具体的例子:
假设你让 Agent 帮你写一个 React 组件。没有 Harness 的情况下:
❌ Agent 可能: - 使用了项目中没有的依赖 - 不符合团队的代码规范 - 没有写测试 - 破坏了现有的模块边界
有了良好的 Harness:
✅ Harness 会: 前馈:AGENTS.md 告诉 Agent "使用 TypeScript + Fusion 组件库" 前馈:Skills 告诉 Agent "先写测试再写实现" 反馈:Linter 自动检查代码规范 反馈:测试运行验证功能正确性 反馈:架构测试确保没有违反模块边界
Harness Engineering 的核心理念是"转向循环"(Steering Loop):
当 Agent 反复犯同一个错误时,不是每次手动纠正,而是改进 Harness——添加新的规则、更好的示例、更严格的检查——让这个错误在未来不再发生。

Harness Engineering 转向循环
回到旅程:回看我们的整个故事——从你说出那句话,到 Agent 查天气、写邮件、发送邮件——这条路之所以能走通,是因为有人精心设计了每一个环节:系统提示怎么写、工具怎么定义、错误怎么处理、结果怎么验证。这个"设计道路的人",就是 Harness Engineer。
解决什么问题
Harness Engineering 解决的是 AI Agent 的可靠性和可控性问题。LLM 是非确定性的,Agent 是自主行动的——这两个特性叠加在一起,意味着如果没有良好的"驾驭系统",Agent 随时可能跑偏、犯错、甚至造成损害。
Harness Engineering 是让 Agent 从"实验室玩具"变成"生产级工具"的关键学科。
回看旅程:一张全景图

一个请求的旅程:核心概念全景流程图
上面的全景流程图完整展示了这句话走过的每一个站点。下面用一张表格来总结九个概念,一条链路:
| 概念 | 角色 | 一句话总结 |
|---|---|---|
| LLM | 大脑 | 理解语言、生成回应的核心引擎 |
| Token | 积木块 | 人类语言和机器数字之间的桥梁 |
| Prompt | 工作指令 | 精确控制 LLM 输出的沟通界面 |
| Context | 工作台 | LLM 一次能看到的全部信息 |
| Tool | 双手 | 让 AI 触达真实世界的能力 |
| MCP | 万能插座 | 统一 AI 与工具之间的接口标准 |
| Agent | 指挥官 | 自主规划和执行复杂任务的智能体 |
| Agent Skills | 专业认证 | 让 Agent 在特定领域更专业的能力包 |
| Harness Engineering | 城市规划师 | 让 Agent 可靠、可控的工程学科 |
从 LLM 到 Harness Engineering,我们见证了 AI 应用技术栈的完整演进:
- LLM 给了机器"思考"的能力
- Token 和 Prompt 解决了"怎么和机器沟通"
- Context 决定了机器能"记住"多少
- Tool 和 MCP 让机器能"动手做事"
- Agent 让机器能"自主完成任务"
- Skills 让 Agent 在特定领域"更专业"
- Harness Engineering 确保这一切"可靠运转"
每一层都在解决上一层留下的问题,每一层都让 AI 离"真正有用"更近一步。
普通人如何抓住AI大模型的风口?
领取方式在文末
为什么要学习大模型?
目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。
目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:
人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!
最后
只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!
在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。
真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发
【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】
大模型全套学习资料展示
自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!
01 教学内容

-
从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!
-
大量真实项目案例: 带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!
02适学人群
应届毕业生: 无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型: 非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能突破瓶颈: 传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。

vx扫描下方二维码即可
【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】
本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!
03 入门到进阶学习路线图
大模型学习路线图,整体分为5个大的阶段:
04 视频和书籍PDF合集

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)
05 行业报告+白皮书合集
收集70+报告与白皮书,了解行业最新动态!
06 90+份面试题/经验
AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)

07 deepseek部署包+技巧大全

由于篇幅有限
只展示部分资料
并且还在持续更新中…
真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发
【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)