从一句话请求到AI应用全链路：小白也能看懂Token、Prompt到Harness Engineering（收藏学习）

datian1234

397人浏览 · 2026-05-05 21:43:09

datian1234 · 2026-05-05 21:43:09 发布

从一个请求出发，走完 AI 应用的全链路，彻底搞懂 Token、Prompt、Context、Tool、MCP、Agent、Agent Skills 和 Harness Engineering。

想象你对一个 AI 助手说了这样一句话：

“帮我查一下杭州明天的天气，然后写一封邮件告诉我老板明天需要带伞。”

短短一句话，背后却触发了一场精密的连锁反应——你的文字被拆成碎片、装进信封、送入一个读过万亿文字的"大脑"、这个大脑思考后决定上网查天气、拿到结果后又动笔写邮件、最后把邮件发出去。

这篇文章，就是跟着这句话走完它的全部旅程。每经过一个站点，我们就认识一个核心概念。走完全程，你会对 AI 应用的整个技术栈有一个清晰的全景认知。

第一站：大脑 —— LLM（大语言模型）

LLM 就像一个读过整个图书馆的语言天才——它没有真正"理解"世界，但它见过太多文字，以至于能极其流畅地"接话"。

概念介绍

LLM，全称 Large Language Model（大语言模型），是整个 AI 应用的核心引擎。GPT、Claude、Gemini、千问大模型——这些都是 LLM。

它的工作原理，其实很简单，本质上只做一件事：预测下一个词。

当你说"今天天气真"，LLM 会根据它在训练中见过的海量文本，计算出下一个词最可能是"好"（而不是"桌子"或"紫色"）。把这个过程不断重复——预测下一个词、再预测下一个词——就能生成一整段流畅的文字。

LLM 预测下一个 Token

但别被"预测下一个词"这个简单描述骗了。现代 LLM 拥有数千亿个参数（可以理解为"神经连接"），在万亿级别的文本上训练。这种规模带来了涌现能力——它不仅能接话，还能推理、总结、翻译、写代码，甚至表现出一定的"常识"。

在 LLM 出现之前，让机器理解人类语言需要大量的规则编写和特征工程。你想做一个聊天机器人？得手写几百条 if-else。想做翻译？得雇语言学家标注语法树。

LLM 一次性解决了这个问题：你只需要用自然语言告诉它你想要什么，它就能理解并回应。这是从"编程控制机器"到"对话驱动机器"的范式转变。

回到我们的旅程：你说的那句"帮我查一下杭州明天的天气……"，最终就是要告诉LLM来处理。但在送进去之前，它需要先经过一道翻译工序。

在这里插入图片描述

第二站：积木块 —— Token（词元）

Token 就像乐高积木块——LLM 不认识"文字"，它只认识一块块标准化的小积木。你说的每句话，都要先被拆成这些小积木，才能送进大脑。

概念介绍

你说的那句话——“帮我查一下杭州明天的天气，然后写一封邮件告诉我老板明天需要带伞”——在 LLM 眼里，并不是一个个汉字或单词，而是一串 Token。

Token 是 LLM 处理文本的最小单位。它可能是一个完整的词，也可能是词的一部分，甚至是一个标点符号。不同的 LLM 使用不同的分词器（Tokenizer），拆法也不同。

Token 化过程

以英文为例，"Hello, world!" 会被拆成 ["Hello", ",", " world", "!"] 共 4 个 Token。中文的拆分更有趣——现代 LLM 使用的 BPE（Byte Pair Encoding）分词器并不是按"语义"来分词的，而是基于统计频率来合并字节对。常见的中文词会被合并成一个 Token，不常见的字可能被拆成更小的字节片段。

你可以在 OpenAI 的 Tokenizer 工具中实际体验分词效果，亲眼看看你的文字是怎么被"拆积木"的。

为什么要关心 Token？ 因为它直接关系到两件事：

成本：LLM 的 API 按 Token 数量计费。GPT-4.1 的价格是每百万输入 Token 2 美元，每百万输出 Token 8 美元。你的每一句话、每一个回复，都在"烧 Token"。
容量限制：每个 LLM 都有一个 Token 上限（后面会详细讲），超过了就装不下了。

回到旅程：你的那句话被拆成了大约 20 多个 Token，像一串编了号的积木块，准备送入下一个环节。

解决什么问题

计算机本质上只能处理数字，不能直接处理文字。Token 是人类语言和机器数字之间的桥梁。每个 Token 都对应一个数字编号（Token ID），LLM 实际上是在对这些数字做数学运算。

没有 Token 化这一步，LLM 就无法"阅读"你的任何输入。

第三站：指令 —— Prompt（提示词）

Prompt 就是你给天才下达的工作指令——同一个天才，给他不同的指令，产出天差地别。Prompt 的质量，直接决定了 AI 回答的质量。

概念介绍

你以为你只是说了一句"帮我查一下杭州明天的天气……“？实际上，在这句话到达 LLM 之前，系统已经在它前面拼接了大量的"隐藏指令”。最终送进 LLM 的完整 Prompt 可能长这样：

【系统指令 - 用户看不到】你是一个智能助手，能够帮助用户完成各种任务。你可以调用以下工具：天气查询、邮件发送。请用中文回复，语气友好专业。当需要查询信息时，先调用工具获取数据，再基于数据回复用户。【用户消息】帮我查一下杭州明天的天气，然后写一封邮件告诉我老板明天需要带伞。

一个完整的 Prompt 通常由三部分组成：

Prompt 三层结构

Prompt Engineering（提示词工程） 就是研究如何写出更好的 Prompt 的学问。一个经典的例子：

❌ 差的 Prompt: "写一首诗"✅ 好的 Prompt: "请用五言绝句的格式，写一首描写西湖春天景色的诗，                 要求意境清新，最后一句要有转折。"

同样的 LLM，前者可能给你一首平庸的打油诗，后者则可能产出一首让你眼前一亮的作品。Prompt 是你和 LLM 之间最重要的沟通界面。

回到旅程：你的那句话被包装成了一个结构化的 Prompt，带上了系统指令和工具说明，准备送入 LLM 的"工作台"。

解决什么问题

LLM 虽然强大，但它是一个"通才"——什么都能聊，但不一定聊到点上。Prompt 解决的是精确控制的问题：让 LLM 在正确的角色、正确的约束下，产出符合预期的结果。

没有好的 Prompt，LLM 就像一个没有任务说明书的天才——能力很强，但不知道该往哪使劲。

第四站：工作台 —— Context（上下文窗口）

Context 就是天才的工作桌面大小——桌面越大，能同时摊开的资料越多；但桌面总有边界，超出的部分就会掉到地上，被"遗忘"。

概念介绍

Context Window（上下文窗口）是 LLM 一次能"看到"的全部信息量，用 Token 数量来衡量。你可以把它想象成 LLM 的"短期记忆"。

Context 里装了什么？ 所有东西：

Context Window 内部结构

关键问题：Context 满了怎么办？

当对话越来越长，历史消息越来越多，Context Window 就会被塞满。这时候系统必须做出取舍——通常是丢弃最早的对话记录，或者对历史内容做摘要压缩。这就是为什么你和 AI 聊了很久之后，它可能会"忘记"你们最开始聊的内容。

回到旅程：你的 Prompt（系统指令 + 工具定义 + 你的请求）被装进了 Context Window。LLM 扫视整个"工作台"上的所有资料，开始思考该怎么回应你。

解决什么问题

Context 解决的是 LLM 的"视野"问题。没有足够大的 Context，LLM 就像一个只能看到眼前一行字的人——无法理解上下文，无法保持对话连贯，无法处理长文档。

Context Window 的扩大，是 LLM 从"一问一答的玩具"进化为"能处理复杂任务的助手"的关键因素之一。

第五站：双手 —— Tool（工具调用）

Tool 就是给天才配上了电话和电脑——光靠"想"是查不到真实天气的，得拿起电话打给气象局。Tool 让 AI 从"只会说"变成"能做事"。

概念介绍

LLM 读完你的请求后，它意识到一个问题："杭州明天的天气"这个信息，我脑子里没有。 LLM 的知识截止于训练数据，它不知道"明天"的天气。

这时候，Tool（工具调用）登场了。

Tool 是预先定义好的、LLM 可以"调用"的外部功能。开发者会告诉 LLM：“你有以下工具可以使用”，并描述每个工具的功能和参数格式。

{  "tools": [    {      "name": "get_weather",      "description": "查询指定城市的天气预报",      "parameters": {        "city": "城市名称",        "date": "日期，格式 YYYY-MM-DD"      }    },    {      "name": "send_email",      "description": "发送电子邮件",      "parameters": {        "to": "收件人邮箱",        "subject": "邮件主题",        "body": "邮件正文"      }    }  ]}

LLM 分析你的请求后，决定先调用天气工具：

// LLM 的输出（不是给你看的，是给系统执行的）{  "tool_call": "get_weather",  "arguments": {    "city": "杭州",    "date": "2026-04-20"  }}

注意：LLM 并不是自己去查天气。 它只是输出了一段结构化的"指令"，告诉外部系统：“请帮我调用天气 API”。外部系统执行后，把结果返回给 LLM：

{  "result": {    "city": "杭州",    "date": "2026-04-20",    "weather": "小雨",    "temperature": "18-23°C",    "suggestion": "建议携带雨具"  }}

LLM 拿到这个结果，再继续处理你的第二个请求——写邮件。

完整的 Tool 调用流程：

Tool 调用流程

回到旅程：LLM 通过 Tool 查到了杭州明天有小雨，现在它有了写邮件所需的信息。但这里有一个问题——如果每个 AI 应用都要自己写一套工具接入代码，那岂不是重复造轮子？

解决什么问题

LLM 的训练数据是静态的、有截止日期的。它不知道今天的股价、明天的天气、你的日程安排。Tool 解决的是 LLM 与真实世界的连接问题——让 AI 能够获取实时信息、操作外部系统、执行真实动作。

没有 Tool，LLM 就是一个"关在房间里的天才"——博学但与世隔绝。

第六站：万能插座 —— MCP（模型上下文协议）

🎯 一句话理解

MCP 就像 USB-C 统一充电口——以前每个手机品牌都有自己的充电线，现在一根 USB-C 走天下。MCP 让所有 AI 应用和所有工具之间有了统一的"接口标准"。

概念介绍

在 MCP 出现之前，Tool 的接入是碎片化的。假设你有 3 个 AI 应用（ChatGPT、Claude、千问）和 5 个工具（天气、邮件、日历、数据库、文件系统），你需要写 3 × 5 = 15 套集成代码。每个 AI 应用都有自己的工具调用格式，每个工具都要为每个平台单独适配。

MCP：从 M×N 到 M+N

MCP（Model Context Protocol，模型上下文协议） 是 Anthropic 在 2024 年底推出的开源协议，它定义了一套标准化的通信方式，让任何 AI 应用都能通过同一个协议连接任何工具。如上图所示，MCP 将原本 M×N 的集成复杂度降低为 M+N。

MCP 采用 Client-Server 架构，并提供三种核心能力：

Tools（工具）：可执行的操作，如查天气、发邮件、读写数据库
Resources（资源）：可读取的数据源，如文件内容、数据库记录、API 数据
Prompts（提示模板）：预定义的提示词模板，帮助用户更好地与 AI 交互

架构上的两个角色：

MCP Client（客户端）：嵌入在 AI 应用中，负责发起请求
MCP Server（服务端）：包装了具体的能力（Tools / Resources / Prompts），负责执行并返回结果

MCP Client-Server 架构

一个 MCP Server 的定义非常简洁：

{  "name": "weather-server","description": "提供全球天气查询服务","tools": [    {      "name": "get_weather",      "description": "查询指定城市的天气预报",      "inputSchema": {        "type": "object",        "properties": {          "city": { "type": "string", "description": "城市名称" },          "date": { "type": "string", "description": "日期" }        },        "required": ["city"]      }    }  ]}

回到旅程：在我们的故事里，AI 助手通过 MCP 协议连接到天气服务的 MCP Server，用标准化的方式查询了杭州的天气。同样的协议，它还能连接邮件服务的 MCP Server 来发送邮件。一个协议，连接一切。

解决什么问题

MCP 解决的是 AI 工具生态的碎片化问题。就像 USB-C 终结了充电线的混乱，MCP 让工具开发者只需要写一次 Server，就能被所有支持 MCP 的 AI 应用使用；AI 应用开发者只需要实现一次 Client，就能接入所有 MCP 工具。

这是 AI 应用从"各自为战"走向"生态互通"的关键一步。

第七站：指挥官 —— Agent（智能体）

🎯 一句话理解

Agent 就像一个项目经理——它不只是回答问题，而是能自主拆解任务、制定计划、调配资源、执行行动，直到把整个项目交付。

概念介绍

让我们回顾一下你的请求：“帮我查一下杭州明天的天气，然后写一封邮件告诉我老板明天需要带伞。”

一个普通的 LLM 聊天机器人可能只会回复一段文字。但一个 Agent 会这样做：

Agent 执行任务的完整过程

Agent 和普通 LLM 对话的核心区别是什么？

Agent vs 普通 LLM 对话

Agent 的核心能力可以用一个循环来概括：

Agent 核心循环

这个 感知-思考-行动-观察 的循环，就是 Agent 的灵魂。它会不断循环，直到任务完成或者判断无法继续。

回到旅程：在我们的故事里，Agent 就是那个把"查天气"和"发邮件"串联起来的指挥官。它分析了你的请求，拆解成多个步骤，依次调用工具，最终完成了整个任务链。

解决什么问题

Agent 解决的是 复杂任务的自动化编排问题。在 Agent 出现之前，即使 LLM 能理解你的意图，也需要人类来手动拆解任务、依次调用工具、处理中间结果。

Agent 让 AI 从"被动回答者"进化为"主动执行者"——你只需要说出目标，它来搞定过程。

第八站：技能 —— Agent Skills（智能体技能）

Agent Skills 就像项目经理的专业认证——一个项目经理可以管理任何项目，但有了 PMP 认证、Scrum Master 认证，他在特定领域就更专业、更高效。

概念介绍

一个通用的 Agent 什么都能做一点，但什么都不够精。Agent Skills 是预定义的、针对特定任务领域的专业能力包。

以我们正在使用的 AI 编程助手为例，它可能拥有这些 Skills：

Agent的技能树

每个 Skill 本质上是一份结构化的指令文档，它告诉 Agent：

什么时候激活：遇到什么类型的任务时使用这个技能
怎么执行：具体的工作流程、步骤、检查清单
质量标准：什么样的结果算"做好了"

Skill 和 Tool 的区别是什么？

Skill 与 Tool 对比

Skill 是更高层次的抽象——它不是一个工具，而是使用多个工具完成复杂任务的策略和流程。

回到旅程：在我们的故事里，如果 Agent 拥有一个"邮件写作"的 Skill，它就不会只是干巴巴地写一封邮件，而是会考虑邮件的语气、格式、称呼，甚至根据"告诉老板"这个上下文，自动使用更正式的措辞。

解决什么问题

Agent Skills 解决的是 Agent 在特定领域的专业度问题。通用 Agent 像一个什么都会一点的实习生，而配备了 Skills 的 Agent 像一个在特定领域有深厚经验的专家。

Skills 让 Agent 的能力从"广而浅"变成"广而深"。

第九站： Harness Engineering（驾驭工程）

🎯 一句话理解

Harness Engineering 就像城市规划师——Agent 是在路上跑的车，而 Harness Engineer 是设计道路、红绿灯、护栏和交通规则的人。没有好的道路系统，再好的车也会翻车。

概念介绍

Birgitta Böckeler（Thoughtworks 杰出工程师）在 2026 年发表于 Martin Fowler 网站的文章中，给出了一个精辟的公式：

Agent = Model + Harness

Harness（驾驭系统） 是 Agent 中除了模型本身以外的一切——系统提示、工具定义、约束规则、反馈循环、错误处理、安全护栏……所有这些"包裹"在模型外面的东西，统称为 Harness。

Harness Engineering（驾驭工程） 就是设计、构建和维护这套 Harness 的工程学科。OpenAI 在 2025 年也发表了同名文章，描述他们如何围绕 Codex 构建 Harness，让 Agent 在实际工程中可靠运转。可以说，这个概念已经成为 AI 工程领域的共识。

为什么需要它？因为 LLM 是非确定性的——同样的输入，可能产生不同的输出。它可能犯错、幻觉、跑偏。Harness 的作用就是：

提高首次正确率（Feedforward / 前馈控制）：在 Agent 行动之前，通过指令、规则、示例来引导它走正确的路
自动纠错（Feedback / 反馈控制）：在 Agent 行动之后，通过检查、测试、验证来发现并修正错误

Harness 双重控制机制

一个具体的例子：

假设你让 Agent 帮你写一个 React 组件。没有 Harness 的情况下：

❌ Agent 可能：   - 使用了项目中没有的依赖   - 不符合团队的代码规范   - 没有写测试   - 破坏了现有的模块边界

有了良好的 Harness：

✅ Harness 会：   前馈：AGENTS.md 告诉 Agent "使用 TypeScript + Fusion 组件库"   前馈：Skills 告诉 Agent "先写测试再写实现"   反馈：Linter 自动检查代码规范   反馈：测试运行验证功能正确性   反馈：架构测试确保没有违反模块边界

Harness Engineering 的核心理念是"转向循环"（Steering Loop）：

当 Agent 反复犯同一个错误时，不是每次手动纠正，而是改进 Harness——添加新的规则、更好的示例、更严格的检查——让这个错误在未来不再发生。

Harness Engineering 转向循环

回到旅程：回看我们的整个故事——从你说出那句话，到 Agent 查天气、写邮件、发送邮件——这条路之所以能走通，是因为有人精心设计了每一个环节：系统提示怎么写、工具怎么定义、错误怎么处理、结果怎么验证。这个"设计道路的人"，就是 Harness Engineer。

解决什么问题

Harness Engineering 解决的是 AI Agent 的可靠性和可控性问题。LLM 是非确定性的，Agent 是自主行动的——这两个特性叠加在一起，意味着如果没有良好的"驾驭系统"，Agent 随时可能跑偏、犯错、甚至造成损害。

Harness Engineering 是让 Agent 从"实验室玩具"变成"生产级工具"的关键学科。

回看旅程：一张全景图

一个请求的旅程：核心概念全景流程图

上面的全景流程图完整展示了这句话走过的每一个站点。下面用一张表格来总结九个概念，一条链路：

概念	角色	一句话总结
LLM	大脑	理解语言、生成回应的核心引擎
Token	积木块	人类语言和机器数字之间的桥梁
Prompt	工作指令	精确控制 LLM 输出的沟通界面
Context	工作台	LLM 一次能看到的全部信息
Tool	双手	让 AI 触达真实世界的能力
MCP	万能插座	统一 AI 与工具之间的接口标准
Agent	指挥官	自主规划和执行复杂任务的智能体
Agent Skills	专业认证	让 Agent 在特定领域更专业的能力包
Harness Engineering	城市规划师	让 Agent 可靠、可控的工程学科

从 LLM 到 Harness Engineering，我们见证了 AI 应用技术栈的完整演进：

LLM 给了机器"思考"的能力
Token 和 Prompt 解决了"怎么和机器沟通"
Context 决定了机器能"记住"多少
Tool 和 MCP 让机器能"动手做事"
Agent 让机器能"自主完成任务"
Skills 让 Agent 在特定领域"更专业"
Harness Engineering 确保这一切"可靠运转"

每一层都在解决上一层留下的问题，每一层都让 AI 离"真正有用"更近一步。

普通人如何抓住AI大模型的风口？

领取方式在文末

为什么要学习大模型？

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于自然语言处理、计算机视觉、智能推荐等领域，为各行各业带来了革命性的改变和机遇。

目前，开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景，其中，应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
在这里插入图片描述

随着AI大模型技术的迅速发展，相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业：
在这里插入图片描述

人工智能大潮已来，不加入就可能被淘汰。如果你是技术人，尤其是互联网从业者，现在就开始学习AI大模型技术，真的是给你的人生一个重要建议！

最后

只要你真心想学习AI大模型技术，这份精心整理的学习资料我愿意无偿分享给你，但是想学技术去乱搞的人别来找我！

在当前这个人工智能高速发展的时代，AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长，真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料，能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
【附赠一节免费的直播讲座，技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等，欢迎大家~】
在这里插入图片描述

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来，我们不断打磨课程体系与技术内容，在细节上精益求精，同时在技术层面也新增了许多前沿且实用的内容，力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径，能够帮助你从零入门，进阶到实战，真正掌握AI时代的核心技能！

01 教学内容

在这里插入图片描述

从零到精通完整闭环：【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块，内容比传统教材更贴近企业实战！
大量真实项目案例： 带你亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

02适学人群

应届毕业生‌： 无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌： 非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈： 传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

vx扫描下方二维码即可
【附赠一节免费的直播讲座，技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等，欢迎大家~】
在这里插入图片描述

本教程比较珍贵，仅限大家自行学习，不要传播！更严禁商用！

03 入门到进阶学习路线图

大模型学习路线图，整体分为5个大的阶段：

04 视频和书籍PDF合集

从0到掌握主流大模型技术视频教程（涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向）

新手必备的大模型学习PDF书单来了！全是硬核知识，帮你少走弯路（不吹牛，真有用）

05 行业报告+白皮书合集

收集70+报告与白皮书，了解行业最新动态！

06 90+份面试题/经验

AI大模型岗位面试经验总结（谁学技术不是为了赚$呢，找个好的岗位很重要）
在这里插入图片描述

07 deepseek部署包+技巧大全

在这里插入图片描述

由于篇幅有限

只展示部分资料

并且还在持续更新中…

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

哪个品牌的无线投屏器好用？AirLink万能投屏器全场景适配指南

嗨动视觉 AirLink 万能投屏器的核心优势可以概括为：以 7×24 小时稳定运行和双频双通道冗余为底座，用全协议免驱设计消灭兼容性与部署门槛，再以 4K/60ms 低延迟保障画面体验，最终通过多画面协作与反向控制提升场景效率。如果你属于以下三类人群，它会是一个省心的选择：1.企业办公族：会议室里 Windows、Mac、安卓、苹果设备混用，受够了每次会前调试；2.教育工作者：需要在报告厅、阶梯