从 LLM 到 Agent Skill:一文打通现代大语言模型的完整能力链路
本文所有核心定义均来自 OpenAI、Anthropic、MCP 官方文档与技术白皮书,系统拆解大模型从「静态语言模型」到「自主智能体」的核心概念,厘清每个技术节点的本质、作用与关联。
引言
我们日常使用的 ChatGPT、Claude、豆包等 AI 产品,早已从「聊天机器人」进化为能写代码、查数据、做规划、甚至自主完成复杂任务的生产力工具。而支撑这一切的,正是一套完整的技术链路 —— 从底层的模型底座,到信息处理的基本单位,再到人机交互的指令体系、外部能力的标准化拓展,最终落地为能自主干活的智能系统。
本文将以「模型底座→信息处理→指令交互→能力拓展→自主智能」的完整能力跃迁路径为核心,系统拆解所有核心概念,帮你彻底打通大模型的底层逻辑。
一、核心底座:大语言模型(LLM)—— 智能的起点
官方定义
根据 OpenAI 官方文档的定义,LLM(Large Language Model,大语言模型) 是一类基于深度学习技术、在海量文本数据上完成预训练的人工智能模型,核心能力是理解、生成类人文本,并基于文本完成推理、翻译、创作、代码编写等复杂语言任务。
Anthropic 在其技术白皮书中补充:LLM 的核心本质是自回归语言模型,基于 Transformer 架构实现,通过学习文本序列的统计规律,预测下一个概率最高的语言单元,从而生成连续、符合人类语言逻辑的文本。
核心技术本质
- 底层架构:所有主流 LLM 均基于 2017 年 Google 团队在《Attention is All You Need》中提出的 Transformer 架构,核心是自注意力机制 —— 让模型在处理文本时,能关注到上下文里所有相关的内容,而非仅处理相邻的文本。
- 能力来源:LLM 的通用能力来自「预训练」阶段 —— 在万亿级别的公开文本数据上完成无监督学习,学习人类语言的语法、逻辑、知识,甚至是推理能力,最终形成「基座模型」。
- 主流分类:
- 基座模型(Base Model):仅完成预训练,未经过对话对齐的原始模型,擅长文本补全,不擅长直接对话;
- 对话对齐模型:在基座模型基础上,经过对齐技术优化,能听懂人类指令、符合人类价值观,就是我们日常使用的 ChatGPT、Claude 等对话模型。
核心配套概念 1:Alignment(对齐)
官方定义
OpenAI 对齐研究团队在官方技术文档中明确:Alignment(对齐) 是让大语言模型的输出符合人类意图、价值观与安全规范的技术体系,核心目标是解决「模型能力越强,越可能偏离人类真实需求、产生有害输出」的风险,是基座模型转化为可用产品的核心必经环节。
Anthropic 补充:对齐的核心是解决「能力与目标的错位」—— 预训练后的基座模型具备强大的语言生成能力,但不知道「人类希望它做什么、不做什么」,对齐技术就是给模型的能力装上「方向盘」和「刹车」。
主流对齐技术路径
- SFT(监督微调):用人工标注的高质量指令 - 回答数据,微调基座模型,让模型学会听懂人类指令、按照人类习惯输出内容;
- RLHF(基于人类反馈的强化学习):ChatGPT 的核心对齐技术,通过人工对模型输出打分,训练奖励模型,再用强化学习让模型的输出向人类偏好靠拢;
- DPO(直接偏好优化):目前工业界主流的对齐技术,相比 RLHF 更简单、更稳定,直接用人类偏好数据优化模型,无需复杂的强化学习流程;
- System Prompt 对齐:通过系统提示词给模型设定全局规则,是轻量化、可快速调整的对齐方案,也是所有对话模型的标配对齐手段。
核心配套概念 2:Hallucination(幻觉)
官方定义
OpenAI 在模型安全官方文档中定义:Hallucination(幻觉) 是大语言模型生成的、看似合理但与事实不符、凭空编造的内容,包括虚假数据、不存在的事件、错误的知识、编造的 API / 文献等,是 LLM 的原生核心缺陷。
产生的核心原因
- 预训练数据的局限性:模型的知识完全来自预训练数据,对于数据中没有、模糊、冲突的内容,会基于统计规律生成「看似通顺的错误内容」;
- 自回归生成的本质:模型的核心目标是生成「符合语言逻辑的文本」,而非「符合事实的文本」,当无法确定正确答案时,会优先保证文本的连贯性;
- 上下文信息不足:当 Context 中没有足够的正确信息支撑回答时,模型更容易编造内容。
核心影响与解决方向
幻觉是 LLM 落地到严肃场景(如法律、医疗、金融、企业级应用)的最大障碍,本文后续拆解的 Context 优化、Prompt 工程、RAG 检索、工具调用、Agent 反思等所有技术,核心目标之一都是降低幻觉、提升模型输出的准确性。
LLM 的核心意义
LLM 是整个技术体系的「大脑」,后续所有的概念,都是为了给这个大脑定规则、扩边界、补能力,让它从「会说话的模型」变成「能干活的工具」。
二、模型的「语言」与「记忆边界」:Token、Context、Context Window
这三个概念共同构成了 LLM 处理信息的底层基础:Token 是模型能读懂的最小语言单位,Context 是模型的「工作记忆」,Context Window 则是这个记忆的物理容量上限。
1. Token:LLM 的「语言最小单位」
官方定义
OpenAI 在 Tokenizer 官方文档中明确:Token 是大语言模型处理文本的基本单位,它可以是完整的单词、单词的一部分(词根 / 词缀)、单个汉字、标点符号,甚至是特殊字符。LLM 不会直接处理人类的自然语言,而是先通过 Tokenizer(分词器)把文本切分为 Token 序列,再映射为模型能计算的数字 ID,最终完成推理和生成。
核心细节(来自官方 Tokenizer 规范)
- 分词规则:主流 LLM 均采用 BPE(字节对编码)算法训练专属的 Tokenizer,不同模型的分词规则完全不同 —— 比如 GPT-4o 采用
o200k_base分词器,Claude 3 系列采用自研的 Claude Tokenizer,同一段文本在不同模型中切分出的 Token 数量会有差异。 - 官方量化参考:
- 1000 个 Token ≈ 750 个英文单词;
- 1000 个 Token ≈ 500-600 个汉字;
- 特殊符号、emoji、代码通常会占用更多 Token。
- 核心影响:Token 直接决定了 LLM 的推理成本、生成速度、上下文容量 —— 所有大模型的 API 定价均按 Token 计费,Token 数量越多,推理耗时越长,占用的上下文空间也越大。
2. Context:LLM 的「工作记忆」
官方定义
Anthropic 官方文档对Context(上下文) 的定义是:模型在单次推理生成回答时,能够访问到的所有信息总和,相当于模型的「临时工作记忆」。LLM 没有脱离 Context 的「长期记忆」,它生成的所有内容,都只能基于当前 Context 里的信息。
Context 的核心组成
- 全局规则:System Prompt(系统提示词);
- 对话历史:本轮对话之前的所有用户输入、模型输出;
- 当前指令:用户本次的输入(User Prompt);
- 外部信息:工具调用返回的结果、检索到的外部文档等;
- 生成内容:模型本次已经生成的文本内容。
3. Context Window:LLM 的「记忆容量上限」
官方定义
OpenAI 官方文档明确:Context Window(上下文窗口) 是大模型单次请求能够处理的最大 Token 数量,这个上限包含了所有输入 Token(System Prompt、对话历史、用户输入、工具结果)和输出 Token(模型生成的回答)。
核心本质与细节
- 技术底层:Context Window 的上限,本质是 Transformer 架构中自注意力机制的序列长度限制,由模型的位置编码、训练方式决定,是模型的硬件级硬限制。一旦输入的总 Token 数超过 Context Window,模型就会「看不见」超出部分的内容,出现遗忘、回答错误等问题。
- 主流模型官方最新参数:
表格
模型名称 官方 Context Window 上限 GPT-4o Turbo 100 万 Token Claude 3.7 Opus 200 万 Token Gemini 1.5 Pro 100 万 Token - 核心价值:Context Window 越大,模型能一次性处理的文本越长 —— 比如读完整本书、长文档、超长对话历史,完成更复杂的长文本推理任务。
核心配套概念 3:In-Context Learning(ICL,上下文学习)
官方定义
OpenAI 在 GPT-3 技术报告中首次提出并定义:In-Context Learning(ICL,上下文学习) 是大语言模型的核心涌现能力,指模型无需微调权重、仅通过 Context 中提供的几个示例(甚至零示例),就能学会完成新的任务,无需额外的训练。
核心本质与价值
- 底层逻辑:ICL 的核心是 LLM 在预训练阶段学到的「模式匹配能力」—— 模型能从 Context 的示例中,识别出任务的模式、输入输出的格式、推理的逻辑,然后把这个模式应用到当前的任务中。
- 与传统 NLP 的核心区别:传统的 NLP 模型完成新任务,必须用大量标注数据重新训练、微调模型;而 LLM 仅需要在 Prompt 里给几个示例,就能完成新任务,大幅降低了 AI 应用的门槛。
- 核心分类:
- 零样本学习(Zero-Shot):不给任何示例,仅通过指令让模型完成任务;
- 少样本学习(Few-Shot):在 Context 里给 1-5 个示例,让模型学习任务模式,效果远优于零样本学习。
ICL 是整个 Prompt 工程、Context 体系的底层核心逻辑,也是 LLM 能被广泛应用的核心原因之一。
核心配套概念 4:RAG(Retrieval-Augmented Generation,检索增强生成)
官方定义
OpenAI 在官方 RAG 最佳实践文档中定义:RAG(检索增强生成) 是一套结合信息检索与大模型生成的技术框架,核心是在模型生成回答前,先从外部知识库中检索出与用户问题最相关的精准信息,把这些信息放入 Context 中,再让模型基于检索到的权威信息生成回答。
官方标准工作流程
- 知识库构建:把私有文档、权威数据切分为文本块,通过 Embedding 模型转化为向量,存储到向量数据库中;
- 检索阶段:用户输入问题后,把问题转化为向量,在向量数据库中检索出最相关的 Top-N 个文本块;
- 增强生成阶段:把检索到的权威信息、用户问题一起放入 Context 中,传给 LLM,让模型仅基于检索到的信息生成回答;
- 结果校验:可选的校验环节,验证模型生成的内容与检索信息的一致性,进一步降低幻觉。
核心价值
- 解决幻觉问题:让模型基于权威的、最新的外部信息生成回答,而非预训练数据中的过时、模糊内容,大幅提升回答的准确性;
- 突破 Context Window 限制:无需把整个知识库都放入 Context 中,仅检索最相关的片段,大幅降低 Token 消耗,让模型能访问远超 Context Window 上限的海量知识库;
- 实现私有数据接入:无需微调模型,就能让 LLM 访问企业私有数据、行业专属知识,是目前企业级 LLM 应用的主流落地方案;
- 更新知识成本极低:只需更新知识库,就能让模型获取最新的信息,无需重新训练、微调模型。
三、人机交互的「指令操作系统」:Prompt、User Prompt、System Prompt
如果说 LLM 是大脑,Context 是记忆,那么 Prompt 就是指挥大脑工作的「指令系统」—— 它是人类和 LLM 交互的唯一入口,直接决定了模型的输出质量和行为模式。
1. Prompt:给 LLM 的完整指令集
官方定义
OpenAI 在 Prompt Engineering 官方指南中定义:Prompt 是用户输入给大语言模型的所有内容总和,包含了让模型完成任务所需的全部指令、上下文、示例、约束条件,是人类操控 LLM 的核心载体。
Prompt 的核心作用,是把人类的自然语言需求,转化为模型能准确理解、稳定执行的指令,本质是「用自然语言给模型编程」。
2. System Prompt:Prompt 的「系统内核」
官方定义
Anthropic 在 System Prompt 最佳实践文档中明确:System Prompt(系统提示词) 是在对话开始前、优先输入给模型的前置全局指令,它在整个对话过程中持续生效,用于定义模型的核心身份、行为规则、输出格式、约束条件、安全规范,相当于给模型设定的「底层操作系统内核」。
官方核心最佳实践
System Prompt 的核心是「定规则、划边界」,主流的设计维度包括:
- 角色定义:明确模型的身份,比如「你是一名资深的 Java 后端开发工程师」;
- 行为规则:定义模型的说话方式、思考逻辑,比如「回答问题时要先给出核心结论,再分步解释」;
- 输出规范:强制模型的输出格式,比如「所有代码必须放在
java代码块中,附带详细注释」; - 约束与禁止:明确模型不能做的事,比如「不要编造不存在的 API,不确定的内容要明确告知用户」;
- 安全规范:规避模型的违规输出,符合人类价值观。
3. User Prompt:Prompt 的「用户应用指令」
官方定义
User Prompt(用户提示词) 是用户在对话中输入的具体任务、问题、需求,是给模型的「单次应用指令」,也是模型需要直接响应的核心内容。
如果说 System Prompt 是给模型定的「公司章程」,那么 User Prompt 就是给员工下的「具体工作任务」。
官方核心最佳实践
OpenAI 明确,高质量的 User Prompt 必须符合 4 个核心原则:
- 清晰具体:明确告诉模型要做什么,避免模糊的表述,比如不说「写个代码」,而说「用 Java 写一个 Redis 分布式锁的实现代码,包含加锁、解锁、看门狗续期逻辑」;
- 提供充足上下文:给模型足够的背景信息,让它知道任务的场景、受众、要求;
- 给出示例:对于复杂格式、特定风格的任务,给出 1-2 个示例,模型的输出会更稳定(即 Few-Shot 提示,核心是利用 ICL 能力);
- 拆分复杂任务:把一个大任务拆成多个小步骤,让模型分步完成,大幅降低出错概率。
核心配套概念 5:Chain-of-Thought(CoT,思维链)
官方定义
Google DeepMind 与 OpenAI 在官方技术论文与 Prompt 指南中定义:Chain-of-Thought(CoT,思维链) 是一种 Prompt 工程技术,核心是让模型在生成最终答案前,先模拟人类的思考过程,分步输出推理逻辑,再基于推理过程得出结论,大幅提升模型的逻辑推理、数学计算、复杂任务处理能力。
核心本质与使用方法
- 底层逻辑:LLM 的自回归生成特性,让模型在分步推理的过程中,能更精准地捕捉逻辑关系,减少跳跃式思考带来的错误;同时,分步推理能把复杂任务拆解为多个简单的子问题,降低模型的处理难度。
- 经典使用方式:
- 零样本 CoT:在 Prompt 的结尾加上「请一步步思考,先给出推理过程,再给出最终答案」,无需额外示例,就能大幅提升推理效果;
- 少样本 CoT:在 Context 中给出 1-2 个「问题→分步推理过程→答案」的示例,让模型学习推理模式,效果更稳定。
- 核心价值:CoT 是目前提升 LLM 复杂任务能力最有效的 Prompt 技术之一,也是后续 Agent 自主规划、多步骤任务处理的核心底层逻辑,是从「被动回答」到「主动思考」的关键技术。
四、能力拓展的「标准化插件体系」:Tool、MCP
LLM 的原生能力有天然的边界:它的知识截止于预训练数据,无法获取实时信息;它的数学计算、代码执行能力有限;它无法直接操作外部系统、访问私有数据。而 Tool 和 MCP,就是为了打破这个边界,给模型拓展外部能力的标准化体系。
1. Tool:LLM 的「外接能力插件」
官方定义
OpenAI 在官方工具使用文档中定义:Tool(工具) 是大模型可以调用的外部函数、API、服务、系统,让模型能够连接外部世界,获取预训练数据中没有的实时信息、执行精确计算、操作外部系统、访问私有数据,弥补 LLM 的原生能力短板。
核心配套概念 6:Function Calling(函数调用)
官方定义
OpenAI 在 Function Calling 官方开发者文档中首次提出并标准化:Function Calling(函数调用) 是大模型原生支持的、标准化的工具调用能力,开发者可以提前给模型定义函数的名称、功能描述、入参规范、返回格式,模型会根据用户的需求,自主判断是否需要调用函数、调用哪个函数、需要传入什么参数,并生成标准化的函数调用格式,开发者只需按照模型的输出执行函数即可。
核心本质与官方标准流程
Function Calling 是所有 Tool 能力的底层实现标准,完整的官方流程如下:
- 函数定义:开发者按照官方规范,给模型定义可用的函数 Schema,包含函数名、功能描述、入参的类型、必填项、描述等;
- 需求判断:用户输入问题后,模型结合 Context 信息,自主判断是否需要调用函数、调用哪个函数;
- 参数生成:模型生成符合 JSON 格式的标准化函数调用请求,包含函数名和对应的入参;
- 函数执行:开发者 / 平台接收模型的函数调用请求,执行对应的函数 / API / 服务,获取返回结果;
- 结果回传:把函数执行的结果整理成规范格式,放回 Context 中,再次传给模型;
- 最终生成:模型基于函数返回的结果,整理生成自然语言的最终回答,返回给用户。
核心价值
Function Calling 把 LLM 从「纯语言模型」变成了「能操作外部系统的控制器」,是 LLM 落地到实际业务场景的核心技术之一,也是后续 Agent 工具调用能力的底层基础。
Tool 的主流分类
- 信息获取类:搜索引擎、天气查询、股票 API、私有知识库 RAG 检索等;
- 计算执行类:计算器、代码解释器、SQL 查询工具、数据处理工具等;
- 操作执行类:邮件发送、文件操作、API 接口调用、设备控制、流程自动化工具等。
2. MCP:工具生态的「统一接口标准」
官方定义
根据 MCP(Model Context Protocol,模型上下文协议)官方网站与 GitHub 开源仓库的定义,MCP 是一套开源、标准化的通信协议,用于在 LLM 应用、模型与上下文提供者(工具、数据、服务)之间建立安全、通用、可互操作的连接,解决了不同大模型平台、不同工具之间接入规范不统一的行业痛点。
核心本质与价值
- 行业痛点解决:在 MCP 出现之前,OpenAI、Anthropic、Google 等平台都有自己的 Function Calling 接入规范,开发者给一个平台开发的工具,无法直接在另一个平台使用,需要重复开发适配。MCP 就像「给所有 LLM 工具统一了 Type-C 充电接口」,一次开发,全平台适配。
- 官方架构:MCP 分为两个核心部分:
- MCP 客户端:集成在 LLM 应用 / 模型端,负责发现、连接、调用 MCP 服务;
- MCP 服务端:由工具 / 数据开发者实现,负责提供标准化的工具能力、数据访问接口。
- 官方支持:目前 MCP 已经获得 Anthropic、OpenAI、Google、Microsoft 等主流厂商的原生支持,Claude Code 更是把 MCP 作为核心的工具接入标准,已经成为 LLM 工具生态的事实行业标准。
- 额外价值:MCP 还提供了统一的安全权限控制、数据隔离机制,解决了工具调用的安全风险问题。
五、自主智能的「完整实现」:Agent、Agent Skill
前面的所有概念,最终都是为了实现从「被动响应的对话模型」到「主动完成任务的自主智能体」的跃迁,而 Agent 和 Agent Skill,就是这个跃迁的最终落地形态。
1. Agent:基于 LLM 的自主智能系统
官方定义
OpenAI 在 Agentic AI 白皮书中定义:Agent(智能体) 是基于 LLM 构建的、能够自主理解用户的复杂目标、拆解任务步骤、规划执行路径、调用工具、反思修正错误,最终在无需用户持续干预的情况下,完成多步骤复杂任务的智能系统。
简单来说,普通 LLM 是「你问一句,它答一句」,而 Agent 是「你给它一个目标,它自己想办法干完」。
Agent 的四大核心官方标准组件
- 规划模块:基于 CoT 思维链技术,把用户的复杂目标,拆解为可执行的多步骤任务计划,并且能根据执行过程中的反馈,动态调整执行路径;
- 记忆模块:分为短期记忆(Context)和长期记忆(基于 RAG 与向量数据库存储的历史执行记录、知识、经验),让 Agent 能记住之前的操作、错误、学习到的规则,避免重复犯错;
- 工具调用模块:基于 Function Calling 与 MCP 协议,自主判断是否需要调用工具、选择合适的工具、生成调用参数、处理工具返回结果;
- 反思与修正模块:对执行结果进行校验,判断是否符合用户的目标,发现错误、效果不好时,自主分析原因、调整方案、重新执行,直到完成目标。
主流实现框架
目前工业界主流的 Agent 框架包括 LangChain、AutoGPT、Claude Code、LlamaIndex 等,核心都是基于上述四大组件构建。
2. Agent Skill:Agent 的「可复用专项能力包」
官方定义
根据 Anthropic 官方 Claude Code Skills 文档的定义,Agent Skill(智能体技能) 是为 Agent 预定义、可复用的专项能力模块,它封装了完成特定类型任务所需的全部指令、执行逻辑、工具绑定、判断规则、最佳实践,让 Agent 可以快速、稳定地完成特定场景的任务,无需每次都重新定义核心行为。
Skill 的官方标准结构
- 元数据层:技能的名称、功能描述、适用场景、触发条件,让 Agent 能判断什么时候该调用这个技能;
- 指令层:完成该任务的核心规则、执行步骤、思考逻辑、输出格式,相当于给 Agent 的专项任务操作手册,核心基于 CoT 思维链与 System Prompt 实现;
- 工具绑定层:该技能需要用到的 MCP 工具、Function Calling 规范,让 Agent 可以直接调用对应的工具完成任务;
- 约束与校验层:任务的完成标准、错误处理规则、安全约束,确保 Agent 执行过程中不会出错、不会违规;
- 示例层:该技能的典型使用场景、输入输出示例,利用 ICL 能力让 Agent 更稳定地执行任务。
核心价值
Skill 把 Agent 的通用能力,拆解为一个个可复用、可插拔的专项能力模块,比如「数据分析 Skill」「代码调试 Skill」「客户服务 Skill」「文档撰写 Skill」,开发者可以像搭积木一样,给 Agent 组合不同的 Skill,快速适配不同的业务场景,大幅降低 Agent 的开发和使用成本。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)