Skill / MCP / RAG / Agent / OpenClaw：一口气拆穿这些AI名词的底层逻辑

2601_96073073

766人浏览 · 2026-05-19 15:48:11

2601_96073073 · 2026-05-19 15:48:11 发布

前言：你被名词轰炸过吗
一、从语言模型到大语言模型：一切的起点
二、Agent的本质：不是"智能"，是"中间程序"
三、RAG：让大模型不再"胡说八道"
四、SKILL与MCP：可插拔的工具目录 vs 统一的调用规范
五、从硬编码到纯Agent：一张"刚性-柔性"光谱图
六、技术发展的统一规律：一切都是提示词工程
七、未来趋势：开箱即用的超级Agent
术语速查表

前言：你被名词轰炸过吗

智能体、RAG、SKILL、MCP、Function Calling、OpenClaw……过去两年AI领域的概念就像互联网营销话术一样层出不穷。

B站UP主"飞天闪客"发了一段视频，标题叫"名词诈骗"——用幽默讽刺的方式，把这些概念的底层逻辑一口气拆穿了。

以下是核心观点整理。

一、从语言模型到大语言模型：一切的起点

关键词：大语言模型、LLM、参数规模、涌现智能

先回到最基础的起点：语言模型（Language Model）。

它做的事情很简单——给定前文，预测下一个词。 比如你说"我爱吃"，它预测下一个词是"火锅"的概率是30%，"苹果"是25%，"屎"是0.001%。

当参数规模突破某个临界点，模型突然"涌现"出近似智能的能力。于是人们给它加了个"大"字——大语言模型（LLM），本质就是为了和早期那些"智障模型"区分开。

对话功能是怎么实现的？模型本身只有"一问一答"的严格模式。所谓"对话"，是人为把历史问答串起来伪装成多人对话——你发一句，它答一句，这些内容都塞进下一轮的上下文里。

从这里开始，概念发明狂欢正式登场。

二、Agent的本质：不是"智能"，是"中间程序"

关键词：智能体、Agent、工具调用、中间层

这是被误解最多的一个概念。

很多人以为Agent = 一个能自主行动的智能生命体。但实际技术实现是这样的：

用户问"帮我搜一下今天的新闻" → 大模型本身不能上网 → 需要一个中间程序去调用搜索引擎 → 搜索结果返回给大模型 → 大模型整理后回复用户。

这个中间程序就是Agent。 它做的事情大部分是"非智能"的——拼接URL、解析JSON、调用API。真正需要"智能"的部分（理解用户意图、决定调用哪个工具、整理返回结果）才交给大模型。

所以闪客的判断是：Agent是一个被过度包装的概念。技术实质是一个简单程序，却被冠以"智能体"之名。

一句话总结Agent： 把不需要智能的部分程序化，只把模糊逻辑交给大模型处理。

三、RAG：让大模型不再"胡说八道"

关键词：RAG、检索增强生成、向量数据库、幻觉问题

大语言模型有个致命问题：它会"幻觉"（Hallucination）——没有依据也会编造看起来很合理的答案。

RAG（Retrieval-Augmented Generation，检索增强生成）就是为了解决这个问题。

工作原理：

把你的文档切片，通过向量模型转化为向量，存入向量数据库
用户提问时，先用向量语义匹配从数据库中检索最相关的几段内容
把检索到的内容塞进大模型的上下文
大模型基于这些真实内容生成回答

说白了：RAG就是给大模型"开卷考试"——不让它凭空编，而是先翻书找资料，再回答。

这也是为什么很多客服机器人、企业知识库系统都用RAG——它能显著降低幻觉率，让回答有据可查。

四、SKILL与MCP：可插拔的工具目录 vs 统一的调用规范

关键词：SKILL、MCP协议、Function Calling、工具调用

这是最容易混淆的一组概念。用一个类比来区分：

概念	类比	本质
Function Calling	大模型和Agent之间的"暗号约定"——大模型说"我要查天气"，Agent理解并执行
MCP（Model Context Protocol）	Agent和服务之间的"统一接口标准"——不管什么工具，都用同一种格式调用
SKILL	一个"工具目录 + 使用说明书"的集合——预置好的文档和脚本，Agent可以按需取用

再简化一点：

Function Calling 解决的是"大模型怎么告诉Agent它要什么"
MCP 解决的是"Agent怎么统一调用各种外部工具"
SKILL 解决的是"怎么把常用能力打包成可复用的组件"

SKILL和MCP是不同层次的东西，不是竞争关系。SKILL更像是一套预置方案，MCP更像是一套通信协议。

五、从硬编码到纯Agent：一张"刚性-柔性"光谱图

关键词：工作流、LangChain、低代码、硬编码、纯智能体

闪客提出了一个非常有价值的框架：所有AI技术本质上都处于一条从"刚性"到"柔性"的光谱上。

硬编码 → 工作流(Workflow) → SKILL → 纯Agent
  │            │               │         │
 最稳定      较稳定         较灵活    最灵活
 最便宜      较便宜         较贵      最贵（token消耗大）

硬编码： 用Python/JavaScript写死每一步流程，确定性最高，但完全不灵活。

工作流（Workflow）： 低代码可视化编排，比如LangChain的chain，把多个步骤连线组合。比硬编码灵活一点，但流程还是预设的。

SKILL： 提供可插拔的脚本目录+说明文档，Agent可以根据上下文选择调用哪些技能。更灵活，但仍依赖预置。

纯Agent： 完全由大模型自主决策每一步行动。最灵活，但token消耗最大、稳定性最低、成本最高。

核心洞察： 稳定性和灵活性是一对trade-off。当前大多数产品都在这条光谱上找一个平衡点。

六、技术发展的统一规律：一切都是提示词工程

关键词：提示词工程、Prompt Engineering、token成本

闪客认为，所有这些概念的底层本质是一样的：如何更高效地利用大模型和提示词。

Agent的核心工作：把用户意图翻译成大模型能理解的prompt
RAG的核心工作：把检索到的资料塞进prompt的上下文
SKILL的核心工作：把使用说明写成prompt的一部分
MCP的核心工作：定义大模型输出的结构化格式（也是prompt的一种）

终极洞察： 当前所有的AI新概念，本质上都是**自动化提示词工程（Automated Prompt Engineering）**的不同包装。

而当前最大的限制因素是token成本——强大的Agent需要消耗大量token进行上下文处理和多轮工具调用。但随着token价格持续下降，成本约束会逐渐解除。

七、未来趋势：开箱即用的超级Agent

关键词：开箱即用、零配置、产品体验、AI普及

闪客做了两个判断：

判断一：技术概念会被产品体验取代。

就像普通用户不会关心SpringBoot的底层原理一样，未来AI产品的用户也不会关心RAG和MCP的区别。他们只关心：好不好用，能不能解决问题。

判断二：胜出的产品形态是"零配置的超级Agent"。

把所有常用能力打包好，用户不需要自己配置SKILL、不需要理解MCP协议、不需要写prompt——打开就能用。

这也是为什么最近某些产品爆火的底层逻辑：它们提供的是最大便利性，降低普通人的使用门槛。

术语速查表

术语	全称	一句话解释
LLM	Large Language Model	大语言模型，参数规模突破临界点后涌现近似智能
Agent	智能体	连接用户与大模型的中间程序，负责工具调用等非智能操作
RAG	Retrieval-Augmented Generation	先检索再生成，让大模型"开卷考试"而非凭空编
SKILL	技能包	预置的可复用文档和脚本集合，供Agent按需调用
MCP	Model Context Protocol	Agent与外部工具之间的统一调用接口规范
Function Calling	函数调用	大模型与Agent之间约定的工具调用格式
OpenClaw	开源AI代理框架	开源的AI Agent框架，支持多渠道接入和工具扩展