AI 黑话指南:从 LLM 到 MCP,看懂正在重塑世界的「新物种」
写在前面
2024 年,如果你还没听说过 AI,大概是从深山刚出来的。但如果你听说过 AI 却听不懂大家在聊什么——那是另一回事。
GPT、Agent、RAG、MCP、Skills、Function Calling、Tool Use、Hermes……
这些词像咒语一样从产品经理、程序员和科技博主嘴里蹦出来。你点头微笑,心里却在问:它们到底在说什么?
别慌。这篇文章就是你需要的「AI 专有名词解毒手册」。我们不堆术语、不抄百科,用一个完整的故事,把这些概念串起来。
LLM —— 那个会说人话的大脑
一切的起点,是 LLM。
LLM = Large Language Model,大型语言模型。最出圈的代言人:GPT(ChatGPT 背后那个模型)。
你把它想象成一个读过整个互联网的超级学霸——它吞下了维基百科、Reddit 帖子、GitHub 代码、学术论文、小说、新闻……然后学会了"人话"的规律。
你问它:“李白乘舟将欲行,下句是什么?”
它答:“忽闻岸上踏歌声。”为什么它知道?不是因为它"背过"——而是它从数万亿个句子中学会了"李白乘舟"后面最可能接什么。
LLM 的核心能力就三样:
- 理解你的问题(哪怕你语法混乱、语焉不详)
- 推理(“如果 A 成立,那么 B 可能是什么?”)
- 生成流畅的自然语言回答
但 LLM 有一个致命弱点:它只有一张嘴,没有手。
你可以跟它聊一整天,它没法帮你发邮件、查天气、订机票、操作数据库。它坐在知识的王座上,却无法触碰真实世界。
这就是为什么我们需要后面的家伙们。
Agent —— 不再只是"聊天",而是"做事"
Agent(智能体/智能代理)解决了 LLM 最大的问题:光说不练。
如果 LLM 是一个大脑,Agent 就是给这个大脑装上了身体和行动力。
Agent 的工作流是这样的:
用户说:"帮我订一张明天下午去上海的机票"
↓
Agent 收到指令 → 调用 LLM 理解意图
↓
Agent 决定行动计划:搜索航班 → 比价 → 下单 → 通知用户
↓
Agent 逐个执行,必要时向用户确认
↓
"已为您订好明天 14:30 北京→上海 CA1234 次航班"
Agent 和普通聊天的核心区别是什么?
| 普通聊天 | Agent |
|---|---|
| 你说一句,它回一句 | 它能自主规划、多步执行 |
| 依赖你不断引导 | 可以独立完成任务闭环 |
| 活在对话气泡里 | 能操作外部工具和系统 |
| 没有记忆(或记忆有限) | 有短期记忆/长期记忆/上下文管理 |
Agent 是一个循环:感知 → 思考 → 行动 → 观察结果 → 再思考 → 再行动…… 直到任务完成。
这就是 Agent 的核心范式——ReAct(Reasoning + Acting),思考和行动交替进行,而不是一次性输出答案。
Skills / Tools / Function Calling —— Agent 的"双手"
好的,Agent 有大脑(LLM)、有行动力(循环框架),但它具体怎么干活?靠 Skills(也叫 Tools / Functions / Plugins)。
每个 Skill 就是一项具体能力,比如:
search_web(query)→ 搜索互联网send_email(to, subject, body)→ 发送邮件read_file(path)→ 读取文件execute_sql(query)→ 查询数据库create_calendar_event(...)→ 创建日程
Function Calling 是 OpenAI 最早推广的一种机制:LLM 不再是"生成文字",而是"决定调用哪个函数"。
它的对话长这样:
用户:
"帮我查一下这周的天气"
LLM 内心活动:
嗯,用户想知道天气,我的工具列表里有 get_weather(city, date),我应该调用它。但我还需要知道城市——先问用户。
LLM 输出(对 Agent 说):
请调用 get_weather,参数暂时未知,先问用户城市。
Agent → 用户:
"请问您在哪个城市?"
用户:
"北京"
Agent → 调用 get_weather("北京", "本周")→ 返回数据 → LLM 总结 → "本周北京晴转多云,最高 28°C"
Skills 的存在,把 LLM 从一个"聊天机器人"变成了一个"操作系统"。
你可以为 Agent 注册任意多个 Skills——就像给手机安装 App。一个没有 Skills 的 Agent 等于一个没有 App 的智能手机:硬件很强,但什么都干不了。
MCP —— 打通 AI 与世界的"USB 协议"
有了 Skills,Agent 可以调用工具了。但一个新问题出现了:
每个工具都要单独写接口,每对接一个新系统就要重新写一遍代码。
想象一下:你买了个新鼠标,结果发现它只适用于某个特定品牌的电脑——换个电脑就得换个鼠标。这不荒谬吗?
这就是 MCP 要解决的问题。
MCP = Model Context Protocol,模型上下文协议,由 Anthropic(Claude 的公司)提出。
你可以把它理解成 AI 世界的 USB 协议:
- USB 定义了标准的接口规范,任何 U 盘、键盘、鼠标插上任何电脑都能用
- MCP 定义了标准的接口规范,任何 AI 模型连接任何数据源/工具都能用
MCP 的两端:
- MCP Server:数据或工具的提供方(比如你的本地文件系统、数据库、Slack、GitHub)
- MCP Client:调用方(比如 Claude Desktop、各种 Agent 框架)

为什么 MCP 重要?
在 MCP 之前,每个 AI 应用都要为自己的每个工具写适配代码。你需要为 ChatGPT 写一套插件,为 Claude 写另一套,为本地 Agent 再写一套。
有了 MCP,你只需要写一次 MCP Server,任何支持 MCP 的 Client 都可以直接使用。
这就像 USB 让打印机、键盘、U 盘可以即插即用——MCP 让数据源和工具可以即插即用。
Hermes —— 把"大脑"装进"身体"的架构
现在我们有:
- ✅ LLM(大脑)
- ✅ Agent(行动框架)
- ✅ Skills(双手)
- ✅ MCP(连接标准)
还缺什么?一个把这一切组装起来的架构。
这就是 Hermes(或者类似的项目/框架)要做的事。
Hermes 是一个典型的 Agent 运行时架构(Agent Runtime / Agent Framework)。它的设计思路是这样的:

Hermes 的核心理念:
- LLM 抽象层:不绑定任何特定模型(GPT / Claude / 开源模型都可以换)
- Agent 循环引擎:处理 ReAct 循环、记忆管理、任务规划
- Skill 注册中心:动态加载/卸载能力
- MCP 原生支持:通过 MCP 协议连接外部世界
换句话说,Hermes 就是 AI Agent 的操作系统内核——它不自己做所有事,但让所有事能协同工作。
把它们串起来——一个完整的故事
让我们用一个场景,把前面所有概念串起来。
小明的 AI 助手,帮他把一篇论文摘要翻译、整理、保存到知识库、并通知团队。
Step 1: 小明说——
"帮我把这篇 AI 论文摘要翻译成中文,提炼 3 个要点,
存到团队知识库,然后 Slack 通知大家。"
Step 2: LLM 理解意图
└── 这是多步任务,需要翻译 + 总结 + 存储 + 通知
Agent 循环启动
Step 3: Agent 规划步骤
└── ① read_file("paper.txt")
② translate(content, target="zh")
③ summarize(text, points=3)
④ save_to_knowledge_base(title, content)
⑤ send_slack_message(channel, message)
Step 4: 逐个执行(通过 Skills)
└── Skill: read_file → 读取论文内容
Skill: translate → 调用翻译引擎
Skill: summarize → 调用 LLM 总结
Skill: save_to_knowledge_base → 连接知识库
Skill: send_slack → 发 Slack 通知
Step 5: 数据源的连接(通过 MCP)
└── MCP Server: 本地文件系统(读取 paper.txt)
MCP Server: 团队知识库(写入条目)
MCP Server: Slack API(发送消息)
Step 6: 结果返回
└── "完成!已翻译并总结,存入了『AI 论文』知识库,
Slack 上 @channel 已通知。"
看,从用户的一句话,到 LLM 理解,到 Agent 规划,到 Skills 执行,到 MCP 打通数据源,最后到结果返回——一条完整的链路。
这不再是一个聊天机器人。这是一个数字员工。
尾声:这不是未来,这是现在
2023 年,AI 还在"聊天"。
2024 年,AI 开始"用工具"。
2025 年,AI 开始"理解协议、自主规划、协同工作"。
2026 年……每个概念都在飞速进化。
这些名词不是孤立的 buzzword。它们是一层层递进的能力:
LLM → 大脑(理解与生成)
Skills → 双手(具体能力)
Agent → 身体与意志(自主行动)
MCP → 神经与血管(连接外部世界)
Hermes/框架 → 骨架(把一切整合在一起)
下一次有人在你面前抛出这些词时,你不需要假装听懂了。你可以微微一笑,然后——真的听懂了。
如果你觉得这篇文章有帮助,欢迎点赞、转发。
下一期内容更精彩——敬请期待。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)