写在前面

2024 年,如果你还没听说过 AI,大概是从深山刚出来的。但如果你听说过 AI 却听不懂大家在聊什么——那是另一回事。

GPT、Agent、RAG、MCP、Skills、Function Calling、Tool Use、Hermes……

这些词像咒语一样从产品经理、程序员和科技博主嘴里蹦出来。你点头微笑,心里却在问:它们到底在说什么?

别慌。这篇文章就是你需要的「AI 专有名词解毒手册」。我们不堆术语、不抄百科,用一个完整的故事,把这些概念串起来。


LLM —— 那个会说人话的大脑

一切的起点,是 LLM

LLM = Large Language Model,大型语言模型。最出圈的代言人:GPT(ChatGPT 背后那个模型)。

你把它想象成一个读过整个互联网的超级学霸——它吞下了维基百科、Reddit 帖子、GitHub 代码、学术论文、小说、新闻……然后学会了"人话"的规律。

你问它:“李白乘舟将欲行,下句是什么?”
它答:“忽闻岸上踏歌声。”

为什么它知道?不是因为它"背过"——而是它从数万亿个句子中学会了"李白乘舟"后面最可能接什么。

LLM 的核心能力就三样:

  1. 理解你的问题(哪怕你语法混乱、语焉不详)
  2. 推理(“如果 A 成立,那么 B 可能是什么?”)
  3. 生成流畅的自然语言回答

但 LLM 有一个致命弱点:它只有一张嘴,没有手。

你可以跟它聊一整天,它没法帮你发邮件、查天气、订机票、操作数据库。它坐在知识的王座上,却无法触碰真实世界。

这就是为什么我们需要后面的家伙们。


Agent —— 不再只是"聊天",而是"做事"

Agent(智能体/智能代理)解决了 LLM 最大的问题:光说不练

如果 LLM 是一个大脑,Agent 就是给这个大脑装上了身体和行动力

Agent 的工作流是这样的:

用户说:"帮我订一张明天下午去上海的机票"
        ↓
Agent 收到指令 → 调用 LLM 理解意图
        ↓
Agent 决定行动计划:搜索航班 → 比价 → 下单 → 通知用户
        ↓
Agent 逐个执行,必要时向用户确认
        ↓
"已为您订好明天 14:30 北京→上海 CA1234 次航班"

Agent 和普通聊天的核心区别是什么?

普通聊天 Agent
你说一句,它回一句 它能自主规划、多步执行
依赖你不断引导 可以独立完成任务闭环
活在对话气泡里 能操作外部工具和系统
没有记忆(或记忆有限) 有短期记忆/长期记忆/上下文管理

Agent 是一个循环感知 → 思考 → 行动 → 观察结果 → 再思考 → 再行动…… 直到任务完成。

这就是 Agent 的核心范式——ReAct(Reasoning + Acting),思考和行动交替进行,而不是一次性输出答案。


Skills / Tools / Function Calling —— Agent 的"双手"

好的,Agent 有大脑(LLM)、有行动力(循环框架),但它具体怎么干活?靠 Skills(也叫 Tools / Functions / Plugins)。

每个 Skill 就是一项具体能力,比如:

  • search_web(query) → 搜索互联网
  • send_email(to, subject, body) → 发送邮件
  • read_file(path) → 读取文件
  • execute_sql(query) → 查询数据库
  • create_calendar_event(...) → 创建日程

Function Calling 是 OpenAI 最早推广的一种机制:LLM 不再是"生成文字",而是"决定调用哪个函数"。

它的对话长这样:

用户:
"帮我查一下这周的天气"

LLM 内心活动:
嗯,用户想知道天气,我的工具列表里有 get_weather(city, date),我应该调用它。但我还需要知道城市——先问用户。

LLM 输出(对 Agent 说):
请调用 get_weather,参数暂时未知,先问用户城市。

Agent → 用户:
"请问您在哪个城市?"

用户:
"北京"

Agent → 调用 get_weather("北京", "本周")→ 返回数据 → LLM 总结 → "本周北京晴转多云,最高 28°C"

Skills 的存在,把 LLM 从一个"聊天机器人"变成了一个"操作系统"。

你可以为 Agent 注册任意多个 Skills——就像给手机安装 App。一个没有 Skills 的 Agent 等于一个没有 App 的智能手机:硬件很强,但什么都干不了。


MCP —— 打通 AI 与世界的"USB 协议"

有了 Skills,Agent 可以调用工具了。但一个新问题出现了:

每个工具都要单独写接口,每对接一个新系统就要重新写一遍代码。

想象一下:你买了个新鼠标,结果发现它只适用于某个特定品牌的电脑——换个电脑就得换个鼠标。这不荒谬吗?

这就是 MCP 要解决的问题。

MCP = Model Context Protocol,模型上下文协议,由 Anthropic(Claude 的公司)提出。

你可以把它理解成 AI 世界的 USB 协议

  • USB 定义了标准的接口规范,任何 U 盘、键盘、鼠标插上任何电脑都能用
  • MCP 定义了标准的接口规范,任何 AI 模型连接任何数据源/工具都能用

MCP 的两端:

  • MCP Server:数据或工具的提供方(比如你的本地文件系统、数据库、Slack、GitHub)
  • MCP Client:调用方(比如 Claude Desktop、各种 Agent 框架)

在这里插入图片描述

为什么 MCP 重要?

在 MCP 之前,每个 AI 应用都要为自己的每个工具写适配代码。你需要为 ChatGPT 写一套插件,为 Claude 写另一套,为本地 Agent 再写一套。

有了 MCP,你只需要写一次 MCP Server,任何支持 MCP 的 Client 都可以直接使用。

这就像 USB 让打印机、键盘、U 盘可以即插即用——MCP 让数据源和工具可以即插即用


Hermes —— 把"大脑"装进"身体"的架构

现在我们有:

  • LLM(大脑)
  • Agent(行动框架)
  • Skills(双手)
  • MCP(连接标准)

还缺什么?一个把这一切组装起来的架构

这就是 Hermes(或者类似的项目/框架)要做的事。

Hermes 是一个典型的 Agent 运行时架构(Agent Runtime / Agent Framework)。它的设计思路是这样的:

在这里插入图片描述

Hermes 的核心理念:

  1. LLM 抽象层:不绑定任何特定模型(GPT / Claude / 开源模型都可以换)
  2. Agent 循环引擎:处理 ReAct 循环、记忆管理、任务规划
  3. Skill 注册中心:动态加载/卸载能力
  4. MCP 原生支持:通过 MCP 协议连接外部世界

换句话说,Hermes 就是 AI Agent 的操作系统内核——它不自己做所有事,但让所有事能协同工作。


把它们串起来——一个完整的故事

让我们用一个场景,把前面所有概念串起来。

小明的 AI 助手,帮他把一篇论文摘要翻译、整理、保存到知识库、并通知团队。

Step 1: 小明说——
        "帮我把这篇 AI 论文摘要翻译成中文,提炼 3 个要点,
         存到团队知识库,然后 Slack 通知大家。"

Step 2: LLM 理解意图
        └── 这是多步任务,需要翻译 + 总结 + 存储 + 通知
            Agent 循环启动

Step 3: Agent 规划步骤
        └── ① read_file("paper.txt")
            ② translate(content, target="zh")
            ③ summarize(text, points=3)
            ④ save_to_knowledge_base(title, content)
            ⑤ send_slack_message(channel, message)

Step 4: 逐个执行(通过 Skills)
        └── Skill: read_file  → 读取论文内容
            Skill: translate  → 调用翻译引擎
            Skill: summarize  → 调用 LLM 总结
            Skill: save_to_knowledge_base → 连接知识库
            Skill: send_slack → 发 Slack 通知

Step 5: 数据源的连接(通过 MCP)
        └── MCP Server: 本地文件系统(读取 paper.txt)
            MCP Server: 团队知识库(写入条目)
            MCP Server: Slack API(发送消息)

Step 6: 结果返回
        └── "完成!已翻译并总结,存入了『AI 论文』知识库,
              Slack 上 @channel 已通知。"

看,从用户的一句话,到 LLM 理解,到 Agent 规划,到 Skills 执行,到 MCP 打通数据源,最后到结果返回——一条完整的链路。

这不再是一个聊天机器人。这是一个数字员工


尾声:这不是未来,这是现在

2023 年,AI 还在"聊天"。
2024 年,AI 开始"用工具"。
2025 年,AI 开始"理解协议、自主规划、协同工作"。
2026 年……每个概念都在飞速进化。

这些名词不是孤立的 buzzword。它们是一层层递进的能力

LLM         → 大脑(理解与生成)
Skills      → 双手(具体能力)
Agent       → 身体与意志(自主行动)
MCP         → 神经与血管(连接外部世界)
Hermes/框架 → 骨架(把一切整合在一起)

下一次有人在你面前抛出这些词时,你不需要假装听懂了。你可以微微一笑,然后——真的听懂了


如果你觉得这篇文章有帮助,欢迎点赞、转发。
下一期内容更精彩——敬请期待。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐