从 LLM 到 Agent Skill,带你打通底层逻辑

蔡俊锋

301人浏览 · 2026-04-03 13:15:31

蔡俊锋 · 2026-04-03 13:15:31 发布

当我们还在惊叹GPT-4o的多模态能力时，AI的下一个时代已经悄然来临。如果说LLM是"会思考的大脑"，那么Agent Skill就是"会行动的双手"。本文将带你从第一性原理出发，层层拆解从大语言模型到智能体技能的完整演进路径，真正打通AI智能体的底层逻辑。

在这里插入图片描述

引言：为什么Agent Skill是AI的下一个拐点

2025年，AI行业发生了一个微妙但决定性的转变：从"模型竞赛"转向"能力竞赛"。

我们看到：

OpenAI推出了GPT-4o Agents，支持自定义技能和工具调用
Anthropic发布了Claude 3.7 Opus，原生支持长上下文和复杂任务规划
字节跳动、谷歌、微软纷纷加码智能体平台，争夺开发者生态

这一切的背后，是一个简单而深刻的事实：LLM本身已经足够强大，但它的能力被"锁"在了文本交互的盒子里。Agent Skill就是打开这个盒子的钥匙，让AI从"回答问题"进化为"解决问题"。

第一部分：LLM的本质与局限性

要理解Agent Skill，我们必须先回到原点，重新认识LLM的本质。

1.1 LLM的本质：下一个token预测器

无论模型多大、能力多强，所有LLM的核心机制都是相同的：根据前面的文本，预测下一个最可能出现的token。

图1：LLM的核心工作原理示意图

这个简单的机制产生了惊人的涌现能力：

语言理解与生成
逻辑推理与数学计算
知识记忆与迁移
多模态理解与生成

1.2 LLM的三大核心局限性

然而，正是这个"下一个token预测"的本质，决定了LLM存在三个无法通过单纯扩大模型规模解决的根本性问题：

局限性	具体表现	根本原因
短期记忆有限	长对话容易遗忘上下文，复杂任务容易出错	Transformer的注意力机制计算复杂度随序列长度平方增长
无法执行动作	只能输出文本，不能直接操作外部世界	模型本身没有与环境交互的接口
缺乏长期规划	容易陷入局部最优，难以完成多步骤复杂任务	自回归生成是"一步一决策"，没有全局视角

第二部分：从LLM到Agent的核心跃迁

Agent（智能体）的出现，正是为了解决LLM的这些局限性。

2.1 什么是AI Agent？

AI Agent是一个能够自主感知环境、做出决策并执行动作，以实现特定目标的智能系统。

一个完整的AI Agent必须具备四个核心组件：

图2：AI Agent的四大核心组件

感知模块：接收来自外部环境的信息（文本、图像、音频等）
大脑模块：基于感知信息进行思考、推理和规划（核心是LLM）
动作模块：执行决策，与外部环境交互（工具调用、API调用等）
记忆模块：存储历史信息、知识和经验

2.2 从LLM到Agent的三大核心跃迁

从LLM到Agent，不是简单的功能叠加，而是三个维度的根本性跃迁：

跃迁1：从"被动响应"到"主动目标导向"

LLM：用户问什么，我答什么
Agent：用户给一个目标，我自己想办法完成

跃迁2：从"单步推理"到"多步规划与执行"

LLM：一次生成完整答案
Agent：将复杂任务分解为多个子任务，逐步执行并调整

跃迁3：从"封闭系统"到"开放系统"

LLM：知识和能力仅限于训练数据
Agent：可以通过工具调用获取实时信息，扩展无限能力

第三部分：Agent Skill的底层架构与实现原理

Agent Skill（智能体技能）是Agent能够执行的特定能力单元，是Agent系统的核心组成部分。

3.1 Agent Skill的定义与分类

Agent Skill是一个封装了特定任务逻辑、可以被Agent大脑调用的模块化能力单元。

我们可以将Agent Skill分为三大类：

基础技能：通用的、几乎所有Agent都需要的能力
- 网络搜索
- 文件读写
- 代码执行
- 数学计算
领域技能：针对特定行业或领域的专业能力
- 金融分析
- 医疗诊断
- 法律文书生成
- 代码开发
复合技能：由多个基础技能和领域技能组合而成的复杂能力
- 市场调研报告生成
- 自动化测试
- 项目管理
- 客户服务

3.2 Agent Skill的底层实现架构

一个标准的Agent Skill由以下五个部分组成：

图3：Agent Skill的底层实现架构

1. 技能描述（Skill Description）

清晰定义技能的功能、输入、输出和使用场景
这是Agent大脑能够理解并调用该技能的关键
通常用自然语言或结构化语言（如JSON Schema）描述

2. 参数解析器（Parameter Parser）

将Agent大脑输出的自然语言指令解析为结构化的参数
验证参数的合法性和完整性
处理参数缺失或错误的情况

3. 执行引擎（Execution Engine）

技能的核心逻辑实现
可以是简单的API调用，也可以是复杂的业务逻辑
支持同步和异步执行

4. 结果处理器（Result Processor）

将执行结果转换为Agent大脑能够理解的自然语言格式
提取关键信息，过滤无关内容
处理执行失败的情况，生成错误信息

5. 状态管理器（State Manager）

管理技能执行过程中的状态
支持断点续执行
存储中间结果

3.3 Agent Skill的调用流程

当Agent需要执行一个任务时，它会按照以下流程调用相应的Skill：

任务理解：Agent大脑理解用户的目标和需求
技能选择：根据任务需求，从技能库中选择合适的技能
参数生成：生成调用该技能所需的参数
技能执行：调用技能的执行引擎，执行具体操作
结果反馈：将执行结果返回给Agent大脑
决策调整：Agent大脑根据结果调整下一步决策
循环迭代：重复上述步骤，直到任务完成

第四部分：主流Agent Skill框架对比

目前，业界已经涌现出多个优秀的Agent Skill开发框架。下面我们对最主流的四个框架进行对比：

框架	开发者	核心优势	适用场景	学习曲线
LangChain	LangChain Inc.	生态最丰富，工具最多	通用Agent开发	中等
LlamaIndex	LlamaIndex Inc.	数据连接能力强	RAG+Agent结合	中等
AutoGPT	Significant Gravitas	自主性最强	复杂任务自动化	简单
CrewAI	João Moura	多智能体协作能力强	团队协作式任务	简单

4.1 LangChain：最成熟的通用Agent框架

LangChain是目前最流行、生态最完善的Agent开发框架。它提供了完整的工具调用、记忆管理和任务规划能力。

LangChain中Agent Skill的核心抽象是Tool类：

from langchain.tools import tool

@tool
def calculator(expression: str) -> str:
    """
    计算数学表达式的值。
    
    参数:
        expression: 要计算的数学表达式，例如"2+3*4"
    """
    try:
        return str(eval(expression))
    except Exception as e:
        return f"计算错误: {str(e)}"

4.2 CrewAI：多智能体协作的最佳选择

CrewAI专为多智能体协作设计，它将Agent和Task分离，让每个Agent专注于自己擅长的任务。

from crewai import Agent, Task, Crew

researcher = Agent(
    role="市场研究员",
    goal="收集和分析市场数据",
    backstory="你是一位经验丰富的市场研究员，擅长收集和分析各种市场数据。"
)

research_task = Task(
    description="研究2026年AI智能体市场的发展趋势",
    agent=researcher,
    expected_output="一份详细的市场趋势报告"
)

crew = Crew(agents=[researcher], tasks=[research_task])
result = crew.kickoff()

第五部分：实战：从零构建一个简单的Agent Skill

理论讲了这么多，现在让我们动手实战，从零构建一个简单但实用的Agent Skill——“天气查询技能”。

5.1 准备工作

首先，安装必要的依赖：

pip install langchain openai python-dotenv requests

然后，创建一个.env文件，存储你的API密钥：

OPENAI_API_KEY=你的OpenAI API密钥
WEATHER_API_KEY=你的和风天气API密钥

5.2 实现天气查询技能

import os
import requests
from dotenv import load_dotenv
from langchain.tools import tool
from langchain_openai import ChatOpenAI
from langchain.agents import AgentExecutor, create_openai_tools_agent
from langchain_core.prompts import ChatPromptTemplate

# 加载环境变量
load_dotenv()

# 定义天气查询技能
@tool
def get_weather(city: str, date: str = "今天") -> str:
    """
    查询指定城市指定日期的天气信息。
    
    参数:
        city: 要查询的城市名称，例如"北京"、"上海"
        date: 要查询的日期，默认为"今天"，也可以是"明天"、"后天"或具体日期如"2026-04-05"
    """
    api_key = os.getenv("WEATHER_API_KEY")
    base_url = "https://devapi.qweather.com/v7/weather/3d"
    
    # 首先获取城市的Location ID
    location_url = f"https://geoapi.qweather.com/v2/city/lookup?location={city}&key={api_key}"
    location_response = requests.get(location_url).json()
    
    if location_response["code"] != "200":
        return f"获取城市信息失败: {location_response['message']}"
    
    location_id = location_response["location"][0]["id"]
    
    # 获取天气信息
    weather_url = f"{base_url}?location={location_id}&key={api_key}"
    weather_response = requests.get(weather_url).json()
    
    if weather_response["code"] != "200":
        return f"获取天气信息失败: {weather_response['message']}"
    
    # 处理日期
    if date == "今天":
        day_index = 0
    elif date == "明天":
        day_index = 1
    elif date == "后天":
        day_index = 2
    else:
        # 这里简化处理，实际应该解析具体日期
        return "暂时只支持查询今天、明天和后天的天气"
    
    daily_weather = weather_response["daily"][day_index]
    
    return f"""
    {city}{date}的天气信息：
    天气状况：{daily_weather['textDay']}
    最高温度：{daily_weather['tempMax']}℃
    最低温度：{daily_weather['tempMin']}℃
    风向：{daily_weather['windDirDay']}
    风力：{daily_weather['windScaleDay']}级
    """

# 创建Agent
llm = ChatOpenAI(model="gpt-4o", temperature=0)
tools = [get_weather]

prompt = ChatPromptTemplate.from_messages([
    ("system", "你是一个有用的助手，可以帮助用户查询天气信息。"),
    ("human", "{input}"),
    ("agent_scratchpad", "{agent_scratchpad}")
])

agent = create_openai_tools_agent(llm, tools, prompt)
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True)

# 测试Agent
result = agent_executor.invoke({"input": "深圳明天的天气怎么样？"})
print(result["output"])

5.3 运行结果

当你运行这段代码时，你会看到类似以下的输出：

> Entering new AgentExecutor chain...

Invoking: `get_weather` with `{'city': '深圳', 'date': '明天'}`


    深圳明天的天气信息：
    天气状况：多云
    最高温度：28℃
    最低温度：22℃
    风向：东风
    风力：3级

深圳明天的天气是多云，最高温度28℃，最低温度22℃，东风3级。建议穿着轻薄透气的衣物。

> Finished chain.
深圳明天的天气是多云，最高温度28℃，最低温度22℃，东风3级。建议穿着轻薄透气的衣物。

恭喜你！你已经成功构建了你的第一个Agent Skill。