本文深入浅出地解析了AI开发中的三大核心概念:Agent(智能体)、Skills(技能模块)和MCP(模型上下文协议)。通过生动的比喻和实际案例,阐述了三者各自的定位与作用,以及它们之间的层级关系。文章强调理解这三者对于设计AI系统架构的重要性,并提供了技术参数对比、应用案例和未来趋势展望,旨在帮助初学者快速掌握大模型开发的基础知识。

一句话总结:

  • Agent 是「谁来干活」——就像一个有脑子的智能体
  • Skills 是「能干什么」——就像一套工具箱
  • MCP 是「怎么干活」——就像一套通信规则

打个比方:Agent是大脑,负责思考和决策;Skills是手脚,负责执行具体任务;MCP是神经系统,负责传递指令和信息。

下面我们一个个来拆解。

1、 Agent是什么

1.1 基本概念

Agent就是我们常说的「智能代理」,你可以把它想象成一个有独立思考能力的机器人。它不是那种简单执行命令的工具,而是能根据当前情况自主判断该做什么、怎么做。

比如你跟电商客服Agent说:“我的订单怎么还没到?” 它不会只冷冰冰地告诉你物流状态,而是会:

  1. 先理解你真正关心的是订单延迟问题
  2. 自动查询你的订单详情
  3. 实时获取物流信息
  4. 判断是否存在异常情况
  5. 主动提出解决方案,比如帮你催单或者申请补偿

这就是Agent的核心价值:它能主动思考,而不是被动等待指令。

1.2 核心能力

一个合格的Agent通常具备四大核心能力:

自主性:能独立做决策,不需要人类全程干预。比如客服Agent可以自己判断用户问题是否需要转人工,或者是否需要升级投诉流程。

反应性:能实时感知环境变化并快速响应。比如当订单状态更新时,Agent可以自动通知用户最新物流信息。

主动性:不只是被动回答问题,还能主动发现问题并提供帮助。比如用户还没询问,Agent可能已经发现订单延迟,并主动提出解决方案。

社交性:能和其他Agent或人类进行协作。多个Agent可以分工合作,共同完成复杂任务。

1.3 技术架构

一个典型的Agent系统内部结构通常包含以下几个核心模块:

Agent技术架构图

图1:Agent技术架构图

  • 感知模块:负责接收外部信息,比如用户输入、系统状态变化等
  • 推理引擎:Agent的「大脑」,负责分析信息、做出决策
  • 行动模块:执行推理引擎得出的决策,比如回复用户、调用工具等
  • 知识库与记忆:存储Agent的知识和经验,以及对话历史等上下文信息
  • 工具调用:连接外部工具和服务的接口,让Agent能调用更多资源
  • 任务规划:将复杂任务拆解成一系列可执行的步骤
  • 学习优化:从历史经验中学习,不断提升Agent的性能

1.4 典型应用场景

Agent技术已经广泛应用于各个领域,典型场景包括:

智能客服:理解用户问题,调用各种业务Skills来解答,甚至能主动发现用户潜在需求

自动化运维:实时监控服务器状态,发现问题后自动诊断并尝试修复,减少人工干预

数据分析:理解业务人员的自然语言查询,自动访问各种数据源,生成可视化分析报告

代码开发:辅助开发人员编写代码、调试程序、进行代码审查,提升开发效率

2、 Skills是什么

2.1 基本概念

Skills就是我们常说的「技能模块」,你可以把它想象成一个个独立的工具箱。每个Skill专注于解决某一类特定问题,比如查询订单、查询库存、发送邮件、生成报表等。

Skills的核心设计理念是模块化

  • 每个Skill只专注于一件事
  • 做好自己的核心功能
  • 可以被其他系统灵活组合使用

这种设计带来的好处非常明显:

  • 开发简单:每个Skill功能单一,开发难度低
  • 测试容易:功能明确,测试用例容易设计
  • 复用性强:一个Skill可以在多个项目中重复使用
  • 维护方便:修改一个Skill不会影响其他模块

2.2 技术架构

一个标准的Skill通常采用三层架构设计:

Skills技术架构图

图2:Skills技术架构图

  • 接口层:负责与外部系统交互,包括参数验证、输入解析和输出格式化
  • 逻辑层:Skill的核心,实现具体的业务逻辑,比如订单处理、折扣计算等
  • 资源层:负责与底层资源交互,比如数据库、文件系统、外部API等

2.3 分类体系

Skills可以按照功能和用途分为以下几类:

类型 功能描述 典型例子
信息获取类 主要用于读取数据,不修改数据 查询订单状态、查询库存信息
数据处理类 对数据进行计算、转换、分析等操作 文本分析、图表生成、数据清洗
操作执行类 执行实际业务操作,可能会修改数据 发送邮件、创建订单、生成报表
决策支持类 提供决策建议或风险评估 风险评估、商品推荐、智能诊断
交互协作类 与其他系统或Agent进行交互 任务分配、结果汇总、跨系统协作

2.4 开发流程

开发一个Skill通常遵循以下六个步骤:

Skills开发流程图

图3:Skills开发流程图

  1. 需求分析:明确Skill的功能需求和业务目标
  2. 接口设计:定义Skill的输入参数和输出格式
  3. 逻辑实现:编写Skill的核心业务逻辑代码
  4. 测试验证:进行单元测试、集成测试和性能测试,确保Skill质量
  5. 部署发布:将Skill部署到生产环境,供其他系统调用
  6. 运维监控:实时监控Skill运行状态,及时发现并解决问题

3、 MCP是什么

3.1 基本概念

MCP全称是Model Context Protocol(模型上下文协议),是由Anthropic公司推出的一套标准化通信协议。

MCP主要解决的问题是:如何让AI模型更方便地与外部工具、数据源进行交互

在没有MCP之前,每个AI应用如果想调用外部工具,都需要自己编写大量适配代码。有了MCP之后,所有系统都遵循同一套通信规则,AI模型可以更高效、更安全地调用各种外部资源,大大降低了开发成本。

3.2 核心特点

MCP协议具有以下四个核心特点:

标准化:所有系统都使用统一的通信格式和规则,实现无缝对接

安全性:提供完善的权限控制机制,确保只有授权用户才能访问敏感资源

可扩展:支持灵活扩展,新工具只需遵循协议规范就能快速接入

透明性:通信过程全程可追溯,方便排查问题和审计

3.3 技术架构

MCP采用经典的客户端-服务器架构:

MCP技术架构图

图4:MCP技术架构图

  • MCP Client:部署在AI模型侧,负责向MCP Server发送请求并接收响应
  • MCP Server:部署在资源侧,负责提供数据访问或工具调用服务
  • 通信协议:基于JSON-RPC 2.0协议,支持stdio、SSE、WebSocket三种传输方式

MCP协议定义了四个核心功能模块:

  • Resources:提供数据访问能力,比如读取文件内容、查询数据库记录等
  • Prompts:管理提示词模板,方便AI模型快速生成高质量响应
  • Tools:封装可执行的功能模块,供AI模型调用
  • Sampling:允许服务器端调用AI模型,实现双向交互

4、 三者关系

4.1 层次关系

三者关系模型

图5:三者关系模型图

Agent、Skills和MCP之间是典型的从上到下的层级关系:

Agent(智能体)    ↓ 调用Skills(能力模块)    ↓ 通过MCP(通信协议)    ↓ 访问外部资源(数据/工具)

用通俗的话来说:

  1. Agent接收任务并做出决策,决定需要调用哪些Skills
  2. Agent调用合适的Skills来完成具体任务
  3. Skills通过MCP协议访问外部数据或工具
  4. 执行结果通过MCP返回给Skills,再由Skills返回给Agent
  5. Agent根据结果生成最终响应

4.2 本质区别

从本质上看,Agent、Skills和MCP三者的定位和职责有明显区别:

对比维度 Agent Skills MCP
概念定位 谁来做事 做什么事 怎么做
核心职责 决策与执行 功能封装 消息传输
自主性 高(自主决策) 低(被动调用) 无(只是协议)
状态管理 维护会话状态 可选(可无状态) 管理连接状态
开发重点 智能性、适应性 功能性、可靠性 规范性、安全性

5、技术参数对比

5.1 核心特征对比

对比维度 Agent Skills MCP
概念定位 智能实体 能力单元 通信协议
核心职责 决策与执行 功能封装 消息传输
自主性 高(自主决策) 低(被动调用) 无(协议本身无自主性)
状态管理 维护会话状态 可选(可无状态) 管理连接状态
复用性 中等 高(可跨项目复用) 高(通用协议)
开发复杂度 高(需考虑智能性) 中等(功能单一) 低(标准协议)
通信方式 直接调用Skills 通过MCP协议 JSON-RPC 2.0

表1:核心特征对比

5.2 技术栈对比

技术栈 Agent Skills MCP
开发框架 LangChain, AutoGPT 函数库/微服务框架 MCP SDK
存储方案 向量数据库(存储知识) 关系数据库(存储业务数据) 无状态(不存储数据)
通信方式 HTTP/HTTPS RPC/HTTP JSON-RPC 2.0
部署方式 容器化部署(Docker/K8s) 微服务部署 协议适配器部署

表2:技术栈对比

5.3 能力边界对比

能力 Agent Skills MCP
自主决策 ✅ 支持自主决策 ❌ 不支持决策,仅执行任务 ❌ 无决策能力
任务规划 ✅ 能将复杂任务拆解为子任务 ❌ 仅执行单一任务 ❌ 无规划能力
工具调用 ✅ 能调用多种Skills ✅ 能通过MCP调用外部工具 ✅ 提供协议支持
状态记忆 ✅ 维护会话状态和历史记录 ⚠️ 可选,部分Skills可维护状态 ✅ 管理连接状态
并发处理 ✅ 支持多任务并发处理 ✅ 支持高并发调用 ✅ 支持高并发通信
学习进化 ✅ 能从经验中学习优化 ❌ 不具备学习能力 ❌ 无学习能力

表3:能力边界对比

6、 应用案例


6.1 案例一:智能客服

场景描述

某电商平台的客服系统,每天要处理上万条用户咨询。传统的客服机器人只能回答预设的问题,遇到稍微复杂的情况就转人工,导致人工客服压力巨大。

用户小明在双十一期间买了一件衣服,等了一周还没收到货。他打开客服对话框,输入:“我的订单怎么还没到?都等了一周了!”

系统处理流程

客服Agent接收到小明的消息后,并没有直接回复"请提供订单号",而是:

  1. 从对话上下文中识别出小明的身份
  2. 自动查询他最近的订单
  3. 发现订单状态显示"已发货",但物流信息停留在三天前
  4. 判断可能存在物流异常
  5. 主动查询物流公司的最新信息
  6. 发现包裹在某中转站滞留

Agent给小明的回复是:“您好,我查到您的订单(订单号:20231111****)目前在中转站滞留,我已经帮您催促物流,预计明天会有更新。作为补偿,我为您申请了一张10元无门槛优惠券,您看可以吗?”

小明只发了一条消息,问题就得到了解决,还获得了补偿。这就是Agent、Skills、MCP协同工作的效果。

架构设计

  • Agent层:客服Agent负责理解用户意图、规划回答策略、协调多个Skills
  • Skills层:订单查询Skill、物流查询Skill、退换货Skill、商品推荐Skill等
  • MCP层:订单系统适配器、物流系统适配器、用户系统适配器等

代码示例

class CustomerServiceAgent:    """智能客服Agent,负责处理用户咨询并协调多个Skills完成任务"""        asyncdef process_message(self, user_input: str) -> str:        """        处理用户消息的主入口函数                Args:            user_input: 用户输入的消息内容                    Returns:            str: Agent生成的回复内容        """        # 第一步:使用大模型理解用户意图        # 比如用户说"我的订单怎么还没到",模型会识别出这是"订单查询"意图        intent = await self.llm.classify_intent(user_input)                # 第二步:根据意图规划要执行的动作        # 可能需要调用多个Skills,比如先查订单,再查物流        action_plan = await self.plan_action(intent)                # 第三步:依次调用Skills执行动作        results = []        for action in action_plan:            # 从Skills注册表中获取对应的Skill            skill = self.skills.get(action.skill_name)            # 执行Skill并收集结果            result = await skill.execute(action.params)            results.append(result)                # 第四步:根据所有Skills的执行结果,生成最终回复        # 大模型会综合所有信息,生成自然、友好的回复        response = await self.llm.generate_response(results)                return response

实际效果

  • 客服响应时间从平均5分钟缩短到30秒
  • 人工客服工作量减少60%
  • 用户满意度提升25%

6.2 案例二:自动化运维

场景描述

某互联网公司的运维团队负责管理上百台服务器,分布在AWS、Azure、GCP三个云平台上。以前,每当服务器出现故障,运维人员需要:

  1. 登录监控平台查看告警
  2. 手动排查是哪个云平台的问题
  3. 登录对应的云平台控制台
  4. 查看日志、分析原因
  5. 手动执行修复操作

整个过程平均需要30分钟,而且容易出错。

凌晨3点,运维Agent收到一条告警:某台服务器的CPU使用率持续超过95%。

系统处理流程

运维Agent并没有立即叫醒值班人员,而是:

  1. 自动分析告警,确认是AWS上的生产服务器
  2. 查询该服务器的历史数据,发现最近一周CPU使用率逐步上升
  3. 分析进程列表,发现是某个Java应用的内存泄漏导致频繁GC
  4. 判断可以通过重启应用临时解决
  5. 执行重启操作,并验证CPU使用率恢复正常
  6. 记录问题详情,第二天早上发送报告给开发团队

第二天早上,运维人员发现Agent已经处理了这个问题,还附上了详细的分析报告。他们只需要跟进开发团队修复内存泄漏问题即可。

架构设计

  • Agent层:运维Agent负责监控系统状态、诊断故障原因、执行修复操作
  • Skills层:监控Skill、诊断Skill、扩容Skill、重启Skill等
  • MCP层:AWS适配器、Azure适配器、GCP适配器等

代码示例

class OperationsAgent:    """自动化运维Agent,负责监控系统状态、诊断故障并自动修复"""        asyncdef handle_alert(self, alert: Alert):        """        处理系统告警的主入口函数                Args:            alert: 告警对象,包含告警类型、来源服务器、告警级别等信息        """        # 第一步:分析告警信息,收集上下文        # 包括服务器ID、告警指标、历史数据等        context = await self.analyze_alert(alert)                # 第二步:诊断故障根因        # 通过分析日志、进程列表、资源使用情况等,找出问题根源        diagnosis = await self.diagnose(context)                # 第三步:制定修复方案        # 根据诊断结果,生成一系列修复步骤        # 比如重启服务、扩容、清理磁盘等        plan = await self.create_repair_plan(diagnosis)                # 第四步:依次执行修复步骤        for step in plan.steps:            # 获取对应的修复Skill            skill = self.skills.get(step.skill_name)            # 执行修复操作            result = await skill.execute(step.params)                        # 验证修复效果            # 如果修复失败,执行回滚操作            ifnotawait self.verify_repair(step, result):                await self.rollback(step)                break                # 第五步:记录处理过程,生成报告        # 第二天早上发送给运维人员

实际效果

  • 故障平均修复时间从30分钟缩短到3分钟
  • 凌晨故障处理不再需要人工介入
  • 运维人员睡眠质量显著提升

6.3 案例三:数据分析助手

场景描述

某零售企业的市场部门每个月都要做销售分析报告。以前,市场专员小李需要:

  1. 从MySQL数据库导出销售数据
  2. 从PostgreSQL数据库导出用户数据
  3. 从Excel表格合并库存数据
  4. 用Excel做数据清洗和计算
  5. 手动制作各种图表
  6. 写分析报告

整个过程需要3天时间,而且经常出错。

现在,小李只需要在对话框里输入:“帮我分析一下上个月各地区的销售情况,对比去年同期,找出增长最快和下降最多的地区。”

系统处理流程

数据分析Agent接收到小李的请求后:

  1. 理解小李想要的是地区销售对比分析
  2. 自动规划分析步骤:查询数据→计算增长率→排序→生成图表
  3. 通过MCP连接MySQL查询销售数据
  4. 通过MCP连接PostgreSQL查询用户地区信息
  5. 在内存中完成数据合并和增长率计算
  6. 生成柱状图和折线图
  7. 自动生成文字分析报告

5分钟后,小李收到了一份完整的分析报告,包含:

  • 各地区销售额对比柱状图
  • 同比增长率折线图
  • 增长最快的3个地区及原因分析
  • 下降最多的2个地区及改进建议

小李只需要稍作调整,就可以提交给领导了。

架构设计

  • Agent层:分析Agent负责理解自然语言查询、规划分析步骤、生成图表和解释
  • Skills层:数据查询Skill、数据处理Skill、可视化Skill、洞察发现Skill等
  • MCP层:MySQL适配器、PostgreSQL适配器、Excel适配器等

代码示例

class DataAnalysisAgent:    """数据分析Agent,负责理解自然语言查询并生成分析报告"""        asyncdef process_query(self, query: str) -> AnalysisResult:        """        处理用户的数据分析查询                Args:            query: 用户的自然语言查询,如"分析上个月各地区销售情况"                    Returns:            AnalysisResult: 包含数据、图表和分析结论的结果对象        """        # 第一步:理解查询意图        # 大模型会解析用户想要什么数据、什么图表、什么维度        # 比如"各地区销售情况"会被解析为:维度=地区,指标=销售额        intent = await self.llm.understand_query(query)                # 第二步:规划分析步骤        # 根据意图生成执行计划,可能包含多个步骤:        # 1. 查询销售数据        # 2. 查询用户地区信息        # 3. 合并数据        # 4. 计算增长率        # 5. 排序        plan = await self.plan_analysis(intent)                # 第三步:依次执行分析步骤        for step in plan.steps:            # 获取对应的Skill(数据查询、数据处理等)            skill = self.skills.get(step.type)            # 执行Skill并传递参数            result = await skill.execute(step.params)                # 第四步:生成可视化图表        # 调用可视化Skill,根据数据类型自动选择合适的图表        # 比如地区对比用柱状图,趋势分析用折线图        charts = await self.skills.get("visualization").execute({            "data": result,           # 处理后的数据            "type": intent.chart_type # 用户指定的图表类型        })                # 第五步:返回完整的分析结果        # 包含原始数据、图表、自动生成的分析文字        return AnalysisResult(data=result, charts=charts)

实际效果

  • 报告制作时间从3天缩短到30分钟
  • 数据准确率提升到99%
  • 市场团队可以更频繁地做数据分析

7、 未来趋势

7.1 Agent方向

推理能力增强:随着大模型能力的提升,Agent将能够处理更复杂的推理任务。比如,现在的Agent可能只能处理简单的"查询订单"任务,未来的Agent可能能够处理"分析为什么这个用户流失了,并制定挽回策略"这样的复杂任务。

多模态交互:Agent不再局限于文字交互,将支持图片、语音、视频等多种输入输出方式。比如,用户可以上传一张产品图片,Agent能够识别产品并提供相关信息。

多Agent协作:复杂任务将由多个专业Agent协作完成。比如,一个Agent负责理解用户需求,一个Agent负责技术实现,一个Agent负责质量检查,形成流水线式的协作模式。

7.2 Skills方向

标准化与共享:Skills将形成统一的开发规范,开发者可以像发布npm包一样发布和共享Skills。企业可以购买或租用高质量的Skills,而不是每个功能都自己开发。

自适应优化:Skills将具备一定的自适应能力,能够根据运行情况自动调整参数。比如,一个查询Skill可以根据数据库负载自动调整查询策略。

7.3 MCP方向

生态扩展:越来越多的工具和数据源将支持MCP协议。目前MCP还比较新,但随着Anthropic的推广,预计会有更多厂商支持。

安全增强:MCP将引入更完善的安全机制,比如端到端加密、细粒度权限控制、审计日志等,让企业更放心地使用。

7.4 融合趋势

一体化开发平台:未来会出现集成Agent、Skills、MCP的一体化开发平台,开发者只需要关注业务逻辑,不需要关心底层架构。

低代码/无代码化:非技术人员也能通过可视化界面配置Agent和Skills,降低AI应用的开发门槛。

8、总结

Agent、Skills、MCP三者构成了AI应用开发的核心架构:

Agent是大脑:负责理解用户需求、规划执行步骤、做出决策。它是AI系统的智能核心,决定了系统能做什么、做到什么程度。

Skills是手脚:负责执行具体任务,比如查询数据、发送邮件、生成报告。每个Skill专注于一件事,简单可靠,可以灵活组合。

MCP是神经:负责连接Agent、Skills和外部资源。它让不同的系统能够用同一种"语言"交流,大大降低了集成成本。

实际开发建议

  1. 先设计Skills:明确你的AI系统需要哪些能力,每个能力封装成一个Skill
  2. 再设计Agent:根据业务场景设计Agent的决策逻辑和任务规划能力
  3. 最后接入MCP:通过MCP连接外部系统和数据源

避免常见错误

  • 不要把所有逻辑都塞进Agent,Agent应该只负责决策,具体执行交给Skills
  • 不要让Skills之间直接通信,应该通过Agent来协调
  • 不要为每个外部系统都写一套适配代码,应该统一使用MCP

理解这三者的关系,能帮助你设计出更清晰、更易维护、更易扩展的AI应用架构。

最后

对于正在迷茫择业、想转行提升,或是刚入门的程序员、编程小白来说,有一个问题几乎人人都在问:未来10年,什么领域的职业发展潜力最大?

答案只有一个:人工智能(尤其是大模型方向)

当下,人工智能行业正处于爆发式增长期,其中大模型相关岗位更是供不应求,薪资待遇直接拉满——字节跳动作为AI领域的头部玩家,给硕士毕业的优质AI人才(含大模型相关方向)开出的月基础工资高达5万—6万元;即便是非“人才计划”的普通应聘者,月基础工资也能稳定在4万元左右

再看阿里、腾讯两大互联网大厂,非“人才计划”的AI相关岗位应聘者,月基础工资也约有3万元,远超其他行业同资历岗位的薪资水平,对于程序员、小白来说,无疑是绝佳的转型和提升赛道。
图片
图片
对于想入局大模型、抢占未来10年行业红利的程序员和小白来说,现在正是最好的学习时机:行业缺口大、大厂需求旺、薪资天花板高,只要找准学习方向,稳步提升技能,就能轻松摆脱“低薪困境”,抓住AI时代的职业机遇。

如果你还不知道从何开始,我自己整理一套全网最全最细的大模型零基础教程,我也是一路自学走过来的,很清楚小白前期学习的痛楚,你要是没有方向还没有好的资源,根本学不到东西!

下面是我整理的大模型学习资源,希望能帮到你。

图片

👇👇扫码免费领取全部内容👇👇

在这里插入图片描述

最后

1、大模型学习路线

img

2、从0到进阶大模型学习视频教程

从入门到进阶这里都有,跟着老师学习事半功倍。

在这里插入图片描述

3、 入门必看大模型学习书籍&文档.pdf(书面上的技术书籍确实太多了,这些是我精选出来的,还有很多不在图里)

在这里插入图片描述

4、 AI大模型最新行业报告

2026最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

img

5、面试试题/经验

img

【大厂 AI 岗位面经分享(107 道)】

img

【AI 大模型面试真题(102 道)】

img

【LLMs 面试真题(97 道)】

img

6、大模型项目实战&配套源码

img

适用人群

在这里插入图片描述

四阶段学习规划(共90天,可落地执行)
第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范
第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署
第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建
第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型

  • 带你了解全球大模型

  • 使用国产大模型服务

  • 搭建 OpenAI 代理

  • 热身:基于阿里云 PAI 部署 Stable Diffusion

  • 在本地计算机运行大模型

  • 大模型的私有化部署

  • 基于 vLLM 部署大模型

  • 案例:如何优雅地在阿里云私有部署开源大模型

  • 部署一套开源 LLM 项目

  • 内容安全

  • 互联网信息服务算法备案

  • 👇👇扫码免费领取全部内容👇👇

    在这里插入图片描述

3、这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
在这里插入图片描述
在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐