AI大模型关键概念全链路梳理

静心观复

30人浏览 · 2026-05-18 20:55:47

静心观复 · 2026-05-18 20:55:47 发布

AI大模型关键概念全链路梳理：从提问到自主多步骤任务执行

在使用AI大模型时，用户感受最直观的是提问与响应：输入一个问题，几秒钟后获得答案。然而，围绕大模型的专业词汇——如 Prompt、Token、RAG、Agent、MCP、Skill 等——往往让初学者困惑。这些术语不仅是“知识点”，它们共同构建了一套AI工程体系，每一个概念的诞生都为解决前一个问题而来。本文将清晰梳理这些关键词的逻辑演进，帮助你系统理解“从一次提问到AI自主完成复杂任务”的全过程。

一、输入：你如何让AI明白你的意图？

1. Prompt（提示词）

Prompt 就是给AI的“任务说明书”。越具体详细，AI越能给出符合你期望的答案。一个完整的Prompt包括角色、任务、约束、输出格式。

差提示：索引失效
优提示：
- 角色：你是一名资深MySQL DBA。
- 任务：列举InnoDB索引失效场景。
- 约束：只讨论MySQL 8.0，每条附SQL示例。
- 输出格式：Markdown列表，中文。

2. System Prompt（系统提示词）

如果Prompt是“每次任务说明”，System Prompt是“岗位说明书”，每次对话自动生效。开发者可预设角色、范围、风格、安全，用户不可见。

二、输入处理：AI到底“看见”什么？

3. Token（令牌）

大模型并非直接处理文字，而是将输入切分为Token——文本的最小单位（字/词/标点等）。Token数量影响模型处理速度与容量，也是计费单位。

4. 多模态（Multimodal）

新模型支持图像、音频等输入。文本、截图、语音都可作为Prompt被AI理解处理，实现跨模态推理。

5. 上下文窗口（Context Window）

模型每次推理有容量限制，所有输入内容（System Prompt、历史对话、检索文档、工具结果）都占据窗口。窗口越大，处理能力越强，但不是无限。

主流模型窗口示例：GPT-4o 128k，Gemini 1.5 Pro 1000k等。

三、输出生成：决定AI“说什么”“怎么说”

6. Temperature（温度）

控制输出随机性。低温稳定准确，高温输出更有创意但可能不可靠。开发者可调节，终端产品一般默认优化。

四、输出质量：AI为什么会“自信地胡说八道”？

7. 幻觉（Hallucination）

AI的目标是生成“语言上合理”输出，而非“事实正确”。面对未知内容，AI会凭概率“编造”答案，导致幻觉——尤其在冷门知识、实时信息领域。

工程应对：约束输出格式、提供真实知识来源。

8. Structured Output（结构化输出）

用Schema约束输出内容，令AI严格生成可解析的数据（如JSON），方便程序自动处理——解决“答案格式不一导致无法自动化处理”的问题。

五、AI能力扩展：让AI“做事”而不只是“说话”

9. Function Calling（函数调用）

给AI一份“工具菜单”。模型可输出结构化意图调用外部工具，开发者负责执行。实现“AI主动调API、查数据库”。

10. Agent（智能体）

Agent = 大模型+工具+循环推理。AI可自主制订任务、调用多步工具、根据结果动态规划。关键机制：ReAct循环（Reason-Act-Observe）。

六、知识增强：打破“知识截止”，让AI查最新资料

11. RAG（Retrieval-Augmented Generation 检索增强生成）

不让AI“死记硬背”，而是让AI“查资料”。系统先检索相关文档，连同用户问题传给模型，让AI基于最新、真实的信息回答。

12. Embedding（向量嵌入）

文本“翻译”成高维向量，语义相近内容距离近。通过Embedding实现语义检索而非关键词匹配。

13. 向量数据库（Vector Database）

专用于存储、检索Embedding的数据库。实现“从海量文档中迅速找到最相关内容”，支持RAG场景。

七、领域内化：让AI专精于某任务/风格

14. 微调（Fine-tuning）

用特定数据集对模型训练，使其内化专业知识或输出风格。知识更新需重训，响应快，适合稳定领域。

八、工具标准化与能力模块化：AI生态工程的进阶

15. MCP（Model Context Protocol）

工具接入协议，如USB之于硬件。开发者按MCP标准实现工具，一次接入，通用所有支持MCP的AI产品；大大简化工具扩展与复用。

16. Skill（技能）

高阶能力包。Skill包含Prompt模板、工具列表、执行流程，是Agent可复用的任务模块。像插件一样，即插即用，实现能力分发与迁移。

总结：一条清晰的演进链

从你提问到AI自主处理任务，每一个概念都是为上一个问题而生：

人如何有效提问？→ Prompt
如何自动化设定任务范围？→ System Prompt
输入处理的细节？→ Token、多模态、上下文窗口
输出质量与风格？→ Temperature
如何避免胡说？→ 幻觉、Structured Output、RAG
AI如何主动去“查”？→ Embedding、向量数据库
如何专精领域？→ 微调
AI如何主动“干活”？→ Function Calling、Agent
扩展工具的标准化？→ MCP
能力如何高度复用？→ Skill

每一步都是AI工程体系进化的必然结果——让模型更懂你，让模型接入更多真实世界的工具与知识，让能力标准化、高效复用。下次遇到这些词，你不仅“认识它”，更知道它解决了什么问题、在系统里处于哪一步。

一张总览逻辑图

输入文字/图片/声音
→ Tokenizer切分为Token
→ 放入上下文窗口
→ System Prompt+Prompt提供任务说明与角色边界
→ AI生成输出，Temperature决定风格与随机性
→ Structured Output约束格式，避免幻觉
→ 若需查资料RAG辅助，Embedding+向量数据库实现关键文档检索
→ 微调模块可让模型掌握特定领域知识
→ Function Calling让AI调工具，Agent实现自主多步推理
→ MCP统一工具接入，Skill模块化能力分发
→ 输出结构化答案或自动执行任务

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

CS188 Note2 学习笔记

本文介绍了搜索问题的六要素：状态空间、动作集、转移模型、动作代价、初始状态和目标测试。以Pacman游戏为例，分析了状态空间大小的计算方法，指出实际应用中难以完全存储。对比了状态空间图（概念模型）和搜索树（实际结构）的区别，后者包含路径信息且同一状态可重复出现。最后比较了三种无信息搜索算法（DFS、BFS、UCS）的特性，包括数据结构、完备性、最优性、时空复杂度等，其中UCS能保证最优解但可能耗时