AI大模型关键概念全链路梳理:从提问到自主多步骤任务执行

在使用AI大模型时,用户感受最直观的是提问与响应:输入一个问题,几秒钟后获得答案。然而,围绕大模型的专业词汇——如 Prompt、Token、RAG、Agent、MCP、Skill 等——往往让初学者困惑。这些术语不仅是“知识点”,它们共同构建了一套AI工程体系,每一个概念的诞生都为解决前一个问题而来。本文将清晰梳理这些关键词的逻辑演进,帮助你系统理解“从一次提问到AI自主完成复杂任务”的全过程。


一、输入:你如何让AI明白你的意图?

1. Prompt(提示词)

Prompt 就是给AI的“任务说明书”。越具体详细,AI越能给出符合你期望的答案。一个完整的Prompt包括角色、任务、约束、输出格式。

  • 差提示:索引失效
  • 优提示:
    • 角色:你是一名资深MySQL DBA。
    • 任务:列举InnoDB索引失效场景。
    • 约束:只讨论MySQL 8.0,每条附SQL示例。
    • 输出格式:Markdown列表,中文。

2. System Prompt(系统提示词)

如果Prompt是“每次任务说明”,System Prompt是“岗位说明书”,每次对话自动生效。开发者可预设角色、范围、风格、安全,用户不可见。


二、输入处理:AI到底“看见”什么?

3. Token(令牌)

大模型并非直接处理文字,而是将输入切分为Token——文本的最小单位(字/词/标点等)。Token数量影响模型处理速度与容量,也是计费单位。

4. 多模态(Multimodal)

新模型支持图像、音频等输入。文本、截图、语音都可作为Prompt被AI理解处理,实现跨模态推理。

5. 上下文窗口(Context Window)

模型每次推理有容量限制,所有输入内容(System Prompt、历史对话、检索文档、工具结果)都占据窗口。窗口越大,处理能力越强,但不是无限。

  • 主流模型窗口示例:GPT-4o 128k,Gemini 1.5 Pro 1000k等。

三、输出生成:决定AI“说什么”“怎么说”

6. Temperature(温度)

控制输出随机性。低温稳定准确,高温输出更有创意但可能不可靠。开发者可调节,终端产品一般默认优化。


四、输出质量:AI为什么会“自信地胡说八道”?

7. 幻觉(Hallucination)

AI的目标是生成“语言上合理”输出,而非“事实正确”。面对未知内容,AI会凭概率“编造”答案,导致幻觉——尤其在冷门知识、实时信息领域。

  • 工程应对:约束输出格式、提供真实知识来源。

8. Structured Output(结构化输出)

用Schema约束输出内容,令AI严格生成可解析的数据(如JSON),方便程序自动处理——解决“答案格式不一导致无法自动化处理”的问题。


五、AI能力扩展:让AI“做事”而不只是“说话”

9. Function Calling(函数调用)

给AI一份“工具菜单”。模型可输出结构化意图调用外部工具,开发者负责执行。实现“AI主动调API、查数据库”。

10. Agent(智能体)

Agent = 大模型+工具+循环推理。AI可自主制订任务、调用多步工具、根据结果动态规划。关键机制:ReAct循环(Reason-Act-Observe)。


六、知识增强:打破“知识截止”,让AI查最新资料

11. RAG(Retrieval-Augmented Generation 检索增强生成)

不让AI“死记硬背”,而是让AI“查资料”。系统先检索相关文档,连同用户问题传给模型,让AI基于最新、真实的信息回答。

12. Embedding(向量嵌入)

文本“翻译”成高维向量,语义相近内容距离近。通过Embedding实现语义检索而非关键词匹配。

13. 向量数据库(Vector Database)

专用于存储、检索Embedding的数据库。实现“从海量文档中迅速找到最相关内容”,支持RAG场景。


七、领域内化:让AI专精于某任务/风格

14. 微调(Fine-tuning)

用特定数据集对模型训练,使其内化专业知识或输出风格。知识更新需重训,响应快,适合稳定领域。


八、工具标准化与能力模块化:AI生态工程的进阶

15. MCP(Model Context Protocol)

工具接入协议,如USB之于硬件。开发者按MCP标准实现工具,一次接入,通用所有支持MCP的AI产品;大大简化工具扩展与复用。

16. Skill(技能)

高阶能力包。Skill包含Prompt模板、工具列表、执行流程,是Agent可复用的任务模块。像插件一样,即插即用,实现能力分发与迁移。


总结:一条清晰的演进链

从你提问到AI自主处理任务,每一个概念都是为上一个问题而生:

  1. 人如何有效提问?→ Prompt
  2. 如何自动化设定任务范围?→ System Prompt
  3. 输入处理的细节?→ Token、多模态、上下文窗口
  4. 输出质量与风格?→ Temperature
  5. 如何避免胡说?→ 幻觉、Structured Output、RAG
  6. AI如何主动去“查”?→ Embedding、向量数据库
  7. 如何专精领域?→ 微调
  8. AI如何主动“干活”?→ Function Calling、Agent
  9. 扩展工具的标准化?→ MCP
  10. 能力如何高度复用?→ Skill

每一步都是AI工程体系进化的必然结果——让模型更懂你,让模型接入更多真实世界的工具与知识,让能力标准化、高效复用。下次遇到这些词,你不仅“认识它”,更知道它解决了什么问题、在系统里处于哪一步。


一张总览逻辑图

输入文字/图片/声音
→ Tokenizer切分为Token
→ 放入上下文窗口
→ System Prompt+Prompt提供任务说明与角色边界
→ AI生成输出,Temperature决定风格与随机性
→ Structured Output约束格式,避免幻觉
→ 若需查资料RAG辅助,Embedding+向量数据库实现关键文档检索
→ 微调模块可让模型掌握特定领域知识
→ Function Calling让AI调工具,Agent实现自主多步推理
→ MCP统一工具接入,Skill模块化能力分发
→ 输出结构化答案或自动执行任务


Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐