AI核心词汇

会飞De琥珀

364人浏览 · 2026-04-11 13:24:57

会飞De琥珀 · 2026-04-11 13:24:57 发布

LLM（大语言模型）

大语言模型（Large Language Model，简称LLM），是具备大规模参数和复杂计算结构的机器学习模型，通常由深度神经网络构建而成。其设计核心目的，是提升模型的表达能力与预测性能，从而高效处理复杂任务、解析繁杂数据。

LLM的应用场景十分广泛，覆盖自然语言处理、计算机视觉、语音识别、推荐系统等多个领域。它通过在海量数据中训练，学习数据背后的复杂模式与核心特征，具备极强的泛化能力，即便面对未接触过的数据，也能做出精准预测。从本质上来说，LLM是依托海量数据训练而成的深度神经网络模型，正是其庞大的数据规模与参数体量，实现了“智能涌现”，让模型展现出类人智能表现。

具体而言，LLM的使用场景可分为以下几类：首先是文本生成，能够产出连贯的段落、文章、对话等内容，广泛应用于自动写作、机器翻译等任务；其次是问答系统，可精准响应复杂问题，支持对话式交互，实现高效沟通；再者是语义理解与推理，能够完成情感分析、命名实体识别、文本分类等细分任务；此外，LLM还可应用于智能助理、机器人交互、自动摘要、信息提取等领域，为自然语言处理与人工智能领域提供更智能、更自然的人机交互体验，应用潜力巨大。

LLM大模型的分类

按照输入数据类型的不同，LLM大模型主要可分为三大类，各类模型的核心功能、应用场景及代表案例如下：

语言大模型（NLP方向）：聚焦自然语言处理（Natural Language Processing，简称NLP）领域，核心用于处理文本数据、理解自然语言。这类模型的核心特点是在大规模语料库上完成训练，熟练掌握自然语言的语法、语义及语境规则。代表案例：GPT系列（OpenAI）、Bard（Google）、文心一言（百度）。

视觉大模型（CV方向）：应用于计算机视觉（Computer Vision，简称CV）领域，核心用于图像处理与分析。通过在大规模图像数据上训练，可实现图像分类、目标检测、图像分割、姿态估计、人脸识别等各类视觉任务。代表案例：ViT系列（Google，修正：原“VIT”规范写法为“ViT”）、文心UFO、华为盘古CV、INTERN（商汤）。

多模态大模型：能够同时处理多种类型的数据，包括文本、图像、音频等多模态信息。这类模型融合了NLP与CV的核心能力，可对多模态信息进行综合理解与分析，更全面地处理复杂数据。代表案例：DALL·E（OpenAI，修正：原“DALL-E”规范写法为“DALL·E”）、悟空画画（华为）、Midjourney、DingoDB多模向量数据库（九章云极DataCanvas）。

LLM核心原理（通俗解读）

LLM的工作逻辑类似我们熟悉的“文字接龙”，核心是通过逐步追加内容，完成对用户需求的响应，具体过程如下：

当用户输入问题“牵牛花是什么颜色”，模型会先返回与问题相关的初始内容；

随后，模型会将这一返回内容与原始问题结合，再次作为输入，继续追加补充内容，返回“牵牛花常见的颜色有红色、蓝色”；

这一过程会持续进行，直到模型输出“终止符”，整个问答流程才算结束。

因此，我们看到的LLM回答，本质上都是内容一点一点追加生成的。

Token（令牌）

Token是大模型处理文本的最小单位，模型会通过Tokenizer（分词器），将完整文本切分为一个个独立的Token片段，再进行后续处理。

核心流程：

编码：分为两步——第一步通过分词器将文本切分为Token，第二步将Token映射为唯一的Token ID（便于模型识别与计算）；
解码：将模型处理后的Token ID，还原为人类可理解的自然文本。

量化参考（便于估算文本Token数量）：

1个Token约等于0.75个英文单词（英文语境常用参考）；
1个Token约等于1.5-2个汉字（中文语境下常用参考，不含标点符号）。

Context（上下文）

定义：大模型每次处理任务时，所能接收的全部信息总和，相当于模型的“临时记忆”——模型仅能基于当前上下文内的信息进行思考和响应，无法获取上下文之外的内容。

组成部分：主要包括用户提问、历史对话记录、当前已输出的Token、工具列表、System Prompt（系统提示）等。

容量限制：上下文的最大容量由Context Window（上下文窗口）定义，即模型单次可处理的最大Token数量。目前主流LLM的Context Window容量跨度较大，从几万到100万Token不等（修正：原“约为100万Token左右”表述重复，且不符合实际，主流模型容量有差异）。

突破容量限制的核心方案：RAG技术（检索增强生成）。其核心逻辑是：从外部知识库中，抽取与用户问题最相关的信息片段，仅将这些关键信息送入模型，从而大幅降低Token消耗，间接突破Context Window的限制。

Prompt（提示词）

Prompt是用户或开发者给大模型的问题、指令或引导，直接决定了模型输出的质量和方向——清晰、精准、具体的Prompt，能让模型更高效地输出符合预期的结果。

Prompt分类：

User Prompt（用户提示）：由用户输入的具体任务、问题或需求，是模型响应的直接依据；
System Prompt（系统提示）：由开发者在后台配置，用于定义模型的人设、做事规则、响应风格等，规范模型的输出逻辑，用户通常无法直接修改。

Tool（工具）

Tool是大模型的外部能力扩展，本质是大模型可调用的外部函数或应用程序，核心作用是弥补大模型自身的短板——比如大模型无法获取实时信息（如实时天气、最新新闻）、无法执行具体操作（如查询数据、生成表格），通过调用Tool，可让模型感知并影响外部环境，大幅提升任务处理能力。

工作流程：

用户提问 → 平台转发（同步推送可用工具列表）；
大模型分析问题 → 判断是否需要调用工具，若需要则选择合适工具并生成工具调用指令；
平台执行工具调用 → 获取工具返回的结果；
大模型整理工具结果 → 转化为自然语言，反馈给用户。

角色分工：

大模型：负责判断是否需要调用工具、选择合适的工具、生成工具调用参数、归纳整理工具返回结果；
工具：负责执行具体功能（如查询天气、检索数据、生成图片等），输出结构化或非结构化结果；
平台：负责转发用户提问与工具列表、执行大模型的工具调用指令、传递工具返回结果，起到中间衔接作用。

MCP（Model Context Protocol，模型上下文协议）

MCP（模型上下文协议）是一套统一的工具接入标准，核心解决了不同平台工具接入规范不统一、兼容性差、开发效率低的问题。其核心优势在于：工具开发者只需按照MCP规范开发一次工具，即可在所有支持MCP标准的平台上直接使用，无需针对不同平台重复开发，大幅提升工具的复用性和接入效率，降低开发成本。

Agent（智能体）

Agent（智能体）是基于LLM构建的自主决策与执行系统，核心能力是“自主完成任务”——能够根据用户的目标，自主拆解复杂任务、规划任务流程、选择并调用工具、持续推进任务执行，直至完成用户设定的全部需求，无需用户全程干预。

核心能力：多步骤推理（拆解复杂任务，明确执行顺序）、工具选择（匹配最优工具，提升执行效率）、流程控制（把控任务推进节奏，处理执行中的异常）。

Agent Skill（智能体技能）

Agent Skill（智能体技能）是给Agent的“任务执行说明书”，核心作用是规范Agent的任务执行逻辑，明确Agent在处理特定任务时的规则、步骤、输入输出要求，让Agent能够精准完成定制化任务，避免执行偏差。

核心结构：

元数据层：包含技能名称（name）、技能描述（description），用于明确技能的核心用途、适用场景，方便Agent识别和选择；
指令层：包含任务目标、执行步骤、判断规则、输出格式等，用于规范Agent的执行流程和输出标准，确保任务执行的一致性。

AI核心概念体系关联

所有核心词汇并非孤立存在，而是形成了一套完整的逻辑体系，串联起AI的核心工作流程，具体关联如下：

LLM（核心引擎，提供基础智能能力）→ Token（数据处理最小单元，支撑文本解析）→ Context（临时记忆空间，承载交互信息）→ Prompt（人机交互接口，传递用户需求）→ Tool（外部能力扩展，弥补模型短板）→ MCP（工具接入标准，实现工具通用）→ Agent（自主决策系统，实现任务自主执行）→ Agent Skill（任务定制规范，保障任务精准落地）