LLM(大语言模型)

大语言模型(Large Language Model,简称LLM),是具备大规模参数和复杂计算结构的机器学习模型,通常由深度神经网络构建而成。其设计核心目的,是提升模型的表达能力与预测性能,从而高效处理复杂任务、解析繁杂数据。

LLM的应用场景十分广泛,覆盖自然语言处理、计算机视觉、语音识别、推荐系统等多个领域。它通过在海量数据中训练,学习数据背后的复杂模式与核心特征,具备极强的泛化能力,即便面对未接触过的数据,也能做出精准预测。从本质上来说,LLM是依托海量数据训练而成的深度神经网络模型,正是其庞大的数据规模与参数体量,实现了“智能涌现”,让模型展现出类人智能表现。

具体而言,LLM的使用场景可分为以下几类:首先是文本生成,能够产出连贯的段落、文章、对话等内容,广泛应用于自动写作、机器翻译等任务;其次是问答系统,可精准响应复杂问题,支持对话式交互,实现高效沟通;再者是语义理解与推理,能够完成情感分析、命名实体识别、文本分类等细分任务;此外,LLM还可应用于智能助理、机器人交互、自动摘要、信息提取等领域,为自然语言处理与人工智能领域提供更智能、更自然的人机交互体验,应用潜力巨大。

LLM大模型的分类

按照输入数据类型的不同,LLM大模型主要可分为三大类,各类模型的核心功能、应用场景及代表案例如下:

语言大模型(NLP方向):聚焦自然语言处理(Natural Language Processing,简称NLP)领域,核心用于处理文本数据、理解自然语言。这类模型的核心特点是在大规模语料库上完成训练,熟练掌握自然语言的语法、语义及语境规则。代表案例:GPT系列(OpenAI)、Bard(Google)、文心一言(百度)。

视觉大模型(CV方向):应用于计算机视觉(Computer Vision,简称CV)领域,核心用于图像处理与分析。通过在大规模图像数据上训练,可实现图像分类、目标检测、图像分割、姿态估计、人脸识别等各类视觉任务。代表案例:ViT系列(Google,修正:原“VIT”规范写法为“ViT”)、文心UFO、华为盘古CV、INTERN(商汤)。

多模态大模型:能够同时处理多种类型的数据,包括文本、图像、音频等多模态信息。这类模型融合了NLP与CV的核心能力,可对多模态信息进行综合理解与分析,更全面地处理复杂数据。代表案例:DALL·E(OpenAI,修正:原“DALL-E”规范写法为“DALL·E”)、悟空画画(华为)、Midjourney、DingoDB多模向量数据库(九章云极DataCanvas)。

LLM核心原理(通俗解读)

LLM的工作逻辑类似我们熟悉的“文字接龙”,核心是通过逐步追加内容,完成对用户需求的响应,具体过程如下:

当用户输入问题“牵牛花是什么颜色”,模型会先返回与问题相关的初始内容;

随后,模型会将这一返回内容与原始问题结合,再次作为输入,继续追加补充内容,返回“牵牛花常见的颜色有红色、蓝色”;

这一过程会持续进行,直到模型输出“终止符”,整个问答流程才算结束。

因此,我们看到的LLM回答,本质上都是内容一点一点追加生成的。

Token(令牌)

Token是大模型处理文本的最小单位,模型会通过Tokenizer(分词器),将完整文本切分为一个个独立的Token片段,再进行后续处理。

核心流程

  1. 编码:分为两步——第一步通过分词器将文本切分为Token,第二步将Token映射为唯一的Token ID(便于模型识别与计算);
  2. 解码:将模型处理后的Token ID,还原为人类可理解的自然文本。

量化参考(便于估算文本Token数量):

  1. 1个Token约等于0.75个英文单词(英文语境常用参考);
  2. 1个Token约等于1.5-2个汉字(中文语境下常用参考,不含标点符号)。

Context(上下文)

定义:大模型每次处理任务时,所能接收的全部信息总和,相当于模型的“临时记忆”——模型仅能基于当前上下文内的信息进行思考和响应,无法获取上下文之外的内容。

组成部分:主要包括用户提问、历史对话记录、当前已输出的Token、工具列表、System Prompt(系统提示)等。

容量限制:上下文的最大容量由Context Window(上下文窗口)定义,即模型单次可处理的最大Token数量。目前主流LLM的Context Window容量跨度较大,从几万到100万Token不等(修正:原“约为100万Token左右”表述重复,且不符合实际,主流模型容量有差异)。

突破容量限制的核心方案:RAG技术(检索增强生成)。其核心逻辑是:从外部知识库中,抽取与用户问题最相关的信息片段,仅将这些关键信息送入模型,从而大幅降低Token消耗,间接突破Context Window的限制。

Prompt(提示词)

Prompt是用户或开发者给大模型的问题、指令或引导,直接决定了模型输出的质量和方向——清晰、精准、具体的Prompt,能让模型更高效地输出符合预期的结果。

Prompt分类

  1. User Prompt(用户提示):由用户输入的具体任务、问题或需求,是模型响应的直接依据;
  2. System Prompt(系统提示):由开发者在后台配置,用于定义模型的人设、做事规则、响应风格等,规范模型的输出逻辑,用户通常无法直接修改。

Tool(工具)

Tool是大模型的外部能力扩展,本质是大模型可调用的外部函数或应用程序,核心作用是弥补大模型自身的短板——比如大模型无法获取实时信息(如实时天气、最新新闻)、无法执行具体操作(如查询数据、生成表格),通过调用Tool,可让模型感知并影响外部环境,大幅提升任务处理能力。

工作流程

  1. 用户提问 → 平台转发(同步推送可用工具列表);
  2. 大模型分析问题 → 判断是否需要调用工具,若需要则选择合适工具并生成工具调用指令;
  3. 平台执行工具调用 → 获取工具返回的结果;
  4. 大模型整理工具结果 → 转化为自然语言,反馈给用户。

角色分工

  1. 大模型:负责判断是否需要调用工具、选择合适的工具、生成工具调用参数、归纳整理工具返回结果;
  2. 工具:负责执行具体功能(如查询天气、检索数据、生成图片等),输出结构化或非结构化结果;
  3. 平台:负责转发用户提问与工具列表、执行大模型的工具调用指令、传递工具返回结果,起到中间衔接作用。

MCP(Model Context Protocol,模型上下文协议)

MCP(模型上下文协议)是一套统一的工具接入标准,核心解决了不同平台工具接入规范不统一、兼容性差、开发效率低的问题。其核心优势在于:工具开发者只需按照MCP规范开发一次工具,即可在所有支持MCP标准的平台上直接使用,无需针对不同平台重复开发,大幅提升工具的复用性和接入效率,降低开发成本。

Agent(智能体)

Agent(智能体)是基于LLM构建的自主决策与执行系统,核心能力是“自主完成任务”——能够根据用户的目标,自主拆解复杂任务、规划任务流程、选择并调用工具、持续推进任务执行,直至完成用户设定的全部需求,无需用户全程干预。

核心能力:多步骤推理(拆解复杂任务,明确执行顺序)、工具选择(匹配最优工具,提升执行效率)、流程控制(把控任务推进节奏,处理执行中的异常)。

Agent Skill(智能体技能)

Agent Skill(智能体技能)是给Agent的“任务执行说明书”,核心作用是规范Agent的任务执行逻辑,明确Agent在处理特定任务时的规则、步骤、输入输出要求,让Agent能够精准完成定制化任务,避免执行偏差。

核心结构

  1. 元数据层:包含技能名称(name)、技能描述(description),用于明确技能的核心用途、适用场景,方便Agent识别和选择;
  2. 指令层:包含任务目标、执行步骤、判断规则、输出格式等,用于规范Agent的执行流程和输出标准,确保任务执行的一致性。

AI核心概念体系关联

所有核心词汇并非孤立存在,而是形成了一套完整的逻辑体系,串联起AI的核心工作流程,具体关联如下:

LLM(核心引擎,提供基础智能能力)→ Token(数据处理最小单元,支撑文本解析)→ Context(临时记忆空间,承载交互信息)→ Prompt(人机交互接口,传递用户需求)→ Tool(外部能力扩展,弥补模型短板)→ MCP(工具接入标准,实现工具通用)→ Agent(自主决策系统,实现任务自主执行)→ Agent Skill(任务定制规范,保障任务精准落地)

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐