大模型核心关键词解析：小白程序员必备收藏指南，轻松入门人工智能新世界！

AI绘画哇哒哒

230人浏览 · 2026-05-27 11:01:03

AI绘画哇哒哒 · 2026-05-27 11:01:03 发布

现在聊人工智能，经常会听到一堆词：Token、参数、预训练、微调、Embedding、Prompt、RAG、Agent、幻觉、多模态、上下文窗口、推理、量化、蒸馏……

这些词看起来很技术，其实并不难理解。这篇文章就用最简短的方式，把大模型里常见关键词梳理一遍。

大模型

大模型指模型参数规模大、训练数据多、计算量大。它通过海量数据训练，学习语言、知识、代码、图像、分子、蛋白质等数据中的规律。简单说，大模型就是一个用海量数据和算力训练出来的通用智能模型。

Token

Token 是模型处理信息的基本单位。模型并不是直接按“字”或“词”理解文本，而是先把文本切成一个个Token。一个Token可能是一个字、一个词、一个词的一部分，也可能是一个符号。

Tokenizer

Tokenizer是分词器。它负责把输入文本切成Token，再把Token转换成模型能识别的编号。不同模型使用的tokenizer不同，所以同一句话在不同模型里，Token数可能不一样。

词表

词表就是模型认识的Token清单。每个Token都有一个对应的编号，也就是Token ID。模型不能直接处理文字，它真正处理的是这些Token ID。

Token ID

Token ID是每个Token在词表中的索引编号。比如某个Token对应编号 1234，模型看到的其实不是文字本身，而是这个编号。

Token ID是文本进入模型前的重要中间形式。

参数

参数是模型内部可以学习和调整的数学权重。

我们常说的7B、13B、70B，指的就是参数量。7B大约是70 亿参数，70B 大约是700亿参数。参数不是知识卡片，而是模型用来存储规律的一组数字。

7B、13B、70B

这里的B是billion，表示十亿。7B就是70亿参数，13B就是130亿参数，70B就是700亿参数。参数越多，模型表达能力通常越强，但训练和部署成本也越高。

预训练

预训练是大模型打地基的过程。

模型先在海量数据上训练，通过不断预测、犯错、纠正，学习数据背后的规律。预训练后的模型具备通用基础能力，但还不一定适合具体任务。

自监督学习

自监督学习是不依赖人工标注的一种训练方式。比如让模型根据前文预测下一个Token，或者遮住一部分内容让模型补回来。数据本身就能提供训练信号，这也是大模型能利用海量文本训练的重要原因。

预测下一个Token

这是GPT类生成式大模型最常见的预训练任务。给定前面的内容，模型预测下一个最可能出现的Token。看起来像文字接龙，但要预测准确，模型必须学习语言结构、知识关系和上下文逻辑。

Mask语言模型

Mask语言模型常见于BERT类模型。它会随机遮住句子中的一部分Token，让模型根据上下文把它补回来。这种方式更像“完形填空”，适合理解类任务。

微调

微调是在预训练模型基础上，针对具体任务继续训练。

比如把通用模型微调成医学问答模型、法律助手模型、代码模型、分子性质预测模型。预训练解决有没有基础能力，微调解决能不能干好具体任务。

指令微调

指令微调是让模型学会听懂人类指令。

比如“总结这篇文章”、“改写这段话”、“写一段代码”。经过指令微调后，模型会更像一个能按照要求完成任务的助手。

对齐

对齐是让模型的输出更符合人类偏好和安全要求。模型不仅要会回答，还要回答得有用、可靠、礼貌、安全。对齐的目标是让模型更适合真实使用场景。

RLHF

RLHF是Reinforcement Learning from Human Feedback，意思是基于人类反馈的强化学习。简单理解，就是让人类评价模型回答的好坏，再用这些反馈继续优化模型。

它常用于提升模型的可用性和对话体验。

SFT是Supervised Fine-Tuning，也就是监督微调。它通常使用人工整理好的“问题—答案”数据训练模型。SFT的作用是让模型学会按照人类期望的格式和风格回答问题。

在这里插入图片描述

Embedding

Embedding是向量表示。它把文本、图片、分子、蛋白质等对象转成一串数字。有了向量，模型就可以计算相似度、做检索、分类、聚类和预测。

向量数据库

向量数据库专门用来存储和检索Embedding向量。它可以快速找到和当前问题最相似的文本、图片或分子。RAG、知识库问答、语义搜索里经常会用到向量数据库。

语义检索

语义检索不是简单查关键词，而是根据意思查找相关内容。比如你搜“模型为什么会胡说”，系统可能找到“幻觉”相关内容。它依赖Embedding，把语义相近的内容放得更近。

Prompt

Prompt就是提示词，也就是你给模型的任务说明。比如“帮我总结这篇论文”、“用公众号风格改写”、“写一个 Python 脚本”。Prompt写得越清楚，模型越容易输出你想要的结果。

Prompt Engineering

Prompt Engineering是提示词工程。它研究如何设计更有效的输入，让模型输出更稳定、更准确、更符合要求。不过，提示词再好，也不能突破模型本身的能力边界。

System Prompt

System Prompt是系统级提示词。它通常用来规定模型的角色、行为边界、回答风格和安全规则。相比普通用户输入，它对模型行为有更高优先级。

上下文窗口

上下文窗口指模型一次能处理的最大Token数。比如32K上下文，表示模型最多能同时处理约3.2万个Token。上下文越长，模型能看的内容越多，但不代表一定理解得更好。

长上下文

长上下文指模型能处理很长的文本、代码、论文或对话历史。它对长文档总结、代码仓库分析、论文阅读很有用。但上下文太长时，模型也可能遗漏关键信息。

推理

推理有两个含义。一个是逻辑推理能力，比如分析、判断、计算。另一个是模型部署中的inference，指模型训练好之后，用它生成结果的过程。平时说推理速度，通常指第二种。

训练

训练是让模型学习参数的过程。模型通过大量数据不断预测、计算误差、更新参数。训练通常非常消耗GPU、时间和数据。

推理成本

推理成本指使用模型生成答案时消耗的资源。它和模型大小、上下文长度、输出Token数、硬件性能有关。模型越大、输入越长、输出越多，推理成本通常越高。

Batch Size

Batch Size是一次送入模型训练的数据量。Batch Size太小，训练不稳定；太大，又可能占用过多显存。它是训练大模型时非常重要的超参数。

学习率

学习率决定模型每次更新参数时“步子迈多大”。学习率太大，模型可能训练不稳定；学习率太小，训练速度会很慢。它直接影响模型最终效果。

Loss

Loss是损失值，用来衡量模型预测和真实答案之间的差距。Loss越低，说明模型在训练数据上的预测越接近真实结果。训练过程本质上就是不断降低Loss。

Transformer

Transformer 是当前大模型最核心的基础架构之一。它最重要的机制是注意力机制，可以让模型捕捉不同Token之间的关系。GPT、BERT、LLaMA、Qwen等模型都和Transformer架构密切相关。32. Attention

Attention是注意力机制。它让模型在处理一个Token时，可以关注输入中其他相关Token。简单说，就是让模型知道“当前内容应该重点看哪里”。

Self-Attention

Self-Attention是自注意力机制。它让一句话内部的每个Token彼此建立联系。比如理解“它”指代谁，就需要Self-Attention帮助模型关联上下文。

Multi-Head Attention

Multi-Head Attention是多头注意力。可以理解为模型从多个角度同时观察一句话。有的头关注语法关系，有的头关注语义关系，有的头关注长距离依赖。

位置编码

Transformer本身不天然知道Token的顺序。位置编码就是给每个Token加上位置信息。否则模型只知道有哪些Token，却不知道它们的先后顺序。

Encoder

Encoder是编码器。它更适合理解输入内容，把文本、分子或序列转成高质量表示。BERT类模型、很多分子表征模型常用Encoder架构。

Decoder

Decoder是解码器。它更适合生成内容，一个Token接一个Token往后输出。GPT类模型主要使用Decoder-only架构。

Encoder-Decoder

Encoder-Decoder是编码器—解码器结构。Encoder负责理解输入，Decoder负责生成输出。翻译、摘要、文本到文本任务中经常使用这种结构。

MoE是Mixture of Experts，混合专家模型。它由多个“专家网络”组成，每次只激活其中一部分专家。这样可以在扩大模型能力的同时，控制每次推理的计算量。

RAG是检索增强生成。简单说，就是让模型先从知识库中查资料，再基于资料回答。它可以减少幻觉，也能让模型使用外部知识和私有文档。

Agent

Agent通常叫智能体。它不只是回答问题，还能规划任务、调用工具、执行步骤。比如查资料、写代码、生成报告、调用数据库，都可以放进 Agent 流程。

Tool Use

Tool Use是工具调用。大模型可以调用搜索引擎、代码解释器、数据库、计算器、文件系统等工具。这让模型从“会说”进一步走向“会做”。

Function Calling

Function Calling是函数调用。模型根据用户需求，自动选择合适函数，并生成结构化参数。它常用于连接外部API、业务系统和自动化流程。

幻觉

幻觉是指模型一本正经地生成错误内容。比如编造论文、编造数据、编造事实。它产生的原因是模型本质上在生成最可能的文本，而不是天然具备事实核查能力。

多模态

多模态指模型能处理多种类型的数据。除了文字，还可以包括图片、音频、视频、表格、分子结构、蛋白质序列等。多模态让模型更接近真实世界中的复杂信息处理。

视觉语言模型

视觉语言模型可以同时理解图像和文本。比如看图回答问题、描述图片内容、分析图表、理解截图。它是多模态大模型的重要方向之一。

量化

量化是用更低精度的数字存储和计算模型参数。比如从FP16变成INT8或 INT4。它可以降低显存占用、提升推理速度，但可能带来少量精度损失。

蒸馏

蒸馏是用大模型教小模型。大模型作为“老师”，生成训练信号，小模型作为“学生”学习它的能力。这样可以让小模型在较低成本下获得不错表现。

剪枝

剪枝是删除模型中不太重要的连接、参数或模块。目标是让模型更小、更快、更省资源。但剪枝过度可能会影响模型效果。

LoRA

LoRA是一种高效微调方法。它不直接大规模修改原模型参数，而是在模型中加入少量可训练参数。这样可以大幅降低微调所需显存和计算成本。

QLoRA

QLoRA是量化版本的LoRA。它先把模型量化，再进行低成本微调。适合在有限显存条件下微调较大的模型。

PEFT

PEFT是参数高效微调。它的目标是只训练少量参数，就让模型适应新任务。LoRA、Adapter、Prompt Tuning都属于PEFT思路。

Adapter

Adapter是插入模型中的小型可训练模块。微调时主要训练Adapter，而不是更新整个大模型。它可以降低微调成本，也方便多个任务之间切换。

Benchmark

Benchmark是评测基准。它用一组标准任务或数据集来比较不同模型的能力。比如语言理解、数学推理、代码生成、知识问答等。

Leaderboard

Leaderboard是排行榜。它根据Benchmark结果对模型进行排序。排行榜有参考价值，但不能完全代表模型在真实任务中的表现。

开源模型

开源模型通常会公开模型权重，用户可以下载、部署和微调。它适合科研、私有化部署和深度定制。常见开源模型包括LLaMA系、Qwen系、DeepSeek系等。

闭源模型

闭源模型通常不公开权重，只通过API或产品提供服务。它的优势是使用方便、综合能力强、维护成本低。但用户对模型内部和部署环境的控制较少。

API是模型服务的调用接口。用户可以通过代码把输入发送给模型，再接收模型输出。很多企业应用不是直接部署模型，而是通过API调用模型能力。

本地部署

本地部署是把模型部署在自己的服务器或电脑上。它的优势是数据更可控，适合对隐私、安全和定制化要求高的场景。但本地部署需要显卡、运维和工程能力。

私有化部署

私有化部署通常指在企业或机构内部环境中部署模型。它可以保护内部数据不出域。金融、医疗、政务、科研机构常常更重视私有化部署。

知识库

知识库是外部资料集合。它可以包括企业文档、论文、制度文件、产品手册、数据库内容等。结合RAG后，大模型可以基于知识库回答问题。

Fine-tuning Dataset

Fine-tuning Dataset是微调数据集。它决定模型在某个具体任务上能学到什么。数据质量通常比数据数量更重要。

训练语料

训练语料是预训练或微调时使用的数据。可以是网页、书籍、论文、代码、问答、分子 SMILES、蛋白质序列等。语料质量会直接影响模型能力。

数据清洗

数据清洗是去除低质量、重复、错误、有害或无效数据的过程。大模型不是数据越多越好，而是要有足够高质量的数据。高质量数据是模型效果的基础。

数据去重

数据去重是删除重复或高度相似的数据。如果训练语料大量重复，模型可能记忆重复内容，降低泛化能力。去重是大模型数据处理中非常重要的一步。

数据增强

数据增强是通过合理变换扩充训练数据。在文本中可以改写表达方式；在分子中可以使用randomized SMILES；在图像中可以旋转、裁剪、加噪声。它的目的是提升模型鲁棒性。

泛化能力

泛化能力指模型在没见过的新数据上表现好的能力。训练集表现好不代表模型真的好。真正重要的是模型能否迁移到新任务、新样本和新场景。

过拟合

过拟合是模型把训练数据记得太死，导致新数据表现变差。表现为训练集效果很好，测试集效果不好。过拟合说明模型没有真正学到可泛化规律。

对比学习

对比学习是让模型学会区分“相似”和“不相似”。相似样本在向量空间中更近，不相似样本更远。它常用于图文对齐、语义表示、分子表征等任务。

基座模型

基座模型是经过大规模预训练后，具备通用能力的模型。它不是为单一任务训练的，而是可以迁移到很多下游任务中。大语言模型、分子基座模型、蛋白质基座模型都属于这个思路。

下游任务

下游任务是基座模型训练完成后要解决的具体问题。比如文本分类、问答、翻译、代码生成、分子性质预测、蛋白功能预测等。预训练模型的价值最终要通过下游任务体现。

Zero-shot

Zero-shot指模型没有看过某个任务的示例，也能直接完成任务。比如你直接让模型翻译、总结或分类，它能根据已有能力完成。这体现了大模型的泛化能力。

Few-shot

Few-shot指给模型少量示例后再让它完成任务。比如给2到5个例子，模型就能模仿格式继续输出。Few-shot 能显著提升模型对任务格式的理解。

Chain of Thought

Chain of Thought通常叫思维链。它让模型在回答复杂问题时，先进行中间推理，再给出结论。不过在真实应用中，不一定需要展示完整推理过程，关键是提升答案可靠性。

Scaling Law

Scaling Law是规模定律。它描述模型性能和参数量、数据量、计算量之间的关系。简单说，在一定范围内，模型越大、数据越多、算力越强，效果通常越好。

大模型关键词很多，但可以按照一条主线理解：

数据进入模型前，会先被tokenizer切成Token；
Token变成Token ID后进入模型；
模型通过预训练学习通用规律；
通过微调适配具体任务；
通过Prompt接收人类指令；
通过RAG调用外部知识；
通过Agent和工具调用完成更复杂任务；
通过量化、蒸馏、LoRA等方法降低部署和微调成本。

大模型并不是一个单纯的聊天工具。它更像是一个以数据为基础、以模型为核心、以工具和应用为延伸的智能系统。

未来无论是科研、教育、医疗、工程，还是分子设计、蛋白质分析、环境风险预测，大模型都会越来越多地成为基础工具。理解这些关键词，就是理解大模型世界的第一步。

当然，大模型领域的关键词远不止这些。除了Token、Prompt、RAG、Agent、Embedding、微调这些常见概念，还有很多更偏工程和训练层面的词，比如DeepSpeed、FlashAttention、KV擦车、推理加速、分布式训练等。

普通人如何抓住AI大模型的风口？

领取方式在文末

为什么要学习大模型？

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于自然语言处理、计算机视觉、智能推荐等领域，为各行各业带来了革命性的改变和机遇。

目前，开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景，其中，应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
在这里插入图片描述

随着AI大模型技术的迅速发展，相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业：
在这里插入图片描述

人工智能大潮已来，不加入就可能被淘汰。如果你是技术人，尤其是互联网从业者，现在就开始学习AI大模型技术，真的是给你的人生一个重要建议！

最后

只要你真心想学习AI大模型技术，这份精心整理的学习资料我愿意无偿分享给你，但是想学技术去乱搞的人别来找我！

在当前这个人工智能高速发展的时代，AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长，真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料，能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
【附赠一节免费的直播讲座，技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等，欢迎大家~】
在这里插入图片描述

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来，我们不断打磨课程体系与技术内容，在细节上精益求精，同时在技术层面也新增了许多前沿且实用的内容，力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径，能够帮助你从零入门，进阶到实战，真正掌握AI时代的核心技能！

01 教学内容

在这里插入图片描述

从零到精通完整闭环：【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块，内容比传统教材更贴近企业实战！
大量真实项目案例： 带你亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

02适学人群

应届毕业生‌： 无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌： 非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈： 传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

vx扫描下方二维码即可
【附赠一节免费的直播讲座，技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等，欢迎大家~】
在这里插入图片描述

本教程比较珍贵，仅限大家自行学习，不要传播！更严禁商用！

03 入门到进阶学习路线图

大模型学习路线图，整体分为5个大的阶段：

04 视频和书籍PDF合集

从0到掌握主流大模型技术视频教程（涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向）

新手必备的大模型学习PDF书单来了！全是硬核知识，帮你少走弯路（不吹牛，真有用）

05 行业报告+白皮书合集

收集70+报告与白皮书，了解行业最新动态！

06 90+份面试题/经验

AI大模型岗位面试经验总结（谁学技术不是为了赚$呢，找个好的岗位很重要）
在这里插入图片描述

07 deepseek部署包+技巧大全

在这里插入图片描述

由于篇幅有限

只展示部分资料

并且还在持续更新中…

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

5个C语言开源项目统治全球科技30年：今天却被AI逼到转型边缘？

AtomGit开源社区

深度解析：企业如何通过 AI Agent Harness Engineering 提升利润率与人效倍数

2024年以来，AI Agent已经从技术概念变成企业降本增效的核心抓手，但Gartner最新数据显示：82%的企业AI Agent项目停留在POC阶段，仅13%的企业真正从AI Agent落地中获得了超过预期的利润率提升。核心痛点在于企业普遍缺乏对AI Agent的统一治理、编排、度量和安全管控能力，零散的Agent应用不仅无法形成合力，还会带来幻觉风险、数据泄露、重复建设等额外成本。

AtomGit开源社区

知识库问答的置信度评估

系统基于给定知识库内容生成的回答，与知识库事实匹配、符合用户真实意图、准确可用的概率，取值范围为0到1，得分越高代表回答越可信。和普通LLM生成置信度的核心区别是：KBQA的置信度有明确的「事实基准」——也就是给定的知识库内容，而不是依赖大模型本身的参数知识，所以评估结果的客观性和可解释性要强得多。我是资深AI工程师，专注于大模型落地、KBQA系统搭建，曾主导多个金融、政务领域的KBQA项目落地，