现在聊人工智能,经常会听到一堆词:Token、参数、预训练、微调、Embedding、Prompt、RAG、Agent、幻觉、多模态、上下文窗口、推理、量化、蒸馏……

这些词看起来很技术,其实并不难理解。这篇文章就用最简短的方式,把大模型里常见关键词梳理一遍。

  1. 大模型

大模型指模型参数规模大、训练数据多、计算量大。它通过海量数据训练,学习语言、知识、代码、图像、分子、蛋白质等数据中的规律。简单说,大模型就是一个用海量数据和算力训练出来的通用智能模型。

  1. Token

Token 是模型处理信息的基本单位。模型并不是直接按“字”或“词”理解文本,而是先把文本切成一个个Token。一个Token可能是一个字、一个词、一个词的一部分,也可能是一个符号。

  1. Tokenizer

Tokenizer是分词器。它负责把输入文本切成Token,再把Token转换成模型能识别的编号。不同模型使用的tokenizer不同,所以同一句话在不同模型里,Token数可能不一样。

  1. 词表

词表就是模型认识的Token清单。每个Token都有一个对应的编号,也就是Token ID。模型不能直接处理文字,它真正处理的是这些Token ID。

  1. Token ID

Token ID是每个Token在词表中的索引编号。比如某个Token对应编号 1234,模型看到的其实不是文字本身,而是这个编号。

Token ID是文本进入模型前的重要中间形式。

  1. 参数

参数是模型内部可以学习和调整的数学权重。

我们常说的7B、13B、70B,指的就是参数量。7B大约是70 亿参数,70B 大约是700亿参数。参数不是知识卡片,而是模型用来存储规律的一组数字。

  1. 7B、13B、70B

这里的B是billion,表示十亿。7B就是70亿参数,13B就是130亿参数,70B就是700亿参数。参数越多,模型表达能力通常越强,但训练和部署成本也越高。

  1. 预训练

预训练是大模型打地基的过程。

模型先在海量数据上训练,通过不断预测、犯错、纠正,学习数据背后的规律。预训练后的模型具备通用基础能力,但还不一定适合具体任务。

  1. 自监督学习

自监督学习是不依赖人工标注的一种训练方式。比如让模型根据前文预测下一个Token,或者遮住一部分内容让模型补回来。数据本身就能提供训练信号,这也是大模型能利用海量文本训练的重要原因。

  1. 预测下一个Token

这是GPT类生成式大模型最常见的预训练任务。给定前面的内容,模型预测下一个最可能出现的Token。看起来像文字接龙,但要预测准确,模型必须学习语言结构、知识关系和上下文逻辑。

  1. Mask语言模型

Mask语言模型常见于BERT类模型。它会随机遮住句子中的一部分Token,让模型根据上下文把它补回来。这种方式更像“完形填空”,适合理解类任务。

  1. 微调

微调是在预训练模型基础上,针对具体任务继续训练。

比如把通用模型微调成医学问答模型、法律助手模型、代码模型、分子性质预测模型。预训练解决有没有基础能力,微调解决能不能干好具体任务。

  1. 指令微调

指令微调是让模型学会听懂人类指令。

比如“总结这篇文章”、“改写这段话”、“写一段代码”。经过指令微调后,模型会更像一个能按照要求完成任务的助手。

  1. 对齐

对齐是让模型的输出更符合人类偏好和安全要求。模型不仅要会回答,还要回答得有用、可靠、礼貌、安全。对齐的目标是让模型更适合真实使用场景。

  1. RLHF

RLHF是Reinforcement Learning from Human Feedback,意思是基于人类反馈的强化学习。简单理解,就是让人类评价模型回答的好坏,再用这些反馈继续优化模型。

它常用于提升模型的可用性和对话体验。

  1. SFT

SFT是Supervised Fine-Tuning,也就是监督微调。它通常使用人工整理好的“问题—答案”数据训练模型。SFT的作用是让模型学会按照人类期望的格式和风格回答问题。

在这里插入图片描述

  1. Embedding

Embedding是向量表示。它把文本、图片、分子、蛋白质等对象转成一串数字。有了向量,模型就可以计算相似度、做检索、分类、聚类和预测。

  1. 向量数据库

向量数据库专门用来存储和检索Embedding向量。它可以快速找到和当前问题最相似的文本、图片或分子。RAG、知识库问答、语义搜索里经常会用到向量数据库。

  1. 语义检索

语义检索不是简单查关键词,而是根据意思查找相关内容。比如你搜“模型为什么会胡说”,系统可能找到“幻觉”相关内容。它依赖Embedding,把语义相近的内容放得更近。

  1. Prompt

Prompt就是提示词,也就是你给模型的任务说明。比如“帮我总结这篇论文”、“用公众号风格改写”、“写一个 Python 脚本”。Prompt写得越清楚,模型越容易输出你想要的结果。

  1. Prompt Engineering

Prompt Engineering是提示词工程。它研究如何设计更有效的输入,让模型输出更稳定、更准确、更符合要求。不过,提示词再好,也不能突破模型本身的能力边界。

  1. System Prompt

System Prompt是系统级提示词。它通常用来规定模型的角色、行为边界、回答风格和安全规则。相比普通用户输入,它对模型行为有更高优先级。

  1. 上下文窗口

上下文窗口指模型一次能处理的最大Token数。比如32K上下文,表示模型最多能同时处理约3.2万个Token。上下文越长,模型能看的内容越多,但不代表一定理解得更好。

  1. 长上下文

长上下文指模型能处理很长的文本、代码、论文或对话历史。它对长文档总结、代码仓库分析、论文阅读很有用。但上下文太长时,模型也可能遗漏关键信息。

  1. 推理

推理有两个含义。一个是逻辑推理能力,比如分析、判断、计算。另一个是模型部署中的inference,指模型训练好之后,用它生成结果的过程。平时说推理速度,通常指第二种。

  1. 训练

训练是让模型学习参数的过程。模型通过大量数据不断预测、计算误差、更新参数。训练通常非常消耗GPU、时间和数据。

  1. 推理成本

推理成本指使用模型生成答案时消耗的资源。它和模型大小、上下文长度、输出Token数、硬件性能有关。模型越大、输入越长、输出越多,推理成本通常越高。

  1. Batch Size

Batch Size是一次送入模型训练的数据量。Batch Size太小,训练不稳定;太大,又可能占用过多显存。它是训练大模型时非常重要的超参数。

  1. 学习率

学习率决定模型每次更新参数时“步子迈多大”。学习率太大,模型可能训练不稳定;学习率太小,训练速度会很慢。它直接影响模型最终效果。

  1. Loss

Loss是损失值,用来衡量模型预测和真实答案之间的差距。Loss越低,说明模型在训练数据上的预测越接近真实结果。训练过程本质上就是不断降低Loss。

  1. Transformer

Transformer 是当前大模型最核心的基础架构之一。它最重要的机制是注意力机制,可以让模型捕捉不同Token之间的关系。GPT、BERT、LLaMA、Qwen等模型都和Transformer架构密切相关。32. Attention

Attention是注意力机制。它让模型在处理一个Token时,可以关注输入中其他相关Token。简单说,就是让模型知道“当前内容应该重点看哪里”。


  1. Self-Attention

Self-Attention是自注意力机制。它让一句话内部的每个Token彼此建立联系。比如理解“它”指代谁,就需要Self-Attention帮助模型关联上下文。


  1. Multi-Head Attention

Multi-Head Attention是多头注意力。可以理解为模型从多个角度同时观察一句话。有的头关注语法关系,有的头关注语义关系,有的头关注长距离依赖。

  1. 位置编码

Transformer本身不天然知道Token的顺序。位置编码就是给每个Token加上位置信息。否则模型只知道有哪些Token,却不知道它们的先后顺序。

  1. Encoder

Encoder是编码器。它更适合理解输入内容,把文本、分子或序列转成高质量表示。BERT类模型、很多分子表征模型常用Encoder架构。

  1. Decoder

Decoder是解码器。它更适合生成内容,一个Token接一个Token往后输出。GPT类模型主要使用Decoder-only架构。

  1. Encoder-Decoder

Encoder-Decoder是编码器—解码器结构。Encoder负责理解输入,Decoder负责生成输出。翻译、摘要、文本到文本任务中经常使用这种结构。

  1. MoE

MoE是Mixture of Experts,混合专家模型。它由多个“专家网络”组成,每次只激活其中一部分专家。这样可以在扩大模型能力的同时,控制每次推理的计算量。

  1. RAG

RAG是检索增强生成。简单说,就是让模型先从知识库中查资料,再基于资料回答。它可以减少幻觉,也能让模型使用外部知识和私有文档。

  1. Agent

Agent通常叫智能体。它不只是回答问题,还能规划任务、调用工具、执行步骤。比如查资料、写代码、生成报告、调用数据库,都可以放进 Agent 流程。

  1. Tool Use

Tool Use是工具调用。大模型可以调用搜索引擎、代码解释器、数据库、计算器、文件系统等工具。这让模型从“会说”进一步走向“会做”。

  1. Function Calling

Function Calling是函数调用。模型根据用户需求,自动选择合适函数,并生成结构化参数。它常用于连接外部API、业务系统和自动化流程。

  1. 幻觉

幻觉是指模型一本正经地生成错误内容。比如编造论文、编造数据、编造事实。它产生的原因是模型本质上在生成最可能的文本,而不是天然具备事实核查能力。

  1. 多模态

多模态指模型能处理多种类型的数据。除了文字,还可以包括图片、音频、视频、表格、分子结构、蛋白质序列等。多模态让模型更接近真实世界中的复杂信息处理。

  1. 视觉语言模型

视觉语言模型可以同时理解图像和文本。比如看图回答问题、描述图片内容、分析图表、理解截图。它是多模态大模型的重要方向之一。

  1. 量化

量化是用更低精度的数字存储和计算模型参数。比如从FP16变成INT8或 INT4。它可以降低显存占用、提升推理速度,但可能带来少量精度损失。

  1. 蒸馏

蒸馏是用大模型教小模型。大模型作为“老师”,生成训练信号,小模型作为“学生”学习它的能力。这样可以让小模型在较低成本下获得不错表现。

  1. 剪枝

剪枝是删除模型中不太重要的连接、参数或模块。目标是让模型更小、更快、更省资源。但剪枝过度可能会影响模型效果。

  1. LoRA

LoRA是一种高效微调方法。它不直接大规模修改原模型参数,而是在模型中加入少量可训练参数。这样可以大幅降低微调所需显存和计算成本。

  1. QLoRA

QLoRA是量化版本的LoRA。它先把模型量化,再进行低成本微调。适合在有限显存条件下微调较大的模型。

  1. PEFT

PEFT是参数高效微调。它的目标是只训练少量参数,就让模型适应新任务。LoRA、Adapter、Prompt Tuning都属于PEFT思路。

  1. Adapter

Adapter是插入模型中的小型可训练模块。微调时主要训练Adapter,而不是更新整个大模型。它可以降低微调成本,也方便多个任务之间切换。

  1. Benchmark

Benchmark是评测基准。它用一组标准任务或数据集来比较不同模型的能力。比如语言理解、数学推理、代码生成、知识问答等。

  1. Leaderboard

Leaderboard是排行榜。它根据Benchmark结果对模型进行排序。排行榜有参考价值,但不能完全代表模型在真实任务中的表现。

  1. 开源模型

开源模型通常会公开模型权重,用户可以下载、部署和微调。它适合科研、私有化部署和深度定制。常见开源模型包括LLaMA系、Qwen系、DeepSeek系等。

  1. 闭源模型

闭源模型通常不公开权重,只通过API或产品提供服务。它的优势是使用方便、综合能力强、维护成本低。但用户对模型内部和部署环境的控制较少。

  1. API

API是模型服务的调用接口。用户可以通过代码把输入发送给模型,再接收模型输出。很多企业应用不是直接部署模型,而是通过API调用模型能力。

  1. 本地部署

本地部署是把模型部署在自己的服务器或电脑上。它的优势是数据更可控,适合对隐私、安全和定制化要求高的场景。但本地部署需要显卡、运维和工程能力。

  1. 私有化部署

私有化部署通常指在企业或机构内部环境中部署模型。它可以保护内部数据不出域。金融、医疗、政务、科研机构常常更重视私有化部署。

  1. 知识库

知识库是外部资料集合。它可以包括企业文档、论文、制度文件、产品手册、数据库内容等。结合RAG后,大模型可以基于知识库回答问题。

  1. Fine-tuning Dataset

Fine-tuning Dataset是微调数据集。它决定模型在某个具体任务上能学到什么。数据质量通常比数据数量更重要。

  1. 训练语料

训练语料是预训练或微调时使用的数据。可以是网页、书籍、论文、代码、问答、分子 SMILES、蛋白质序列等。语料质量会直接影响模型能力。

  1. 数据清洗

数据清洗是去除低质量、重复、错误、有害或无效数据的过程。大模型不是数据越多越好,而是要有足够高质量的数据。高质量数据是模型效果的基础。

  1. 数据去重

数据去重是删除重复或高度相似的数据。如果训练语料大量重复,模型可能记忆重复内容,降低泛化能力。去重是大模型数据处理中非常重要的一步。

  1. 数据增强

数据增强是通过合理变换扩充训练数据。在文本中可以改写表达方式;在分子中可以使用randomized SMILES;在图像中可以旋转、裁剪、加噪声。它的目的是提升模型鲁棒性。

  1. 泛化能力

泛化能力指模型在没见过的新数据上表现好的能力。训练集表现好不代表模型真的好。真正重要的是模型能否迁移到新任务、新样本和新场景。

  1. 过拟合

过拟合是模型把训练数据记得太死,导致新数据表现变差。表现为训练集效果很好,测试集效果不好。过拟合说明模型没有真正学到可泛化规律。

  1. 对比学习

对比学习是让模型学会区分“相似”和“不相似”。相似样本在向量空间中更近,不相似样本更远。它常用于图文对齐、语义表示、分子表征等任务。

  1. 基座模型

基座模型是经过大规模预训练后,具备通用能力的模型。它不是为单一任务训练的,而是可以迁移到很多下游任务中。大语言模型、分子基座模型、蛋白质基座模型都属于这个思路。

  1. 下游任务

下游任务是基座模型训练完成后要解决的具体问题。比如文本分类、问答、翻译、代码生成、分子性质预测、蛋白功能预测等。预训练模型的价值最终要通过下游任务体现。

  1. Zero-shot

Zero-shot指模型没有看过某个任务的示例,也能直接完成任务。比如你直接让模型翻译、总结或分类,它能根据已有能力完成。这体现了大模型的泛化能力。

  1. Few-shot

Few-shot指给模型少量示例后再让它完成任务。比如给2到5个例子,模型就能模仿格式继续输出。Few-shot 能显著提升模型对任务格式的理解。

  1. Chain of Thought

Chain of Thought通常叫思维链。它让模型在回答复杂问题时,先进行中间推理,再给出结论。不过在真实应用中,不一定需要展示完整推理过程,关键是提升答案可靠性。

  1. Scaling Law

Scaling Law是规模定律。它描述模型性能和参数量、数据量、计算量之间的关系。简单说,在一定范围内,模型越大、数据越多、算力越强,效果通常越好。


大模型关键词很多,但可以按照一条主线理解:

  • 数据进入模型前,会先被tokenizer切成Token;
  • Token变成Token ID后进入模型;
  • 模型通过预训练学习通用规律;
  • 通过微调适配具体任务;
  • 通过Prompt接收人类指令;
  • 通过RAG调用外部知识;
  • 通过Agent和工具调用完成更复杂任务;
  • 通过量化、蒸馏、LoRA等方法降低部署和微调成本。

大模型并不是一个单纯的聊天工具。它更像是一个以数据为基础、以模型为核心、以工具和应用为延伸的智能系统。

未来无论是科研、教育、医疗、工程,还是分子设计、蛋白质分析、环境风险预测,大模型都会越来越多地成为基础工具。理解这些关键词,就是理解大模型世界的第一步。

当然,大模型领域的关键词远不止这些。除了Token、Prompt、RAG、Agent、Embedding、微调这些常见概念,还有很多更偏工程和训练层面的词,比如DeepSpeed、FlashAttention、KV擦车、推理加速、分布式训练等。

普通人如何抓住AI大模型的风口?

领取方式在文末

为什么要学习大模型?

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
在这里插入图片描述

随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:
在这里插入图片描述

人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!

最后

只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!

在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】
在这里插入图片描述

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

图片

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!

01 教学内容

在这里插入图片描述

  • 从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!

  • 大量真实项目案例: 带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

02适学人群

应届毕业生‌: 无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌: 非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈: 传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

image.png

vx扫描下方二维码即可
【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】
在这里插入图片描述

本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!

03 入门到进阶学习路线图

大模型学习路线图,整体分为5个大的阶段:
图片

04 视频和书籍PDF合集

图片

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

图片

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)
图片

05 行业报告+白皮书合集

收集70+报告与白皮书,了解行业最新动态!
图片

06 90+份面试题/经验

AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)图片
在这里插入图片描述

07 deepseek部署包+技巧大全

在这里插入图片描述

由于篇幅有限

只展示部分资料

并且还在持续更新中…

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】
在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐