LLM —— 基础知识（Bert&GPT&T5）浅析

Token Embeddings 是词嵌入张量，第一个单词是CLS标志，可以用于之后的分类任务。
Segment Embeddings 是句子分段嵌入张量，是为了服务后续的两个句子为输入的预训练任务。
Position Embeddings 是位置编码张量，此处注意和传统的Transformer不同，不是三角函数计算的固定位置编码，而是通过可学习参数矩阵，max_len=512、hidden_size=768【512, 768】，随机初始化

整个Embedding模块的输出张量就是这3个张量的直接加和结果。

蓝色：Transformer模块（只有用编码部分）

纯Encoder的架构能有效地学习语言知识，设计了“掩码语言模型（MLM）”和“下一句预测（NSP）”这两个巧妙的预训练任务

用 MLM + NSP 联合损失，把 BERT 的 Transformer 权重、词嵌入、位置嵌入、段嵌入全部训练好，得到一个 “懂语言” 的通用模型。

绿色：预微调模块

在面对特定任务时，只需要对预微调层进行微调，就可以利用Transformer强大的注意力机制来模拟很多下游任务（句子关系判断、分类、问答(QA)、单句贴标签（NER）等），并得到SOTA的结果。

Bert模型参数

参数	取值
transformer 层数	12
特征维度	768
transformer head 数	12
总参数量	1.15 亿

更适合用于语言嵌入表达，语言理解方面的任务，不适合用于生成式的任务

2.自回归模型 (Autoregressive model，AR) 代表 =>. GPT模型

2018年6月，OpenAI公司提出，生成式预训练模型

GPT架构，采用transformer Decoder block,但是没有用到其中的 Multi-Head Attention （交叉注意力）这个子层。

参数	取值
transformer 层数	12
特征维度	768
transformer head 数	12
总参数量	1.17 亿

优点

在有监督学习的12个任务中， GPT在9个任务上的表现超过了state-of-the-art的模型
利用Transformer做特征抽取，能够捕捉到更长的记忆信息，且较传统的 RNN 更易于并行化

缺点

GPT 最大的问题就是传统的语言模型是单向的
针对不同的任务，需要不同的数据集进行模型微调，相对比较麻烦

总结：

AR模型使用注意力机制，预测下一个token，因此自然适用于文本生成，只能用于前向或者后向建模，不能同时使用双向的上下文信息，不能完全捕捉token的内在联系。

3.序列到序列（Sequence to Sequence Model）代表 => T5模型

同时使用编码器和解码器，Encoder-decoder模型通常用于需要内容理解和生成的任务，比如机器翻译。

T5 是谷歌 2020年7月提出，相关论文为“Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer”。该模型的目的为构建任务统一框架：将所有NLP任务都视为文本转换任务。

T5 模型架构

核心改动

归一化逻辑：
- ① 编码器层左（transformer） —— 右（T5）
- ② 解码器层左（transformer） —— 右（T5）
位置编码：外部正弦绝对编码 → 注意力内部可学习相对位置偏置（分桶）
激活函数：GELU → ReLU
嵌入层：词表全共享、删除 Segment Embedding
预训练目标：逐词预测 → 连续片段掩码还原
任务范式：多任务多头 → 统一文本转文本 + 任务前缀

T5 = 标准 Transformer Encoder–Decoder + 相对位置偏置 + RMSNorm+Pre-Norm + 跨度掩码预训练 + 统一文本到文本范式，在保持经典架构的同时，把训练稳定性、长文本能力、任务统一性都拉满了。

T5 模型参数

参数	取值
transformer 层数	24
特征维度	768
transformer head 数	12
总参数量	2.2 亿

T5 模型优缺点

优点：

T5模型可以处理多种NLP任务，并且可以通过微调来适应不同的应用场景，具有良好的可扩展性；相比其他语言生成模型（如GPT-2、GPT-3等），T5模型的参数数量相对较少，训练速度更快，且可以在相对较小的数据集上进行训练。

缺点：

由于T5模型使用了大量的Transformer结构，在训练时需要大量的计算资源和时间; 模型的可解释性不足。

三、大模型分类

类别	核心能力	架构	典型场景	代表模型
生成式模型	基于上文生成新文本	仅解码器	对话、写作、代码生成	GPT、LLaMA、PaLM
嵌入理解模型	文本转为语义向量	双塔编码器	语义搜索、聚类、推荐	BERT、RoBERTa、BGE
判别分类模型	文本打标签 / 评分	单编码器	情感分析、意图识别	BERT、ERNIE、ALBERT
重排模型	深度打分、优化排序	交叉编码器	搜索排序、RAG 精排	bge-reranker、Cohere Rerank
序列转换模型	文本序列互转	编码器 + 解码器	翻译、摘要、问答	T5、BART、Flan-T5

四、大模型精度类型

1. 浮点型（原生高精度）

FP32（单精度）：标准全精度，精度最高、占用大，训练常用，推理极少用。
FP16 / Half：半精度，主流推理默认，速度、显存平衡，绝大多数模型默认精度。
BF16：脑浮点，范围同 FP32、精度略降，训练首选，部分推理框架支持。

2. 低精度量化（推理省显存、加速）

INT8：8 位整型，主流量化方案，精度损失小，通用落地首选。
INT4：4 位整型，极致省显存，端侧 / 本地部署最常用，轻微精度损耗。
INT2：2 位，压缩率最高，精度下降明显，仅极限压缩场景用。
FP8：新式 8 位浮点，兼顾速度与精度，新一代硬件 / 模型逐步普及。

五、大模型主流存储 / 模型格式

1. PyTorch 生态

.pt / .pth：PyTorch 原生权重文件，训练 / 原生部署用。
.bin：Hugging Face 标准权重，主流开源模型默认格式。

2. GGUF / GGML（本地 CPU/GPU 推理， llama.cpp 生态）

GGUF：当前本地部署首选，替代旧版 GGML，支持全精度 + 各类量化（F16/Q8_0/Q4_K_M 等），兼容性最强。

3. TensorFlow / 跨框架

.ckpt：旧版 TensorFlow/PyTorch 通用检查点。
.safetensors：安全权重格式，防恶意代码，Hugging Face 主推，逐步替代.bin。
ONNX：跨框架通用格式，用于部署、推理引擎转换。

4. 专用部署格式

.ggla / .guff：llama.cpp 衍生格式。
TensorRT / TRT：英伟达 GPU 专用优化格式，极致推理加速。
CoreML：苹果端侧部署格式。

快速总结（日常使用）

训练：优先 BF16 / FP32，格式 .bin/.safetensors
云端推理：FP16 / INT8，格式 .bin/safetensors/ONNX
个人本地部署：INT4（Q4_K_M），格式 GGUF

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

两步生成AI视频案例

仅供参考镜头脚本（10秒）0-2秒：夕阳下的街头球场，一名球员背对球门，高空球落下。2-5秒：球员腾空倒钩，身体与地面平行，脚背猛烈击中球心。5-8秒：球划出弧线直挂死角，球网剧烈震颤。8-10秒：慢镜头定格倒钩瞬间，汗水飞溅，背景虚化。AI视频生成提示词（无侵权风险）

AtomGit开源社区

企业如何使用Open Claw？从网红工具到真正落地的安全指南

更令人惊艳的是，它具备灵活的调度模式（例如极具想象力的Heartbeat心跳机制），能够全面接管电脑环境，模拟人类的点击和键盘输入，甚至能自主规划步骤、拆解执行，并具备自行去下载技能（Skills）的自我进化能力。与此同时，结合K-APA智能流程自动化平台，企业可以通过大模型统一调度RPA、BrowserUse、ComputerUse等多种工具，实现任务步骤的智能规划与自动执行，在生产环境中打造出