深度学习概叙
·
深度学习概叙
目录
- 深度学习基础回顾
- 核心架构演进:从CNN/RNN到Transformer
- Transformer深度解析 (LLM基石)
- 2025-2026 前沿架构与新范式
- 训练策略与优化技巧
- 多模态与生成式AI
- 常用工具栈
1. 深度学习基础回顾
1.1 核心逻辑
深度学习通过多层非线性变换,自动学习数据的层次化特征表示。
- 前向传播: y = f ( W x + b ) y = f(Wx + b) y=f(Wx+b)
- 反向传播: 利用链式法则计算梯度 ∂ L ∂ W \frac{\partial L}{\partial W} ∂W∂L,更新参数。
1.2 四大经典模型支柱
| 模型类型 | 核心机制 | 典型应用 | 局限性 (2026视角) |
|---|---|---|---|
| CNN (卷积神经网络) | 局部感受野、权值共享 | 图像分类、目标检测 | 长距离依赖捕捉能力弱,逐渐被ViT取代 |
| RNN/LSTM | 序列记忆、时间步递归 | 早期文本处理、时间序列 | 无法并行计算,长序列遗忘问题 |
| GAN (生成对抗网络) | 生成器与判别器博弈 | 图像生成、风格迁移 | 训练不稳定,模式坍塌,部分被Diffusion取代 |
| Transformer | 自注意力机制 (Self-Attention) | NLP、CV、多模态 | 计算复杂度 O ( N 2 ) O(N^2) O(N2),显存消耗大 |
2. 核心架构演进:从CNN/RNN到Transformer
2.1 为什么Transformer赢了?
- 并行化: 抛弃了RNN的时间步递归,可充分利用GPU/TPU算力。
- 长距离依赖: 任意两个位置的距离为 O ( 1 ) O(1) O(1),解决了长序列梯度消失问题。
- 通用性: “All you need is Attention”,统一了NLP、CV甚至音频处理。
2.2 技术演进路线图
3. Transformer深度解析 (LLM基石)
3.1 核心组件详解
3.1.1 自注意力机制 (Self-Attention)
- Attention ( Q , K , V ) = softmax ( Q K T d k ) V \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V Attention(Q,K,V)=softmax(dkQKT)V
- Q , K , V Q, K, V Q,K,V 来源: Q = X W Q , K = X W K , V = X W V Q = XW_Q, K = XW_K, V = XW_V Q=XWQ,K=XWK,V=XWV
- 缩放因子 d k \sqrt{d_k} dk: 防止点积过大导致Softmax梯度极小。
- 复杂度: O ( N 2 ⋅ d ) O(N^2 \cdot d) O(N2⋅d),其中 N N N 为序列长度。
3.1.2 多头注意力 (Multi-Head Attention)
允许模型在不同的子空间同时关注不同位置的信息。
MultiHead ( Q , K , V ) = Concat ( head 1 , … , head h ) W O \text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \dots, \text{head}_h)W^O MultiHead(Q,K,V)=Concat(head1,…,headh)WO
注:2026年主流模型通常使用分组查询注意力 (GQA) 或 滑动窗口注意力 来优化推理速度。
3.1.3 位置编码 (Positional Encoding)
由于Transformer没有递归结构,必须注入位置信息。
- 绝对位置编码: Sinusoidal (原始), Learnable (BERT)。
- 相对位置编码: RoPE (Rotary Positional Embeddings) —— 目前大模型标配,具有良好的外推性。
3.1.4 前馈网络 (FFN) 与 残差连接
- FFN: R e L U ( x W 1 + b 1 ) W 2 + b 2 ReLU(xW_1+b_1)W_2+b_2 ReLU(xW1+b1)W2+b2(现多用
SwiGLU激活函数)。 - Residual Connection: $ \text{LayerNorm}(x + \text{SubLayer}(x)) $,解决深层网络退化问题。
3.2 解码器架构 (Decoder-Only)
现代大语言模型 (LLM) 如 Llama 3, GPT-4, Qwen 系列均采用 Decoder-Only 架构。
- Masked Attention: 防止当前位置看到未来信息(因果掩码)。
- 预填充 (Prefill) + 解码 (Decoding): 推理的两个阶段。
4. 2025-2026 前沿架构与新范式
注意: 随着上下文窗口达到百万级 (1M+ Tokens),传统 O(N2)O(N2) 的注意力机制面临瓶颈,新架构层出不穷。
4.1 状态空间模型 (SSM) & Mamba
- 核心思想: 结合RNN的线性推理复杂度 O(N)O(N) 和 Transformer的并行训练能力。
- 优势: 推理速度极快,显存占用随序列长度线性增长而非平方增长。
- 应用: 长文本理解、基因组学、高频时间序列。
- 代表模型: Mamba-2, Jamba (Hybrid Arch)。
4.2 混合专家模型 (MoE, Mixture of Experts)
- 机制: 每个Token只激活部分参数(专家),实现“大参数规模,小计算量”。
- 公式: y = \sum_{i=1}^{N} g_i(x) E_i(x) $,其中 $g_i 是门控网络。
- 现状: 几乎所有顶级开源/闭源模型 (Mixtral, Grok, Qwen-MoE) 的标准配置。
4.3 视觉 - 语言原生模型 (Native Multimodal)
-
趋势: 不再是将图像Patch简单映射为Text Token,而是构建统一的语义空间。
-
技术:
- Diffusion Transformer (DiT): Sora, Stable Diffusion 3 的核心,用Transformer替代U-Net进行图像生成。
- World Models: 预测视频帧的物理规律,迈向具身智能。
4.4 推理优化技术
- KV Cache 量化: 减少显存占用。
- Speculative Decoding (投机采样): 小模型草稿,大模型验证,加速生成。
- Flash Attention 3: 进一步优化显存读写,支持更长上下文。
5. 训练策略与优化技巧
5.1 数据工程 (Data-Centric AI)
- 清洗: 去重、去毒、质量评分 (Quality Filtering)。
- 合成数据: 使用强模型生成高质量指令数据 (Self-Instruct, Evol-Instruct)。
- 课程学习: 从简单样本到复杂样本逐步训练。
5.2 对齐技术 (Alignment)
- SFT (Supervised Fine-Tuning): 有监督微调,让模型学会遵循指令。
- RLHF (Reinforcement Learning from Human Feedback): 基于人类反馈的强化学习 (PPO算法)。
- DPO (Direct Preference Optimization): 2025主流,直接将偏好优化转化为分类损失,无需奖励模型,训练更稳定。
5.3 常见优化器
- AdamW: 默认选择,带有权重衰减修正。
- Lion: 谷歌提出,符号动量优化器,有时收敛更快。
- Sophia: 针对二阶信息的近似,加速大模型收敛。
6. 多模态与生成式AI
6.1 文生图/视频 (Text-to-X)
-
扩散模型 (Diffusion Models): 通过逐步去噪生成数据。
- 正向过程: 加噪 q ( x t ∣ x t − 1 ) q(x_t∣x_{t−1}) q(xt∣xt−1)
- 反向过程: 去噪 p θ ( x t − 1 ∣ x t ) p_θ(x_{t−1}∣x_t) pθ(xt−1∣xt)
-
Consistency Models: 一步或多步生成,极大提升推理速度。
6.2 具身智能 (Embodied AI)
- 将大模型作为“大脑”,控制机器人执行物理任务。
- 关键技术: 视觉 - 语言 - 动作模型 (VLA), 模拟环境训练 (Sim2Real)。
常用工具栈 (2026推荐)
| 类别 | 工具/库 | 备注 |
|---|---|---|
| 框架 | PyTorch 2.x / JAX | Torch Compile 默认开启,性能大幅提升 |
| LLM开发 | Hugging Face Transformers, vLLM | vLLM 是高吞吐推理首选 |
| 微调 | PEFT, LoRA, QLoRA | 低资源微调必备 |
| 评估 | LM Evaluation Harness, RAGAS | 评估模型能力及RAG系统效果 |
| 可视化 | Weights & Biases (W&B), TensorBoard | 实验追踪 |
| 部署 | ONNX Runtime, TensorRT-LLM | 生产环境加速 |
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)