深度学习概叙

目录

  1. 深度学习基础回顾
  2. 核心架构演进:从CNN/RNN到Transformer
  3. Transformer深度解析 (LLM基石)
  4. 2025-2026 前沿架构与新范式
  5. 训练策略与优化技巧
  6. 多模态与生成式AI
  7. 常用工具栈

1. 深度学习基础回顾

1.1 核心逻辑

深度学习通过多层非线性变换,自动学习数据的层次化特征表示。

  • 前向传播: y = f ( W x + b ) y = f(Wx + b) y=f(Wx+b)
  • 反向传播: 利用链式法则计算梯度 ∂ L ∂ W \frac{\partial L}{\partial W} WL,更新参数。

1.2 四大经典模型支柱

模型类型 核心机制 典型应用 局限性 (2026视角)
CNN (卷积神经网络) 局部感受野、权值共享 图像分类、目标检测 长距离依赖捕捉能力弱,逐渐被ViT取代
RNN/LSTM 序列记忆、时间步递归 早期文本处理、时间序列 无法并行计算,长序列遗忘问题
GAN (生成对抗网络) 生成器与判别器博弈 图像生成、风格迁移 训练不稳定,模式坍塌,部分被Diffusion取代
Transformer 自注意力机制 (Self-Attention) NLP、CV、多模态 计算复杂度 O ( N 2 ) O(N^2) O(N2),显存消耗大

2. 核心架构演进:从CNN/RNN到Transformer

2.1 为什么Transformer赢了?

  • 并行化: 抛弃了RNN的时间步递归,可充分利用GPU/TPU算力。
  • 长距离依赖: 任意两个位置的距离为 O ( 1 ) O(1) O(1),解决了长序列梯度消失问题。
  • 通用性: “All you need is Attention”,统一了NLP、CV甚至音频处理。

2.2 技术演进路线图

Perceptron

CNN/RNN

Attention Mechanism

Transformer 2017

BERT/GPT Pre-training

LLM Era ChatGPT

Efficient Arch Mamba/MoE

3. Transformer深度解析 (LLM基石)

3.1 核心组件详解

3.1.1 自注意力机制 (Self-Attention)
  • Attention ( Q , K , V ) = softmax ( Q K T d k ) V \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V Attention(Q,K,V)=softmax(dk QKT)V
    • Q , K , V Q, K, V Q,K,V 来源: Q = X W Q , K = X W K , V = X W V Q = XW_Q, K = XW_K, V = XW_V Q=XWQ,K=XWK,V=XWV
    • 缩放因子 d k \sqrt{d_k} dk : 防止点积过大导致Softmax梯度极小。
    • 复杂度: O ( N 2 ⋅ d ) O(N^2 \cdot d) O(N2d),其中 N N N 为序列长度。
3.1.2 多头注意力 (Multi-Head Attention)

允许模型在不同的子空间同时关注不同位置的信息。
MultiHead ( Q , K , V ) = Concat ( head 1 , … , head h ) W O \text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \dots, \text{head}_h)W^O MultiHead(Q,K,V)=Concat(head1,,headh)WO
注:2026年主流模型通常使用分组查询注意力 (GQA) 或 滑动窗口注意力 来优化推理速度。

3.1.3 位置编码 (Positional Encoding)

由于Transformer没有递归结构,必须注入位置信息。

  • 绝对位置编码: Sinusoidal (原始), Learnable (BERT)。
  • 相对位置编码: RoPE (Rotary Positional Embeddings) —— 目前大模型标配,具有良好的外推性。
3.1.4 前馈网络 (FFN) 与 残差连接
  • FFN: R e L U ( x W 1 + b 1 ) W 2 + b 2 ReLU(xW_1+b_1)W_2+b_2 ReLU(xW1+b1)W2+b2(现多用 SwiGLU 激活函数)。
  • Residual Connection: $ \text{LayerNorm}(x + \text{SubLayer}(x)) $,解决深层网络退化问题。

3.2 解码器架构 (Decoder-Only)

现代大语言模型 (LLM) 如 Llama 3, GPT-4, Qwen 系列均采用 Decoder-Only 架构。

  • Masked Attention: 防止当前位置看到未来信息(因果掩码)。
  • 预填充 (Prefill) + 解码 (Decoding): 推理的两个阶段。

4. 2025-2026 前沿架构与新范式

注意: 随着上下文窗口达到百万级 (1M+ Tokens),传统 O(N2)O(N2) 的注意力机制面临瓶颈,新架构层出不穷。

4.1 状态空间模型 (SSM) & Mamba

  • 核心思想: 结合RNN的线性推理复杂度 O(N)O(N) 和 Transformer的并行训练能力。
  • 优势: 推理速度极快,显存占用随序列长度线性增长而非平方增长。
  • 应用: 长文本理解、基因组学、高频时间序列。
  • 代表模型: Mamba-2, Jamba (Hybrid Arch)。

4.2 混合专家模型 (MoE, Mixture of Experts)

  • 机制: 每个Token只激活部分参数(专家),实现“大参数规模,小计算量”。
  • 公式: y = \sum_{i=1}^{N} g_i(x) E_i(x) $,其中 $g_i 是门控网络。
  • 现状: 几乎所有顶级开源/闭源模型 (Mixtral, Grok, Qwen-MoE) 的标准配置。

4.3 视觉 - 语言原生模型 (Native Multimodal)

  • 趋势: 不再是将图像Patch简单映射为Text Token,而是构建统一的语义空间。

  • 技术:

    • Diffusion Transformer (DiT): Sora, Stable Diffusion 3 的核心,用Transformer替代U-Net进行图像生成。
    • World Models: 预测视频帧的物理规律,迈向具身智能。

4.4 推理优化技术

  • KV Cache 量化: 减少显存占用。
  • Speculative Decoding (投机采样): 小模型草稿,大模型验证,加速生成。
  • Flash Attention 3: 进一步优化显存读写,支持更长上下文。

5. 训练策略与优化技巧

5.1 数据工程 (Data-Centric AI)

  • 清洗: 去重、去毒、质量评分 (Quality Filtering)。
  • 合成数据: 使用强模型生成高质量指令数据 (Self-Instruct, Evol-Instruct)。
  • 课程学习: 从简单样本到复杂样本逐步训练。

5.2 对齐技术 (Alignment)

  • SFT (Supervised Fine-Tuning): 有监督微调,让模型学会遵循指令。
  • RLHF (Reinforcement Learning from Human Feedback): 基于人类反馈的强化学习 (PPO算法)。
  • DPO (Direct Preference Optimization): 2025主流,直接将偏好优化转化为分类损失,无需奖励模型,训练更稳定。

5.3 常见优化器

  • AdamW: 默认选择,带有权重衰减修正。
  • Lion: 谷歌提出,符号动量优化器,有时收敛更快。
  • Sophia: 针对二阶信息的近似,加速大模型收敛。

6. 多模态与生成式AI

6.1 文生图/视频 (Text-to-X)

  • 扩散模型 (Diffusion Models): 通过逐步去噪生成数据。

    • 正向过程: 加噪 q ( x t ∣ x t − 1 ) q(x_t∣x_{t−1}) q(xtxt1)
    • 反向过程: 去噪 p θ ( x t − 1 ∣ x t ) p_θ(x_{t−1}∣x_t) pθ(xt1xt)
  • Consistency Models: 一步或多步生成,极大提升推理速度。

6.2 具身智能 (Embodied AI)

  • 将大模型作为“大脑”,控制机器人执行物理任务。
  • 关键技术: 视觉 - 语言 - 动作模型 (VLA), 模拟环境训练 (Sim2Real)。

常用工具栈 (2026推荐)

类别 工具/库 备注
框架 PyTorch 2.x / JAX Torch Compile 默认开启,性能大幅提升
LLM开发 Hugging Face Transformers, vLLM vLLM 是高吞吐推理首选
微调 PEFT, LoRA, QLoRA 低资源微调必备
评估 LM Evaluation Harness, RAGAS 评估模型能力及RAG系统效果
可视化 Weights & Biases (W&B), TensorBoard 实验追踪
部署 ONNX Runtime, TensorRT-LLM 生产环境加速
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐