深度学习概叙

m0_49893661

483人浏览 · 2026-04-18 08:48:06

m0_49893661 · 2026-04-18 08:48:06 发布

深度学习概叙

1. 深度学习基础回顾

1.1 核心逻辑

深度学习通过多层非线性变换，自动学习数据的层次化特征表示。

前向传播: $y = f (W x + b)$
反向传播: 利用链式法则计算梯度 $\frac{\partial L}{\partial W}$ ，更新参数。

1.2 四大经典模型支柱

模型类型	核心机制	典型应用	局限性 (2026视角)
CNN (卷积神经网络)	局部感受野、权值共享	图像分类、目标检测	长距离依赖捕捉能力弱，逐渐被ViT取代
RNN/LSTM	序列记忆、时间步递归	早期文本处理、时间序列	无法并行计算，长序列遗忘问题
GAN (生成对抗网络)	生成器与判别器博弈	图像生成、风格迁移	训练不稳定，模式坍塌，部分被Diffusion取代
Transformer	自注意力机制 (Self-Attention)	NLP、CV、多模态	计算复杂度 $O(N^2)$ ，显存消耗大

2. 核心架构演进：从CNN/RNN到Transformer

2.1 为什么Transformer赢了？

并行化: 抛弃了RNN的时间步递归，可充分利用GPU/TPU算力。
长距离依赖: 任意两个位置的距离为 $O (1)$ ，解决了长序列梯度消失问题。
通用性: “All you need is Attention”，统一了NLP、CV甚至音频处理。

2.2 技术演进路线图

3. Transformer深度解析 (LLM基石)

3.1 核心组件详解

3.1.1 自注意力机制 (Self-Attention)

$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$
- $Q, K, V$ 来源: $Q = XW_Q, K = XW_K, V = XW_V$
- 缩放因子 $\sqrt{d_k}$ : 防止点积过大导致Softmax梯度极小。
- 复杂度: $O(N^2 \cdot d)$ ，其中 $N$ 为序列长度。

3.1.2 多头注意力 (Multi-Head Attention)

允许模型在不同的子空间同时关注不同位置的信息。
$\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \dots, \text{head}_h)W^O$
注：2026年主流模型通常使用分组查询注意力 (GQA) 或滑动窗口注意力来优化推理速度。

3.1.3 位置编码 (Positional Encoding)

由于Transformer没有递归结构，必须注入位置信息。

绝对位置编码: Sinusoidal (原始), Learnable (BERT)。
相对位置编码: RoPE (Rotary Positional Embeddings) —— 目前大模型标配，具有良好的外推性。

3.1.4 前馈网络 (FFN) 与残差连接

FFN: $ReLU(xW_1+b_1)W_2+b_2$ (现多用 SwiGLU 激活函数)。
Residual Connection: $ \text{LayerNorm}(x + \text{SubLayer}(x)) $，解决深层网络退化问题。

3.2 解码器架构 (Decoder-Only)

现代大语言模型 (LLM) 如 Llama 3, GPT-4, Qwen 系列均采用 Decoder-Only 架构。

Masked Attention: 防止当前位置看到未来信息（因果掩码）。
预填充 (Prefill) + 解码 (Decoding): 推理的两个阶段。

4. 2025-2026 前沿架构与新范式

注意: 随着上下文窗口达到百万级 (1M+ Tokens)，传统 O(N2)O(N2) 的注意力机制面临瓶颈，新架构层出不穷。

4.1 状态空间模型 (SSM) & Mamba

核心思想: 结合RNN的线性推理复杂度 O(N)O(N) 和 Transformer的并行训练能力。
优势: 推理速度极快，显存占用随序列长度线性增长而非平方增长。
应用: 长文本理解、基因组学、高频时间序列。
代表模型: Mamba-2, Jamba (Hybrid Arch)。

4.2 混合专家模型 (MoE, Mixture of Experts)

机制: 每个Token只激活部分参数（专家），实现“大参数规模，小计算量”。
公式: y = \sum_{i=1}^{N} g_i(x) E_i(x) $，其中 $g_i 是门控网络。
现状: 几乎所有顶级开源/闭源模型 (Mixtral, Grok, Qwen-MoE) 的标准配置。

4.3 视觉 - 语言原生模型 (Native Multimodal)

趋势: 不再是将图像Patch简单映射为Text Token，而是构建统一的语义空间。
技术:
- Diffusion Transformer (DiT): Sora, Stable Diffusion 3 的核心，用Transformer替代U-Net进行图像生成。
- World Models: 预测视频帧的物理规律，迈向具身智能。

4.4 推理优化技术

KV Cache 量化: 减少显存占用。
Speculative Decoding (投机采样): 小模型草稿，大模型验证，加速生成。
Flash Attention 3: 进一步优化显存读写，支持更长上下文。

5. 训练策略与优化技巧

5.1 数据工程 (Data-Centric AI)

清洗: 去重、去毒、质量评分 (Quality Filtering)。
合成数据: 使用强模型生成高质量指令数据 (Self-Instruct, Evol-Instruct)。
课程学习: 从简单样本到复杂样本逐步训练。

5.2 对齐技术 (Alignment)

SFT (Supervised Fine-Tuning): 有监督微调，让模型学会遵循指令。
RLHF (Reinforcement Learning from Human Feedback): 基于人类反馈的强化学习 (PPO算法)。
DPO (Direct Preference Optimization): 2025主流，直接将偏好优化转化为分类损失，无需奖励模型，训练更稳定。

5.3 常见优化器

AdamW: 默认选择，带有权重衰减修正。
Lion: 谷歌提出，符号动量优化器，有时收敛更快。
Sophia: 针对二阶信息的近似，加速大模型收敛。

6. 多模态与生成式AI

6.1 文生图/视频 (Text-to-X)

扩散模型 (Diffusion Models): 通过逐步去噪生成数据。
- 正向过程: 加噪 $q(x_t∣x_{t−1})$
- 反向过程: 去噪 $p_θ(x_{t−1}∣x_t)$
Consistency Models: 一步或多步生成，极大提升推理速度。

6.2 具身智能 (Embodied AI)

将大模型作为“大脑”，控制机器人执行物理任务。
关键技术: 视觉 - 语言 - 动作模型 (VLA), 模拟环境训练 (Sim2Real)。

常用工具栈 (2026推荐)

类别	工具/库	备注
框架	PyTorch 2.x / JAX	Torch Compile 默认开启，性能大幅提升
LLM开发	Hugging Face Transformers, vLLM	vLLM 是高吞吐推理首选
微调	PEFT, LoRA, QLoRA	低资源微调必备
评估	LM Evaluation Harness, RAGAS	评估模型能力及RAG系统效果
可视化	Weights & Biases (W&B), TensorBoard	实验追踪
部署	ONNX Runtime, TensorRT-LLM	生产环境加速

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

上下文是你的 · Agent 是雇的 · 三步节省 90% Token 账单

AtomGit开源社区

[智能体-100]：采样策略深度详解：temperature /top_p/top_k

控整体随机程度的万能参数；越低越稳、越高越放飞；工业级标准化接口、高精度场景优先拉低温度。：调整体 “脑洞大小”，数值越大越放飞；top_p：筛选 “优质候选词”，在可控范围内增加变化，更稳更流畅；top_k：按数量硬筛，功能老旧，OpenAI 场景基本不用；生产环境严格二选一，不要同时微调 temperature 和 top_p。

AtomGit开源社区

LLM应用长期记忆工程2026：向量DB以外的持久化方案

大多数开发者构建AI应用时，谈到长期记忆，脑子里浮现的第一个词是"向量数据库"。Pinecone、Weaviate、Qdrant……这些名字几乎成了AI记忆的代名词。但在2026年，随着LLM应用复杂度不断攀升，向量检索只是冰山一角。本文深入剖析LLM长期记忆的完整工程体系，带你走出向量DB的思维定势。