AI开发系统学习大纲（从零到实战）

xiaotao131

849人浏览 · 2026-04-12 09:56:25

xiaotao131 · 2026-04-12 09:56:25 发布

AI开发系统学习大纲（从零到实战）

阶段零：前置准备与思维建立（1-2周）

目标：搭建环境，理解AI能做什么，建立“数据驱动”的思维方式。

0.1 环境配置
- Python 3.8+ 安装与虚拟环境（venv/conda）
- IDE选择（VS Code / PyCharm）与插件（Python, Jupyter）
- Jupyter Notebook / Lab 使用（Markdown, 代码单元格, 魔法命令）
- Git基础（clone, add, commit, push）—— 为了获取项目和版本管理
- 命令行基础（cd, ls, pip install, 环境变量）
0.2 AI宏观认知
- AI、机器学习、深度学习的关系（Venn图）
- 监督学习、无监督学习、强化学习的区别（举生活例子：分类/聚类/下棋）
- 常见应用场景：计算机视觉、自然语言处理、推荐系统、语音识别
- 开发流程鸟瞰：问题定义 → 数据获取 → 模型训练 → 评估 → 部署
0.3 核心思维
- 数据即燃料：没有高质量数据，模型无法工作
- 模型即映射：本质是学习从输入到输出的数学函数
- 过拟合与欠拟合：模型“死记硬背” vs “没学到位”
- 评估指标：准确率不是万能的（类别不平衡时看精确率/召回率/F1）

实践项目：在Jupyter里打印“Hello AI”，跑通第一个sklearn自带数据集的训练（如鸢尾花分类）。

阶段一：编程基础与数学基石（4-6周）

目标：掌握实现AI算法所需的编程和数学知识，不要求精通，但要求能看懂和调库。

1. Python核心（必备）

基础语法：变量、数据类型、条件判断、循环、函数定义与调用
数据结构：列表、元组、字典、集合（重点：列表推导式、字典get方法）
文件操作：读取txt/csv/json
错误与异常：try/except
面向对象基础：类、对象、继承（理解torch.nn.Module需要）
常用内置库：os, sys, math, random, datetime

2. 数值计算库（重中之重）

NumPy
- ndarray创建与属性（shape, dtype）
- 索引、切片、布尔索引
- 广播机制（Broadcasting）
- 通用函数（ufunc）：np.exp, np.log, np.sum, np.mean, np.dot
- 随机数生成（np.random）
- 线性代数基础（np.linalg.inv, det, eig — 了解即可）
Pandas（处理表格数据）
- Series与DataFrame
- 数据读取（pd.read_csv）、查看（head, info, describe）
- 数据清洗：处理缺失值（dropna, fillna）、重复值、异常值
- 数据筛选、分组（groupby）、合并（merge, concat）
Matplotlib & Seaborn（数据可视化）
- 折线图、散点图、直方图、箱线图
- 子图（subplot）
- 颜色、标签、图例设置
- Seaborn的heatmap（看相关性）、pairplot（看特征分布）

3. 数学基础（够用即可，不追求推导）

线性代数（理解矩阵运算的意义）
- 向量、矩阵、张量（三维以上）
- 矩阵乘法（形状匹配规则）、转置、逆（概念）
- 特征值与特征向量（理解PCA降维的原理）
微积分（理解优化过程）
- 导数、偏导数（概念）
- 链式法则（反向传播的核心）
- 梯度（函数增长最快的方向）
概率与统计（理解不确定性）
- 概率分布（均匀、正态、伯努利）
- 条件概率、贝叶斯公式
- 期望、方差、标准差
- 最大似然估计（MLE — 了解概念）
基础优化（理解如何训练）
- 梯度下降法（GD, SGD, Mini-batch GD）
- 学习率的作用

实践项目：

用Pandas分析一个CSV数据集（如Titanic乘客数据），做数据清洗和统计描述。
用NumPy手动实现线性回归（从数据生成到梯度下降），不用sklearn。

阶段二：机器学习基础（6-8周）

目标：掌握经典机器学习算法及其sklearn实现，理解模型训练的全流程。

2.1 监督学习

回归
- 线性回归（最小二乘法、R2分数）
- 多项式回归、正则化（Ridge, Lasso, ElasticNet）
分类
- K近邻（KNN）：距离度量、K值选择
- 逻辑回归（不是回归，是分类）：Sigmoid函数、交叉熵损失
- 决策树：信息增益、基尼系数、剪枝
- 集成学习：Bagging（随机森林）、Boosting（AdaBoost, GBDT, XGBoost — 先了解随机森林）
- 朴素贝叶斯（文本分类常用）
- 支持向量机（SVM）：理解间隔、核函数（先线性核，再RBF）

2.2 无监督学习

聚类
- K-Means：肘部法则、轮廓系数
- 层次聚类、DBSCAN（了解适用场景）
降维
- PCA（主成分分析）：理解方差最大化、特征向量
- t-SNE / UMAP（仅用于可视化，不用于预处理）

2.3 模型评估与选择

训练集/验证集/测试集划分（留出法、交叉验证）
评估指标：
- 分类：准确率、精确率、召回率、F1、ROC曲线、AUC
- 回归：MSE, MAE, R2
偏差-方差权衡
超参数调优：网格搜索（GridSearchCV）、随机搜索
特征工程：
- 缺失值处理（均值/中位数填充、模型预测填充）
- 编码分类变量（One-Hot, Label Encoding）
- 特征缩放（标准化、归一化）
- 特征选择（过滤法、包裹法、嵌入法）

2.4 工具使用

scikit-learn：统一API（fit, predict, transform, fit_transform）
Pipeline（流水线）防止数据泄露
保存与加载模型（joblib, pickle）

实践项目：

用逻辑回归/随机森林预测Titanic生存（Kaggle入门）。
用K-Means对用户进行分群（电商数据）。
用PCA对高维数据可视化（如手写数字数据集）。

阶段三：深度学习基础（6-8周）

目标：掌握神经网络原理，能使用PyTorch/TensorFlow搭建常见模型。

3.1 神经网络基础

感知机到多层感知机（MLP）
激活函数：Sigmoid, Tanh, ReLU, Leaky ReLU（优缺点及使用场景）
前向传播与反向传播（手动推导一个两层网络）
损失函数：MSE, 交叉熵, 二元交叉熵
优化器：SGD + Momentum, Adam, RMSprop（理解动量、自适应学习率）
权重初始化（Xavier, He初始化）
过拟合控制：
- 正则化（L1, L2）
- Dropout（训练和测试时行为不同）
- 早停（Early Stopping）
- 批归一化（BatchNorm — 理解作用：加速收敛、稳定训练）

3.2 深度学习框架（选一个，推荐PyTorch）

PyTorch核心：
- Tensor创建与运算（与NumPy对比）
- 自动求导（autograd）机制
- nn.Module定义网络
- 数据加载：Dataset, DataLoader
- 训练循环模板（forward → loss → backward → optimizer.step → zero_grad）
- 模型保存与加载（state_dict）
- GPU加速（.to(device)）
TensorFlow/Keras（可选对比）：
- Sequential API与函数式API
- callbacks（ModelCheckpoint, EarlyStopping）

3.3 卷积神经网络（CNN）—— 图像领域

卷积层（卷积核、步长、填充、输出尺寸计算）
池化层（MaxPool, AvgPool）
经典CNN架构：
- LeNet-5
- AlexNet（ReLU, Dropout, 数据增强）
- VGG（小卷积核堆叠）
- ResNet（残差连接 — 解决梯度消失）
- 轻量网络：MobileNet（深度可分离卷积）
数据增强（旋转、裁剪、翻转、色彩抖动）
迁移学习（用预训练模型微调，如ResNet50 on ImageNet）

3.4 循环神经网络（RNN）—— 序列领域

RNN原理（循环单元、梯度消失/爆炸）
LSTM（门控机制：遗忘门、输入门、输出门）
GRU（简化版LSTM）
双向RNN
应用：文本分类、时间序列预测、序列标注

3.5 训练技巧

学习率调度（StepLR, ReduceLROnPlateau, CosineAnnealing）
梯度裁剪（Gradient Clipping — 防梯度爆炸）
混合精度训练（AMP — 节省显存）
使用TensorBoard（或wandb）可视化训练曲线

实践项目：

用MLP在MNIST上手写数字分类（入门“Hello World”）。
用CNN在CIFAR-10上图像分类（达到80%+准确率）。
用LSTM做文本情感分类（IMDB影评）。
迁移学习：用预训练ResNet50训练自己的猫狗分类器。

阶段四：进阶方向（根据兴趣选择，8-12周）

目标：深入某一领域，掌握该领域的主流模型与实战技巧。

4.1 计算机视觉（CV）

目标检测
- 两阶段：R-CNN系列（Fast R-CNN, Faster R-CNN — 理解RPN）
- 单阶段：YOLO（v3~v8，理解网格、Anchor Box、损失函数）、SSD
图像分割
- 语义分割：FCN, U-Net（医学图像常用）, DeepLab
- 实例分割：Mask R-CNN
生成模型
- 自编码器（AE）、变分自编码器（VAE）
- GAN（生成对抗网络）：DCGAN, CycleGAN（风格迁移）, StyleGAN
- 扩散模型（Diffusion Models）：DDPM基础原理（文本生成图像基础）
人脸识别（FaceNet, ArcFace）
常用库：OpenCV（图像处理），Albumentations（增强）

4.2 自然语言处理（NLP）

文本预处理（分词、词干提取、词形还原）
词嵌入：Word2Vec（CBOW, Skip-gram）, GloVe
序列到序列模型（Seq2Seq） + Attention机制（Bahdanau, Luong）
Transformer架构（彻底理解）：自注意力、多头注意力、位置编码、前馈网络、LayerNorm、残差连接
BERT及其变体（RoBERTa, ALBERT, DistilBERT）—— 理解预训练+微调范式
GPT系列（生成式预训练）：自回归生成、因果掩码
文本生成：Beam Search, Top-K, Top-p采样
命名实体识别（NER）、关系抽取
常用库：Hugging Face Transformers（加载模型、分词器、微调），spaCy, NLTK

4.3 结构化数据与推荐系统

树模型进阶：XGBoost, LightGBM, CatBoost（工业界结构化数据首选）
特征交叉（FM, FFM, DeepFM）
推荐召回：协同过滤（UserCF, ItemCF）、矩阵分解（SVD）、双塔模型（DSSM）
推荐排序：Wide & Deep, DeepFM, DIN（注意力机制）
多任务学习（MMoE, ESMM）
评估指标：Hit Rate, NDCG, MAP

4.4 语音处理（可选）

语音特征提取：MFCC, Spectrogram, Mel-spectrogram
语音识别：RNN-T, LAS, 基于Transformer的模型（Whisper）
语音合成：Tacotron2, WaveGlow, VITS

阶段五：模型部署与工程化（4-6周）

目标：将训练好的模型变成可用的API或应用。

模型格式转换
- ONNX（跨框架交换）
- TorchScript（PyTorch生产部署）
- TensorRT（NVIDIA GPU加速）
推理优化
- 量化（INT8, FP16）
- 剪枝（Pruning）
- 知识蒸馏（Knowledge Distillation — 大模型教小模型）
部署方式
- Web服务：Flask/FastAPI包装模型 → Docker容器化
- 边缘设备：TensorFlow Lite / PyTorch Mobile（手机端），ONNX Runtime（CPU/GPU）
- 批处理：用Celery + Redis做异步推理
- Serverless：AWS Lambda / Google Cloud Functions（轻量推理）
监控与维护
- 模型版本管理（DVC, MLflow）
- 数据漂移检测（监测输入分布变化）
- 日志记录（请求响应时间、错误率）

实践项目：

用FastAPI部署一个图像分类模型，提供REST API，并用Docker打包。
将PyTorch模型转为ONNX，并用ONNX Runtime加速推理。
在手机（Android/iOS）上跑通一个TensorFlow Lite图像分类demo。

阶段六：大语言模型（LLM）与应用（8-10周）—— 当前热点

目标：理解大模型原理，能调用、微调、搭建RAG应用。

6.1 大模型基础

规模法则（Scaling Laws）：模型大小、数据量、计算量的关系
涌现能力（Emergent Abilities）
分布式训练基础：
- 数据并行（Data Parallel）、模型并行（Model Parallel）、流水线并行（Pipeline Parallel）
- ZeRO优化器（DeepSpeed）
- 混合精度训练（FP16/BF16）

6.2 大模型架构

仅编码器（BERT类） vs 仅解码器（GPT类） vs 编码器-解码器（T5）
注意力机制优化：
- 稀疏注意力（Sparse Attention）
- Flash Attention（IO感知优化）
- 线性注意力（Linear Attention）
位置编码进阶：RoPE（旋转位置编码）, ALiBi

6.3 高效微调（PEFT）

LoRA（低秩适配）—— 最常用
QLoRA（量化+LoRA，单卡微调）
Prefix Tuning, P-Tuning v2
Adapter

6.4 对齐与RLHF

指令微调（Supervised Fine-Tuning, SFT）
奖励模型（Reward Modeling）
强化学习（PPO, DPO — Direct Preference Optimization）
人类反馈（RLHF）流程

6.5 推理优化

量化：GPTQ, AWQ, GGUF（llama.cpp）
KV Cache
投机解码（Speculative Decoding）
vLLM（PagedAttention）高吞吐推理

6.6 应用开发

提示工程：零样本、少样本、Chain-of-Thought（CoT）、Tree-of-Thoughts（ToT）
RAG（检索增强生成）：
- 向量数据库（Chroma, FAISS, Qdrant, Pinecone）
- 文档分块策略、Embedding模型选择（BGE, OpenAI ada）
- 重排序（Reranking）
- 多模态RAG（文本+图片）
Agent（智能体）：
- ReAct模式（Reason + Act）
- 工具调用（Function Calling）
- LangChain / LlamaIndex框架
- 自主Agent（AutoGPT, BabyAGI概念）
评估：BLEU, ROUGE, BERTScore, GPT-4作为评判者

实践项目：

用LoRA微调一个中文LLaMA/ChatGLM模型，完成特定任务（如问答、文案生成）。
搭建一个RAG系统：上传PDF文档，通过自然语言查询回答文档内容。
用LangChain创建一个能调用搜索API和计算器的Agent。
在消费级GPU（如RTX 3090/4090）上部署量化版LLaMA 3 / Qwen 2.5并测试推理速度。

阶段七：MLOps与工程落地（4-6周）

目标：掌握生产环境下的机器学习流水线。

实验追踪：MLflow, Weights & Biases
数据版本控制：DVC（Data Version Control）
工作流编排：Airflow, Kubeflow, Prefect
模型注册表与模型服务：MLflow Model Registry, Seldon Core
CI/CD for ML：GitHub Actions + 自动训练/测试/部署
特征存储（Feature Store）：Feast, Hopsworks
监控：Prometheus + Grafana（指标），Evidently（数据漂移）

实践项目：搭建一个完整的ML流水线：Git push → 自动训练 → 评估 → 若指标提升则部署到staging → 手动确认后部署到生产。

阶段八：软技能与持续学习（贯穿全程）

阅读论文：从经典开始（AlexNet, ResNet, Attention is All You Need, BERT, GPT-3），使用arXiv, Papers with Code
英语能力：能阅读英文文档、论文标题和摘要
Kaggle实战：参与比赛，学习高分notebook
开源贡献：给transformers, langchain等库提issue/pr
社区参与：关注Hugging Face, GitHub Trending, 相关博客（Distill, Lilian Weng）
数学补强：按需深入学习线性代数/概率论（如需要做研究）