AI开发系统学习大纲(从零到实战)
·
AI开发系统学习大纲(从零到实战)
阶段零:前置准备与思维建立(1-2周)
目标:搭建环境,理解AI能做什么,建立“数据驱动”的思维方式。
-
0.1 环境配置
- Python 3.8+ 安装与虚拟环境(venv/conda)
- IDE选择(VS Code / PyCharm)与插件(Python, Jupyter)
- Jupyter Notebook / Lab 使用(Markdown, 代码单元格, 魔法命令)
- Git基础(clone, add, commit, push)—— 为了获取项目和版本管理
- 命令行基础(cd, ls, pip install, 环境变量)
-
0.2 AI宏观认知
- AI、机器学习、深度学习的关系(Venn图)
- 监督学习、无监督学习、强化学习的区别(举生活例子:分类/聚类/下棋)
- 常见应用场景:计算机视觉、自然语言处理、推荐系统、语音识别
- 开发流程鸟瞰:问题定义 → 数据获取 → 模型训练 → 评估 → 部署
-
0.3 核心思维
- 数据即燃料:没有高质量数据,模型无法工作
- 模型即映射:本质是学习从输入到输出的数学函数
- 过拟合与欠拟合:模型“死记硬背” vs “没学到位”
- 评估指标:准确率不是万能的(类别不平衡时看精确率/召回率/F1)
实践项目:在Jupyter里打印“Hello AI”,跑通第一个sklearn自带数据集的训练(如鸢尾花分类)。
阶段一:编程基础与数学基石(4-6周)
目标:掌握实现AI算法所需的编程和数学知识,不要求精通,但要求能看懂和调库。
1. Python核心(必备)
- 基础语法:变量、数据类型、条件判断、循环、函数定义与调用
- 数据结构:列表、元组、字典、集合(重点:列表推导式、字典get方法)
- 文件操作:读取txt/csv/json
- 错误与异常:try/except
- 面向对象基础:类、对象、继承(理解torch.nn.Module需要)
- 常用内置库:os, sys, math, random, datetime
2. 数值计算库(重中之重)
- NumPy
- ndarray创建与属性(shape, dtype)
- 索引、切片、布尔索引
- 广播机制(Broadcasting)
- 通用函数(ufunc):np.exp, np.log, np.sum, np.mean, np.dot
- 随机数生成(np.random)
- 线性代数基础(np.linalg.inv, det, eig — 了解即可)
- Pandas(处理表格数据)
- Series与DataFrame
- 数据读取(pd.read_csv)、查看(head, info, describe)
- 数据清洗:处理缺失值(dropna, fillna)、重复值、异常值
- 数据筛选、分组(groupby)、合并(merge, concat)
- Matplotlib & Seaborn(数据可视化)
- 折线图、散点图、直方图、箱线图
- 子图(subplot)
- 颜色、标签、图例设置
- Seaborn的heatmap(看相关性)、pairplot(看特征分布)
3. 数学基础(够用即可,不追求推导)
- 线性代数(理解矩阵运算的意义)
- 向量、矩阵、张量(三维以上)
- 矩阵乘法(形状匹配规则)、转置、逆(概念)
- 特征值与特征向量(理解PCA降维的原理)
- 微积分(理解优化过程)
- 导数、偏导数(概念)
- 链式法则(反向传播的核心)
- 梯度(函数增长最快的方向)
- 概率与统计(理解不确定性)
- 概率分布(均匀、正态、伯努利)
- 条件概率、贝叶斯公式
- 期望、方差、标准差
- 最大似然估计(MLE — 了解概念)
- 基础优化(理解如何训练)
- 梯度下降法(GD, SGD, Mini-batch GD)
- 学习率的作用
实践项目:
- 用Pandas分析一个CSV数据集(如Titanic乘客数据),做数据清洗和统计描述。
- 用NumPy手动实现线性回归(从数据生成到梯度下降),不用sklearn。
阶段二:机器学习基础(6-8周)
目标:掌握经典机器学习算法及其sklearn实现,理解模型训练的全流程。
2.1 监督学习
- 回归
- 线性回归(最小二乘法、R2分数)
- 多项式回归、正则化(Ridge, Lasso, ElasticNet)
- 分类
- K近邻(KNN):距离度量、K值选择
- 逻辑回归(不是回归,是分类):Sigmoid函数、交叉熵损失
- 决策树:信息增益、基尼系数、剪枝
- 集成学习:Bagging(随机森林)、Boosting(AdaBoost, GBDT, XGBoost — 先了解随机森林)
- 朴素贝叶斯(文本分类常用)
- 支持向量机(SVM):理解间隔、核函数(先线性核,再RBF)
2.2 无监督学习
- 聚类
- K-Means:肘部法则、轮廓系数
- 层次聚类、DBSCAN(了解适用场景)
- 降维
- PCA(主成分分析):理解方差最大化、特征向量
- t-SNE / UMAP(仅用于可视化,不用于预处理)
2.3 模型评估与选择
- 训练集/验证集/测试集划分(留出法、交叉验证)
- 评估指标:
- 分类:准确率、精确率、召回率、F1、ROC曲线、AUC
- 回归:MSE, MAE, R2
- 偏差-方差权衡
- 超参数调优:网格搜索(GridSearchCV)、随机搜索
- 特征工程:
- 缺失值处理(均值/中位数填充、模型预测填充)
- 编码分类变量(One-Hot, Label Encoding)
- 特征缩放(标准化、归一化)
- 特征选择(过滤法、包裹法、嵌入法)
2.4 工具使用
- scikit-learn:统一API(fit, predict, transform, fit_transform)
- Pipeline(流水线)防止数据泄露
- 保存与加载模型(joblib, pickle)
实践项目:
- 用逻辑回归/随机森林预测Titanic生存(Kaggle入门)。
- 用K-Means对用户进行分群(电商数据)。
- 用PCA对高维数据可视化(如手写数字数据集)。
阶段三:深度学习基础(6-8周)
目标:掌握神经网络原理,能使用PyTorch/TensorFlow搭建常见模型。
3.1 神经网络基础
- 感知机到多层感知机(MLP)
- 激活函数:Sigmoid, Tanh, ReLU, Leaky ReLU(优缺点及使用场景)
- 前向传播与反向传播(手动推导一个两层网络)
- 损失函数:MSE, 交叉熵, 二元交叉熵
- 优化器:SGD + Momentum, Adam, RMSprop(理解动量、自适应学习率)
- 权重初始化(Xavier, He初始化)
- 过拟合控制:
- 正则化(L1, L2)
- Dropout(训练和测试时行为不同)
- 早停(Early Stopping)
- 批归一化(BatchNorm — 理解作用:加速收敛、稳定训练)
3.2 深度学习框架(选一个,推荐PyTorch)
- PyTorch核心:
- Tensor创建与运算(与NumPy对比)
- 自动求导(autograd)机制
- nn.Module定义网络
- 数据加载:Dataset, DataLoader
- 训练循环模板(forward → loss → backward → optimizer.step → zero_grad)
- 模型保存与加载(state_dict)
- GPU加速(.to(device))
- TensorFlow/Keras(可选对比):
- Sequential API与函数式API
- callbacks(ModelCheckpoint, EarlyStopping)
3.3 卷积神经网络(CNN)—— 图像领域
- 卷积层(卷积核、步长、填充、输出尺寸计算)
- 池化层(MaxPool, AvgPool)
- 经典CNN架构:
- LeNet-5
- AlexNet(ReLU, Dropout, 数据增强)
- VGG(小卷积核堆叠)
- ResNet(残差连接 — 解决梯度消失)
- 轻量网络:MobileNet(深度可分离卷积)
- 数据增强(旋转、裁剪、翻转、色彩抖动)
- 迁移学习(用预训练模型微调,如ResNet50 on ImageNet)
3.4 循环神经网络(RNN)—— 序列领域
- RNN原理(循环单元、梯度消失/爆炸)
- LSTM(门控机制:遗忘门、输入门、输出门)
- GRU(简化版LSTM)
- 双向RNN
- 应用:文本分类、时间序列预测、序列标注
3.5 训练技巧
- 学习率调度(StepLR, ReduceLROnPlateau, CosineAnnealing)
- 梯度裁剪(Gradient Clipping — 防梯度爆炸)
- 混合精度训练(AMP — 节省显存)
- 使用TensorBoard(或wandb)可视化训练曲线
实践项目:
- 用MLP在MNIST上手写数字分类(入门“Hello World”)。
- 用CNN在CIFAR-10上图像分类(达到80%+准确率)。
- 用LSTM做文本情感分类(IMDB影评)。
- 迁移学习:用预训练ResNet50训练自己的猫狗分类器。
阶段四:进阶方向(根据兴趣选择,8-12周)
目标:深入某一领域,掌握该领域的主流模型与实战技巧。
4.1 计算机视觉(CV)
- 目标检测
- 两阶段:R-CNN系列(Fast R-CNN, Faster R-CNN — 理解RPN)
- 单阶段:YOLO(v3~v8,理解网格、Anchor Box、损失函数)、SSD
- 图像分割
- 语义分割:FCN, U-Net(医学图像常用), DeepLab
- 实例分割:Mask R-CNN
- 生成模型
- 自编码器(AE)、变分自编码器(VAE)
- GAN(生成对抗网络):DCGAN, CycleGAN(风格迁移), StyleGAN
- 扩散模型(Diffusion Models):DDPM基础原理(文本生成图像基础)
- 人脸识别(FaceNet, ArcFace)
- 常用库:OpenCV(图像处理),Albumentations(增强)
4.2 自然语言处理(NLP)
- 文本预处理(分词、词干提取、词形还原)
- 词嵌入:Word2Vec(CBOW, Skip-gram), GloVe
- 序列到序列模型(Seq2Seq) + Attention机制(Bahdanau, Luong)
- Transformer架构(彻底理解):自注意力、多头注意力、位置编码、前馈网络、LayerNorm、残差连接
- BERT及其变体(RoBERTa, ALBERT, DistilBERT)—— 理解预训练+微调范式
- GPT系列(生成式预训练):自回归生成、因果掩码
- 文本生成:Beam Search, Top-K, Top-p采样
- 命名实体识别(NER)、关系抽取
- 常用库:Hugging Face Transformers(加载模型、分词器、微调),spaCy, NLTK
4.3 结构化数据与推荐系统
- 树模型进阶:XGBoost, LightGBM, CatBoost(工业界结构化数据首选)
- 特征交叉(FM, FFM, DeepFM)
- 推荐召回:协同过滤(UserCF, ItemCF)、矩阵分解(SVD)、双塔模型(DSSM)
- 推荐排序:Wide & Deep, DeepFM, DIN(注意力机制)
- 多任务学习(MMoE, ESMM)
- 评估指标:Hit Rate, NDCG, MAP
4.4 语音处理(可选)
- 语音特征提取:MFCC, Spectrogram, Mel-spectrogram
- 语音识别:RNN-T, LAS, 基于Transformer的模型(Whisper)
- 语音合成:Tacotron2, WaveGlow, VITS
阶段五:模型部署与工程化(4-6周)
目标:将训练好的模型变成可用的API或应用。
- 模型格式转换
- ONNX(跨框架交换)
- TorchScript(PyTorch生产部署)
- TensorRT(NVIDIA GPU加速)
- 推理优化
- 量化(INT8, FP16)
- 剪枝(Pruning)
- 知识蒸馏(Knowledge Distillation — 大模型教小模型)
- 部署方式
- Web服务:Flask/FastAPI包装模型 → Docker容器化
- 边缘设备:TensorFlow Lite / PyTorch Mobile(手机端),ONNX Runtime(CPU/GPU)
- 批处理:用Celery + Redis做异步推理
- Serverless:AWS Lambda / Google Cloud Functions(轻量推理)
- 监控与维护
- 模型版本管理(DVC, MLflow)
- 数据漂移检测(监测输入分布变化)
- 日志记录(请求响应时间、错误率)
实践项目:
- 用FastAPI部署一个图像分类模型,提供REST API,并用Docker打包。
- 将PyTorch模型转为ONNX,并用ONNX Runtime加速推理。
- 在手机(Android/iOS)上跑通一个TensorFlow Lite图像分类demo。
阶段六:大语言模型(LLM)与应用(8-10周)—— 当前热点
目标:理解大模型原理,能调用、微调、搭建RAG应用。
6.1 大模型基础
- 规模法则(Scaling Laws):模型大小、数据量、计算量的关系
- 涌现能力(Emergent Abilities)
- 分布式训练基础:
- 数据并行(Data Parallel)、模型并行(Model Parallel)、流水线并行(Pipeline Parallel)
- ZeRO优化器(DeepSpeed)
- 混合精度训练(FP16/BF16)
6.2 大模型架构
- 仅编码器(BERT类) vs 仅解码器(GPT类) vs 编码器-解码器(T5)
- 注意力机制优化:
- 稀疏注意力(Sparse Attention)
- Flash Attention(IO感知优化)
- 线性注意力(Linear Attention)
- 位置编码进阶:RoPE(旋转位置编码), ALiBi
6.3 高效微调(PEFT)
- LoRA(低秩适配)—— 最常用
- QLoRA(量化+LoRA,单卡微调)
- Prefix Tuning, P-Tuning v2
- Adapter
6.4 对齐与RLHF
- 指令微调(Supervised Fine-Tuning, SFT)
- 奖励模型(Reward Modeling)
- 强化学习(PPO, DPO — Direct Preference Optimization)
- 人类反馈(RLHF)流程
6.5 推理优化
- 量化:GPTQ, AWQ, GGUF(llama.cpp)
- KV Cache
- 投机解码(Speculative Decoding)
- vLLM(PagedAttention)高吞吐推理
6.6 应用开发
- 提示工程:零样本、少样本、Chain-of-Thought(CoT)、Tree-of-Thoughts(ToT)
- RAG(检索增强生成):
- 向量数据库(Chroma, FAISS, Qdrant, Pinecone)
- 文档分块策略、Embedding模型选择(BGE, OpenAI ada)
- 重排序(Reranking)
- 多模态RAG(文本+图片)
- Agent(智能体):
- ReAct模式(Reason + Act)
- 工具调用(Function Calling)
- LangChain / LlamaIndex框架
- 自主Agent(AutoGPT, BabyAGI概念)
- 评估:BLEU, ROUGE, BERTScore, GPT-4作为评判者
实践项目:
- 用LoRA微调一个中文LLaMA/ChatGLM模型,完成特定任务(如问答、文案生成)。
- 搭建一个RAG系统:上传PDF文档,通过自然语言查询回答文档内容。
- 用LangChain创建一个能调用搜索API和计算器的Agent。
- 在消费级GPU(如RTX 3090/4090)上部署量化版LLaMA 3 / Qwen 2.5并测试推理速度。
阶段七:MLOps与工程落地(4-6周)
目标:掌握生产环境下的机器学习流水线。
- 实验追踪:MLflow, Weights & Biases
- 数据版本控制:DVC(Data Version Control)
- 工作流编排:Airflow, Kubeflow, Prefect
- 模型注册表与模型服务:MLflow Model Registry, Seldon Core
- CI/CD for ML:GitHub Actions + 自动训练/测试/部署
- 特征存储(Feature Store):Feast, Hopsworks
- 监控:Prometheus + Grafana(指标),Evidently(数据漂移)
实践项目:搭建一个完整的ML流水线:Git push → 自动训练 → 评估 → 若指标提升则部署到staging → 手动确认后部署到生产。
阶段八:软技能与持续学习(贯穿全程)
- 阅读论文:从经典开始(AlexNet, ResNet, Attention is All You Need, BERT, GPT-3),使用arXiv, Papers with Code
- 英语能力:能阅读英文文档、论文标题和摘要
- Kaggle实战:参与比赛,学习高分notebook
- 开源贡献:给transformers, langchain等库提issue/pr
- 社区参与:关注Hugging Face, GitHub Trending, 相关博客(Distill, Lilian Weng)
- 数学补强:按需深入学习线性代数/概率论(如需要做研究)
学习建议
- 不要跳跃:阶段一和阶段二跳不过去,否则后面寸步难行。
- 动手远大于看:每个知识点都要写代码验证。
- 先模仿后创造:跑通别人的代码 → 修改参数看效果 → 自己从零写。
- 聚焦一个框架:建议PyTorch(学术界+工业界主流)。
- 善用GPU:Colab免费GPU足够前中期学习。
- 遇到bug是常态:学会搜索错误信息(Stack Overflow, GitHub Issues)。
- 项目驱动:每学完一个阶段,做一个综合项目,把知识串起来。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)