AI开发系统学习大纲(从零到实战)

阶段零:前置准备与思维建立(1-2周)

目标:搭建环境,理解AI能做什么,建立“数据驱动”的思维方式。

  • 0.1 环境配置

    • Python 3.8+ 安装与虚拟环境(venv/conda)
    • IDE选择(VS Code / PyCharm)与插件(Python, Jupyter)
    • Jupyter Notebook / Lab 使用(Markdown, 代码单元格, 魔法命令)
    • Git基础(clone, add, commit, push)—— 为了获取项目和版本管理
    • 命令行基础(cd, ls, pip install, 环境变量)
  • 0.2 AI宏观认知

    • AI、机器学习、深度学习的关系(Venn图)
    • 监督学习、无监督学习、强化学习的区别(举生活例子:分类/聚类/下棋)
    • 常见应用场景:计算机视觉、自然语言处理、推荐系统、语音识别
    • 开发流程鸟瞰:问题定义 → 数据获取 → 模型训练 → 评估 → 部署
  • 0.3 核心思维

    • 数据即燃料:没有高质量数据,模型无法工作
    • 模型即映射:本质是学习从输入到输出的数学函数
    • 过拟合与欠拟合:模型“死记硬背” vs “没学到位”
    • 评估指标:准确率不是万能的(类别不平衡时看精确率/召回率/F1)

实践项目:在Jupyter里打印“Hello AI”,跑通第一个sklearn自带数据集的训练(如鸢尾花分类)。


阶段一:编程基础与数学基石(4-6周)

目标:掌握实现AI算法所需的编程和数学知识,不要求精通,但要求能看懂和调库

1. Python核心(必备)

  • 基础语法:变量、数据类型、条件判断、循环、函数定义与调用
  • 数据结构:列表、元组、字典、集合(重点:列表推导式、字典get方法)
  • 文件操作:读取txt/csv/json
  • 错误与异常:try/except
  • 面向对象基础:类、对象、继承(理解torch.nn.Module需要)
  • 常用内置库:os, sys, math, random, datetime

2. 数值计算库(重中之重)

  • NumPy
    • ndarray创建与属性(shape, dtype)
    • 索引、切片、布尔索引
    • 广播机制(Broadcasting)
    • 通用函数(ufunc):np.exp, np.log, np.sum, np.mean, np.dot
    • 随机数生成(np.random)
    • 线性代数基础(np.linalg.inv, det, eig — 了解即可)
  • Pandas(处理表格数据)
    • Series与DataFrame
    • 数据读取(pd.read_csv)、查看(head, info, describe)
    • 数据清洗:处理缺失值(dropna, fillna)、重复值、异常值
    • 数据筛选、分组(groupby)、合并(merge, concat)
  • Matplotlib & Seaborn(数据可视化)
    • 折线图、散点图、直方图、箱线图
    • 子图(subplot)
    • 颜色、标签、图例设置
    • Seaborn的heatmap(看相关性)、pairplot(看特征分布)

3. 数学基础(够用即可,不追求推导)

  • 线性代数(理解矩阵运算的意义)
    • 向量、矩阵、张量(三维以上)
    • 矩阵乘法(形状匹配规则)、转置、逆(概念)
    • 特征值与特征向量(理解PCA降维的原理)
  • 微积分(理解优化过程)
    • 导数、偏导数(概念)
    • 链式法则(反向传播的核心)
    • 梯度(函数增长最快的方向)
  • 概率与统计(理解不确定性)
    • 概率分布(均匀、正态、伯努利)
    • 条件概率、贝叶斯公式
    • 期望、方差、标准差
    • 最大似然估计(MLE — 了解概念)
  • 基础优化(理解如何训练)
    • 梯度下降法(GD, SGD, Mini-batch GD)
    • 学习率的作用

实践项目

  1. 用Pandas分析一个CSV数据集(如Titanic乘客数据),做数据清洗和统计描述。
  2. 用NumPy手动实现线性回归(从数据生成到梯度下降),不用sklearn。

阶段二:机器学习基础(6-8周)

目标:掌握经典机器学习算法及其sklearn实现,理解模型训练的全流程。

2.1 监督学习

  • 回归
    • 线性回归(最小二乘法、R2分数)
    • 多项式回归、正则化(Ridge, Lasso, ElasticNet)
  • 分类
    • K近邻(KNN):距离度量、K值选择
    • 逻辑回归(不是回归,是分类):Sigmoid函数、交叉熵损失
    • 决策树:信息增益、基尼系数、剪枝
    • 集成学习:Bagging(随机森林)、Boosting(AdaBoost, GBDT, XGBoost — 先了解随机森林)
    • 朴素贝叶斯(文本分类常用)
    • 支持向量机(SVM):理解间隔、核函数(先线性核,再RBF)

2.2 无监督学习

  • 聚类
    • K-Means:肘部法则、轮廓系数
    • 层次聚类、DBSCAN(了解适用场景)
  • 降维
    • PCA(主成分分析):理解方差最大化、特征向量
    • t-SNE / UMAP(仅用于可视化,不用于预处理)

2.3 模型评估与选择

  • 训练集/验证集/测试集划分(留出法、交叉验证)
  • 评估指标:
    • 分类:准确率、精确率、召回率、F1、ROC曲线、AUC
    • 回归:MSE, MAE, R2
  • 偏差-方差权衡
  • 超参数调优:网格搜索(GridSearchCV)、随机搜索
  • 特征工程:
    • 缺失值处理(均值/中位数填充、模型预测填充)
    • 编码分类变量(One-Hot, Label Encoding)
    • 特征缩放(标准化、归一化)
    • 特征选择(过滤法、包裹法、嵌入法)

2.4 工具使用

  • scikit-learn:统一API(fit, predict, transform, fit_transform)
  • Pipeline(流水线)防止数据泄露
  • 保存与加载模型(joblib, pickle)

实践项目

  1. 用逻辑回归/随机森林预测Titanic生存(Kaggle入门)。
  2. 用K-Means对用户进行分群(电商数据)。
  3. 用PCA对高维数据可视化(如手写数字数据集)。

阶段三:深度学习基础(6-8周)

目标:掌握神经网络原理,能使用PyTorch/TensorFlow搭建常见模型。

3.1 神经网络基础

  • 感知机到多层感知机(MLP)
  • 激活函数:Sigmoid, Tanh, ReLU, Leaky ReLU(优缺点及使用场景)
  • 前向传播与反向传播(手动推导一个两层网络)
  • 损失函数:MSE, 交叉熵, 二元交叉熵
  • 优化器:SGD + Momentum, Adam, RMSprop(理解动量、自适应学习率)
  • 权重初始化(Xavier, He初始化)
  • 过拟合控制:
    • 正则化(L1, L2)
    • Dropout(训练和测试时行为不同)
    • 早停(Early Stopping)
    • 批归一化(BatchNorm — 理解作用:加速收敛、稳定训练)

3.2 深度学习框架(选一个,推荐PyTorch)

  • PyTorch核心
    • Tensor创建与运算(与NumPy对比)
    • 自动求导(autograd)机制
    • nn.Module定义网络
    • 数据加载:Dataset, DataLoader
    • 训练循环模板(forward → loss → backward → optimizer.step → zero_grad)
    • 模型保存与加载(state_dict)
    • GPU加速(.to(device))
  • TensorFlow/Keras(可选对比):
    • Sequential API与函数式API
    • callbacks(ModelCheckpoint, EarlyStopping)

3.3 卷积神经网络(CNN)—— 图像领域

  • 卷积层(卷积核、步长、填充、输出尺寸计算)
  • 池化层(MaxPool, AvgPool)
  • 经典CNN架构:
    • LeNet-5
    • AlexNet(ReLU, Dropout, 数据增强)
    • VGG(小卷积核堆叠)
    • ResNet(残差连接 — 解决梯度消失)
    • 轻量网络:MobileNet(深度可分离卷积)
  • 数据增强(旋转、裁剪、翻转、色彩抖动)
  • 迁移学习(用预训练模型微调,如ResNet50 on ImageNet)

3.4 循环神经网络(RNN)—— 序列领域

  • RNN原理(循环单元、梯度消失/爆炸)
  • LSTM(门控机制:遗忘门、输入门、输出门)
  • GRU(简化版LSTM)
  • 双向RNN
  • 应用:文本分类、时间序列预测、序列标注

3.5 训练技巧

  • 学习率调度(StepLR, ReduceLROnPlateau, CosineAnnealing)
  • 梯度裁剪(Gradient Clipping — 防梯度爆炸)
  • 混合精度训练(AMP — 节省显存)
  • 使用TensorBoard(或wandb)可视化训练曲线

实践项目

  1. 用MLP在MNIST上手写数字分类(入门“Hello World”)。
  2. 用CNN在CIFAR-10上图像分类(达到80%+准确率)。
  3. 用LSTM做文本情感分类(IMDB影评)。
  4. 迁移学习:用预训练ResNet50训练自己的猫狗分类器。

阶段四:进阶方向(根据兴趣选择,8-12周)

目标:深入某一领域,掌握该领域的主流模型与实战技巧。

4.1 计算机视觉(CV)

  • 目标检测
    • 两阶段:R-CNN系列(Fast R-CNN, Faster R-CNN — 理解RPN)
    • 单阶段:YOLO(v3~v8,理解网格、Anchor Box、损失函数)、SSD
  • 图像分割
    • 语义分割:FCN, U-Net(医学图像常用), DeepLab
    • 实例分割:Mask R-CNN
  • 生成模型
    • 自编码器(AE)、变分自编码器(VAE)
    • GAN(生成对抗网络):DCGAN, CycleGAN(风格迁移), StyleGAN
    • 扩散模型(Diffusion Models):DDPM基础原理(文本生成图像基础)
  • 人脸识别(FaceNet, ArcFace)
  • 常用库:OpenCV(图像处理),Albumentations(增强)

4.2 自然语言处理(NLP)

  • 文本预处理(分词、词干提取、词形还原)
  • 词嵌入:Word2Vec(CBOW, Skip-gram), GloVe
  • 序列到序列模型(Seq2Seq) + Attention机制(Bahdanau, Luong)
  • Transformer架构(彻底理解):自注意力、多头注意力、位置编码、前馈网络、LayerNorm、残差连接
  • BERT及其变体(RoBERTa, ALBERT, DistilBERT)—— 理解预训练+微调范式
  • GPT系列(生成式预训练):自回归生成、因果掩码
  • 文本生成:Beam Search, Top-K, Top-p采样
  • 命名实体识别(NER)、关系抽取
  • 常用库:Hugging Face Transformers(加载模型、分词器、微调),spaCy, NLTK

4.3 结构化数据与推荐系统

  • 树模型进阶:XGBoost, LightGBM, CatBoost(工业界结构化数据首选)
  • 特征交叉(FM, FFM, DeepFM)
  • 推荐召回:协同过滤(UserCF, ItemCF)、矩阵分解(SVD)、双塔模型(DSSM)
  • 推荐排序:Wide & Deep, DeepFM, DIN(注意力机制)
  • 多任务学习(MMoE, ESMM)
  • 评估指标:Hit Rate, NDCG, MAP

4.4 语音处理(可选)

  • 语音特征提取:MFCC, Spectrogram, Mel-spectrogram
  • 语音识别:RNN-T, LAS, 基于Transformer的模型(Whisper)
  • 语音合成:Tacotron2, WaveGlow, VITS

阶段五:模型部署与工程化(4-6周)

目标:将训练好的模型变成可用的API或应用。

  • 模型格式转换
    • ONNX(跨框架交换)
    • TorchScript(PyTorch生产部署)
    • TensorRT(NVIDIA GPU加速)
  • 推理优化
    • 量化(INT8, FP16)
    • 剪枝(Pruning)
    • 知识蒸馏(Knowledge Distillation — 大模型教小模型)
  • 部署方式
    • Web服务:Flask/FastAPI包装模型 → Docker容器化
    • 边缘设备:TensorFlow Lite / PyTorch Mobile(手机端),ONNX Runtime(CPU/GPU)
    • 批处理:用Celery + Redis做异步推理
    • Serverless:AWS Lambda / Google Cloud Functions(轻量推理)
  • 监控与维护
    • 模型版本管理(DVC, MLflow)
    • 数据漂移检测(监测输入分布变化)
    • 日志记录(请求响应时间、错误率)

实践项目

  1. 用FastAPI部署一个图像分类模型,提供REST API,并用Docker打包。
  2. 将PyTorch模型转为ONNX,并用ONNX Runtime加速推理。
  3. 在手机(Android/iOS)上跑通一个TensorFlow Lite图像分类demo。

阶段六:大语言模型(LLM)与应用(8-10周)—— 当前热点

目标:理解大模型原理,能调用、微调、搭建RAG应用。

6.1 大模型基础

  • 规模法则(Scaling Laws):模型大小、数据量、计算量的关系
  • 涌现能力(Emergent Abilities)
  • 分布式训练基础:
    • 数据并行(Data Parallel)、模型并行(Model Parallel)、流水线并行(Pipeline Parallel)
    • ZeRO优化器(DeepSpeed)
    • 混合精度训练(FP16/BF16)

6.2 大模型架构

  • 仅编码器(BERT类) vs 仅解码器(GPT类) vs 编码器-解码器(T5)
  • 注意力机制优化:
    • 稀疏注意力(Sparse Attention)
    • Flash Attention(IO感知优化)
    • 线性注意力(Linear Attention)
  • 位置编码进阶:RoPE(旋转位置编码), ALiBi

6.3 高效微调(PEFT)

  • LoRA(低秩适配)—— 最常用
  • QLoRA(量化+LoRA,单卡微调)
  • Prefix Tuning, P-Tuning v2
  • Adapter

6.4 对齐与RLHF

  • 指令微调(Supervised Fine-Tuning, SFT)
  • 奖励模型(Reward Modeling)
  • 强化学习(PPO, DPO — Direct Preference Optimization)
  • 人类反馈(RLHF)流程

6.5 推理优化

  • 量化:GPTQ, AWQ, GGUF(llama.cpp)
  • KV Cache
  • 投机解码(Speculative Decoding)
  • vLLM(PagedAttention)高吞吐推理

6.6 应用开发

  • 提示工程:零样本、少样本、Chain-of-Thought(CoT)、Tree-of-Thoughts(ToT)
  • RAG(检索增强生成)
    • 向量数据库(Chroma, FAISS, Qdrant, Pinecone)
    • 文档分块策略、Embedding模型选择(BGE, OpenAI ada)
    • 重排序(Reranking)
    • 多模态RAG(文本+图片)
  • Agent(智能体)
    • ReAct模式(Reason + Act)
    • 工具调用(Function Calling)
    • LangChain / LlamaIndex框架
    • 自主Agent(AutoGPT, BabyAGI概念)
  • 评估:BLEU, ROUGE, BERTScore, GPT-4作为评判者

实践项目

  1. 用LoRA微调一个中文LLaMA/ChatGLM模型,完成特定任务(如问答、文案生成)。
  2. 搭建一个RAG系统:上传PDF文档,通过自然语言查询回答文档内容。
  3. 用LangChain创建一个能调用搜索API和计算器的Agent。
  4. 在消费级GPU(如RTX 3090/4090)上部署量化版LLaMA 3 / Qwen 2.5并测试推理速度。

阶段七:MLOps与工程落地(4-6周)

目标:掌握生产环境下的机器学习流水线。

  • 实验追踪:MLflow, Weights & Biases
  • 数据版本控制:DVC(Data Version Control)
  • 工作流编排:Airflow, Kubeflow, Prefect
  • 模型注册表与模型服务:MLflow Model Registry, Seldon Core
  • CI/CD for ML:GitHub Actions + 自动训练/测试/部署
  • 特征存储(Feature Store):Feast, Hopsworks
  • 监控:Prometheus + Grafana(指标),Evidently(数据漂移)

实践项目:搭建一个完整的ML流水线:Git push → 自动训练 → 评估 → 若指标提升则部署到staging → 手动确认后部署到生产。


阶段八:软技能与持续学习(贯穿全程)

  • 阅读论文:从经典开始(AlexNet, ResNet, Attention is All You Need, BERT, GPT-3),使用arXiv, Papers with Code
  • 英语能力:能阅读英文文档、论文标题和摘要
  • Kaggle实战:参与比赛,学习高分notebook
  • 开源贡献:给transformers, langchain等库提issue/pr
  • 社区参与:关注Hugging Face, GitHub Trending, 相关博客(Distill, Lilian Weng)
  • 数学补强:按需深入学习线性代数/概率论(如需要做研究)

学习建议

  1. 不要跳跃:阶段一和阶段二跳不过去,否则后面寸步难行。
  2. 动手远大于看:每个知识点都要写代码验证。
  3. 先模仿后创造:跑通别人的代码 → 修改参数看效果 → 自己从零写。
  4. 聚焦一个框架:建议PyTorch(学术界+工业界主流)。
  5. 善用GPU:Colab免费GPU足够前中期学习。
  6. 遇到bug是常态:学会搜索错误信息(Stack Overflow, GitHub Issues)。
  7. 项目驱动:每学完一个阶段,做一个综合项目,把知识串起来。
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐