目标检测笔记1

想七想八不如11408

352人浏览 · 2026-05-18 22:26:28

想七想八不如11408 · 2026-05-18 22:26:28 发布

机器学习基础概念

回归算法，就是让机器在多维空间中，找到一个连续的数学函数 $f (x)$ ，使得输入 $x$ 经过映射后，输出的 $y$ 能够无限逼近真实的世界数值。
在训练阶段，模型首先通过前向传播计算预测输出，并评估与真实标签之间的损失 (Loss)；随后，利用反向传播算法计算网络各层参数的梯度；最后，由优化器 (如 Adam 或 SGD) 根据梯度信息对网络权重进行参数更新，以此实现模型的不断迭代与收敛。

两阶段检测器

第一阶段：找候选区域
第二阶段：判断类别 + 修正框
先生成一批候选框，再对候选框进行分类和回归。

R-CNN

输入图像
→ Selective Search 生成约 2000 个候选区域 RoI
→ 把每个 RoI（Region of Interest，候选区域）裁剪/拉伸成固定大小
→ 每个 RoI 单独送入 CNN 提特征
→ SVM 分类
→ bbox regression 修正框

Fast R-CNN：先整图卷积，再裁 RoI

输入图像
→ 整张图过 CNN，得到 feature map
→ 把 proposals（selective search来找）映射到 feature map 上
→ 对每个 RoI 做 RoI Pooling（把不同大小的 RoI 特征变成固定大小）
→ 分类 + bbox regression

Faster R-CNN：让 CNN 自己生成 proposals

输入图像
→ backbone CNN 提取 feature map
→ RPN（Region Proposal Network，区域候选网络）在 feature map 上生成 proposals
→ RoI Pooling / RoI Align（RoI Align 额外解决 RoI Pooling 的量化错位问题，彻底打通了特征图与原图之间的像素级精确映射，产生了Mask R-CNN）
→ 分类 + bbox regression
→ 最终检测结果

单阶段检测器

在特征图上密集预测 bbox + confidence + class，没有单独的 proposal 阶段。
单阶段检测器不是完全没有候选框，而是没有 Faster R-CNN 那种“先 RPN 生成 proposal，再 RoI Head 二次处理”的独立阶段。它直接在 feature map 上密集预测框、类别和置信度。
直接预测最终候选框、类别、置信度