＜图像分类学习笔记P2＞——《图像分类》

新晓·故知

378人浏览 · 2026-04-02 00:56:33

新晓·故知 · 2026-04-02 00:56:33 发布

文章目录

一、图像分类基础
- 1.图像分类理论和实践介绍
- 2.图像分类基础基本概念
- 3.经典数据集
- 4.评估指标
- 5.优化目标
二、多类别图像分类
- 1.基本概念
- - 1.1深度学习图像分类思想
  - - .2深度学习模型的基本概念
- 2.多类别图像分类经典模型
- - 2.1LeNets系列诞生
  - 2.2 AlexNets
- 3.多类别分类的主要难题
三、人脸表情识别实践
- 1 .任务——表情识别
- 2.数据处理与读取
- 3 .模型搭建与训练
- - 3.1网络搭建
- 4.模型测试
四、Pytorch简单图像分类数据增强实践
- 1.Pytorch数据增强接口
- - 1.1数据增强问题
  - 1.2数据预处理与增强接口：
- 2.Pytorch数据增强实践
- - - 2.1数据集与代码
五、细粒度图像分类
- 1.细粒度图像分类问题
六、鸟类细粒度分类模型实战
- 1.项目简介
- - 1.1数据集
  - 1.2 模型
- 2.数据处理与读取
- - 2.1数据换分
  - 2.2数据读取代码
- 3.模型的搭建与训练
七、多标签图像分类
- 1.多标签图像分类问题
- - 1.1什么是多标签图像分类
  - 1.2多标签分类常见评估指标
八、多标签图像分类实战
- 1.多标签分类简介
- 2.多标签分类经典算法简介
- 3.基于Pytorch的生活用品多标签分类实战
- - 3.1数据集介绍
  - 3.2构建标签
九、半监督和无监督图像分类问题
- 1.半监督和无监督分类问题
- - 1.1图像分类标注
  - 1.2图像分类模型
十、零样本分类问题
- 1.零样本分类问题

一、图像分类基础

1.图像分类理论和实践介绍

在这里插入图片描述
图像分类应用及实战：

图像分类理论思维导图：

2.图像分类基础基本概念

2.1图像分类是什么

在这里插入图片描述

2.2图像分类的应用场景

在这里插入图片描述

2.3具体领域划分

在这里插入图片描述
根据粒度不同分为三层境界（与上面的领域划分略有不同）：

2.4传统图像分类关键问题

在这里插入图片描述

2.5传统图像分类VS深度学习图像分类

在这里插入图片描述

3.经典数据集

3.1常用的图像分类数据集

在这里插入图片描述

3.2经典数据集——“Hello World“

在这里插入图片描述

3.3经典数据集——CIFAR10

在这里插入图片描述

3.4经典数据集——CIFAR100

在这里插入图片描述

3.5经典数据集——PASCAL

在这里插入图片描述

3.6分类数据集——ImageNet

在这里插入图片描述

4.评估指标

4.1分类任务评估指标

在这里插入图片描述

4.2正负样本

以二分类样本为例：分为四个基本指标
在这里插入图片描述

4.3精度与召回率

在这里插入图片描述

4.4PR曲线

在这里插入图片描述
随着召回率增加，会将更多的样本归类为正样本，可能会产生误判，因此精度会逐渐下降。围成的面积越大，说明这个模型的性能越好！但是PR曲线对正负样本不均衡问题敏感，当正负样本数据类别差距较大，PR曲线差距变化的很厉害！

4.5ROC曲线与AUC

在这里插入图片描述

4.6混淆矩阵

在这里插入图片描述

5.优化目标

5.1分类任务优化目标

在这里插入图片描述

5.2 0-1损失

在这里插入图片描述
离散的，无法求导和优化（反向传播）。一般会将0-1损失转化为精度，因为1—损失=精度

5.3熵与交叉熵(cross entropy)

在这里插入图片描述
（物理学概念引入到信息学，跨学科交互！NB）

5.4 softmax loss

在这里插入图片描述
softmax loss的理解：

当对W,x进行优化之后，这两个参数都为常数，那么对于这个概率的优化就相当于对夹角θ的优化。所以不同的夹角就区分了不同的类！
在这里插入图片描述

softmax loss的优化：

5.5 KL散度

在这里插入图片描述

二、多类别图像分类

1.基本概念

在这里插入图片描述

1.1深度学习图像分类思想

在这里插入图片描述

.2深度学习模型的基本概念

网络的深度：
在这里插入图片描述
网络的宽度：

2.多类别图像分类经典模型

2.1LeNets系列诞生

在这里插入图片描述
LeNet1网络太小了，后续作者们对其加深，加宽诞生了LeNet5等

LeNets5:真正用于商业化的模型

LeNets5工程技巧：

2.2 AlexNets

在这里插入图片描述

AlexNet工程技巧：AlexNet网络结构和LeNet网络结构相比并没有太多创新设计，而是使用了许多工程技巧使得这个模型更加出色！

因为当时的GPU性能限制，使用两个GPU，对其进行分组且各组之间也有联系！
在这里插入图片描述

3.多类别分类的主要难题

3.1类别不平衡问题

在这里插入图片描述
例如：边缘检测问题，边缘像素（少量）和非边缘像素。

3.1.1类别不平衡的解决方案：

在这里插入图片描述
1.提升样本法：

操作方法：

2.两阶段( two-phase )训练法：

3.优化目标设计：

3.2样本过少问题

在这里插入图片描述

3.2.1样本量过少的解决方案

在这里插入图片描述

三、人脸表情识别实践

（从头开始准备数据与网络）
在这里插入图片描述

1 .任务——表情识别

在这里插入图片描述
本实践项目所经历的一个完整的工业级项目流程：

框架也有tensorflow等。

2.数据处理与读取

2.1数据获取的常见方法

在这里插入图片描述
例如：
人脸表情识别开源数据集：

爬虫获取：

https://github.com/sczhengyabin/lmage-Downloader 爬虫脚本
https://magi.com/ 基于机器学习的搜索引擎

2.1.1数据预处理——归一化：

命名规范统一等。
在这里插入图片描述
将获取的数据进行整理、数据清洗等。

2.1.2数据预处理——人脸检测：

在这里插入图片描述

2.3完整的数据集大小

在这里插入图片描述
按照9:1划分

2.3.1数据读取

在这里插入图片描述

2.3.2数据预处理与增强

在这里插入图片描述

2.3.3数据封装

在这里插入图片描述

3 .模型搭建与训练

3.1网络搭建

在这里插入图片描述

4.模型测试

在这里插入图片描述

四、Pytorch简单图像分类数据增强实践

在这里插入图片描述

1.Pytorch数据增强接口

在这里插入图片描述

1.1数据增强问题

在这里插入图片描述

1.2数据预处理与增强接口：

在这里插入图片描述

2.Pytorch数据增强实践

2.1数据集与代码

在这里插入图片描述
无数据增强：

裁剪和翻转数据增强：

裁剪与翻转、旋转数据增强：

裁剪与翻转、旋转、颜色数据增强：

总结：

五、细粒度图像分类

在这里插入图片描述

1.细粒度图像分类问题

1.1细粒度图像分类特点

在这里插入图片描述

1.2细粒度图像分类数据集

在这里插入图片描述

1.3细粒度图像分类竞赛

在这里插入图片描述

1.4细粒度图像分类模型分类

在这里插入图片描述

六、鸟类细粒度分类模型实战

在这里插入图片描述

1.项目简介

1.1数据集

在这里插入图片描述

1.2 模型

在这里插入图片描述

2.数据处理与读取

2.1数据换分

在这里插入图片描述

2.2数据读取代码

在这里插入图片描述

3.模型的搭建与训练

3.1双线性模型搭建

在这里插入图片描述

3.2基准模型搭建

在这里插入图片描述

3.3训练结果

在这里插入图片描述

七、多标签图像分类

在这里插入图片描述

1.多标签图像分类问题

1.1什么是多标签图像分类

在这里插入图片描述

1.2多标签分类常见评估指标

在这里插入图片描述

八、多标签图像分类实战

在这里插入图片描述

1.多标签分类简介

在这里插入图片描述
面临的挑战与难点：

2.多标签分类经典算法简介

经典网络结构及算法：
在这里插入图片描述

这个论文有争议，可以尝试看看survey、ML-GCN。

3.基于Pytorch的生活用品多标签分类实战

3.1数据集介绍

在这里插入图片描述

3.2构建标签

在这里插入图片描述

九、半监督和无监督图像分类问题

在这里插入图片描述

1.半监督和无监督分类问题

1.1图像分类标注

在这里插入图片描述

1.2图像分类模型

在这里插入图片描述

十、零样本分类问题

在这里插入图片描述

1.零样本分类问题

1.1什么是单/少样本分类

在这里插入图片描述

1.2什么事零样本分类

在这里插入图片描述
拓展学习能力！

1.3零样本图像分类技术演变

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

cover

别再把护网当打游戏！2026护网行动全攻略，从小白到蓝队老手实战干货

AtomGit开源社区

cover

企业级解决方案九-商品图片自动检索与自动上架

AtomGit开源社区

我如何用Python搭建GEO监控系统：黄小宇的大模型可见度实验

我叫黄小宇，过去主要从事市场运营、渠道赋能、用户增长和数字化营销工作。最近我开始搭建一个GEO监控系统，用于测试国内大模型对个人、品牌和公开内容源的识别、提及和引用偏好。GEO，即Generative Engine Optimization，可以理解为生成式引擎优化或大模型可见度优化。随着DeepSeek、Kimi、通义千问、豆包、文心一言等大模型成为新的信息入口，用户获取信息的方式正在改变。这意

AtomGit开源社区

所有评论(0)

查看更多评论

新晓·故知

已为社区贡献1条内容