文章目录

一、图像分类基础

1.图像分类理论和实践介绍

在这里插入图片描述
图像分类应用及实战:
在这里插入图片描述
图像分类理论思维导图:
在这里插入图片描述
在这里插入图片描述

2.图像分类基础基本概念

2.1图像分类是什么

在这里插入图片描述

2.2图像分类的应用场景

在这里插入图片描述

2.3具体领域划分

在这里插入图片描述
根据粒度不同分为三层境界(与上面的领域划分略有不同):
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.4传统图像分类关键问题

在这里插入图片描述

2.5传统图像分类VS深度学习图像分类

在这里插入图片描述

3.经典数据集

3.1常用的图像分类数据集

在这里插入图片描述

3.2经典数据集——“Hello World“

在这里插入图片描述

3.3经典数据集——CIFAR10

在这里插入图片描述
在这里插入图片描述

3.4经典数据集——CIFAR100

在这里插入图片描述
在这里插入图片描述

3.5经典数据集——PASCAL

在这里插入图片描述

3.6分类数据集——ImageNet

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.评估指标

4.1分类任务评估指标

在这里插入图片描述

4.2正负样本

以二分类样本为例:分为四个基本指标
在这里插入图片描述

4.3精度与召回率

在这里插入图片描述

4.4PR曲线

在这里插入图片描述
随着召回率增加,会将更多的样本归类为正样本,可能会产生误判,因此精度会逐渐下降。围成的面积越大,说明这个模型的性能越好!但是PR曲线对正负样本不均衡问题敏感,当正负样本数据类别差距较大,PR曲线差距变化的很厉害!

4.5ROC曲线与AUC

在这里插入图片描述
在这里插入图片描述

4.6混淆矩阵

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5.优化目标

5.1分类任务优化目标

在这里插入图片描述

5.2 0-1损失

在这里插入图片描述
离散的,无法求导和优化(反向传播)。一般会将0-1损失转化为精度,因为1—损失=精度

5.3熵与交叉熵(cross entropy)

在这里插入图片描述
(物理学概念引入到信息学,跨学科交互!NB)
在这里插入图片描述

5.4 softmax loss

在这里插入图片描述
softmax loss的理解:

当对W,x进行优化之后,这两个参数都为常数,那么对于这个概率的优化就相当于对夹角θ的优化。所以不同的夹角就区分了不同的类!
在这里插入图片描述
在这里插入图片描述
softmax loss的优化:
在这里插入图片描述

5.5 KL散度

在这里插入图片描述
在这里插入图片描述

二、多类别图像分类

1.基本概念

在这里插入图片描述

1.1深度学习图像分类思想

在这里插入图片描述
在这里插入图片描述

.2深度学习模型的基本概念

网络的深度:
在这里插入图片描述
网络的宽度:
在这里插入图片描述

2.多类别图像分类经典模型

2.1LeNets系列诞生

在这里插入图片描述
LeNet1网络太小了,后续作者们对其加深,加宽诞生了LeNet5等
在这里插入图片描述
LeNets5:真正用于商业化的模型
在这里插入图片描述
在这里插入图片描述
LeNets5工程技巧:
在这里插入图片描述
在这里插入图片描述

2.2 AlexNets

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
AlexNet工程技巧:AlexNet网络结构和LeNet网络结构相比并没有太多创新设计,而是使用了许多工程技巧使得这个模型更加出色!
在这里插入图片描述
在这里插入图片描述
因为当时的GPU性能限制,使用两个GPU,对其进行分组且各组之间也有联系!
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.多类别分类的主要难题

3.1类别不平衡问题

在这里插入图片描述
例如:边缘检测问题,边缘像素(少量)和非边缘像素。

3.1.1类别不平衡的解决方案:

在这里插入图片描述
1.提升样本法:
在这里插入图片描述
操作方法:
在这里插入图片描述
在这里插入图片描述
2.两阶段( two-phase )训练法:
在这里插入图片描述
3.优化目标设计:
在这里插入图片描述

3.2样本过少问题

在这里插入图片描述

3.2.1样本量过少的解决方案

在这里插入图片描述
在这里插入图片描述

三 、人脸表情识别实践

(从头开始准备数据与网络)
在这里插入图片描述

1 .任务——表情识别

在这里插入图片描述
本实践项目所经历的一个完整的工业级项目流程:
在这里插入图片描述
框架也有tensorflow等。

2.数据处理与读取

2.1数据获取的常见方法

在这里插入图片描述
例如:
人脸表情识别开源数据集:
在这里插入图片描述
爬虫获取:
在这里插入图片描述
https://github.com/sczhengyabin/lmage-Downloader 爬虫脚本
https://magi.com/ 基于机器学习的搜索引擎

2.1.1数据预处理——归一化:

命名规范统一等。
在这里插入图片描述
将获取的数据进行整理、数据清洗等。

2.1.2数据预处理——人脸检测:

在这里插入图片描述

2.3完整的数据集大小

在这里插入图片描述
按照9:1划分

2.3.1数据读取

在这里插入图片描述

2.3.2数据预处理与增强

在这里插入图片描述

2.3.3数据封装

在这里插入图片描述

3 .模型搭建与训练

3.1网络搭建

在这里插入图片描述

4.模型测试

在这里插入图片描述

四、Pytorch简单图像分类数据增强实践

在这里插入图片描述

1.Pytorch数据增强接口

在这里插入图片描述

1.1数据增强问题

在这里插入图片描述

1.2数据预处理与增强接口:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.Pytorch数据增强实践

2.1数据集与代码

在这里插入图片描述
无数据增强:
在这里插入图片描述
裁剪和翻转数据增强:
在这里插入图片描述
裁剪与翻转、旋转数据增强:
在这里插入图片描述
裁剪与翻转、旋转、颜色数据增强:
在这里插入图片描述
总结:
在这里插入图片描述

五、细粒度图像分类

在这里插入图片描述

1.细粒度图像分类问题

1.1细粒度图像分类特点

在这里插入图片描述

1.2细粒度图像分类数据集

在这里插入图片描述

1.3细粒度图像分类竞赛

在这里插入图片描述

1.4细粒度图像分类模型分类

在这里插入图片描述

六、鸟类细粒度分类模型实战

在这里插入图片描述

1.项目简介

1.1数据集

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

1.2 模型

在这里插入图片描述

2.数据处理与读取

2.1数据换分

在这里插入图片描述

2.2数据读取代码

在这里插入图片描述

3.模型的搭建与训练

3.1双线性模型搭建

在这里插入图片描述

3.2基准模型搭建

在这里插入图片描述

3.3训练结果

在这里插入图片描述

七、多标签图像分类

在这里插入图片描述

1.多标签图像分类问题

1.1什么是多标签图像分类

在这里插入图片描述

1.2多标签分类常见评估指标

在这里插入图片描述

八、多标签图像分类实战

在这里插入图片描述

1.多标签分类简介

在这里插入图片描述
面临的挑战与难点:
在这里插入图片描述

2.多标签分类经典算法简介

经典网络结构及算法:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
这个论文有争议,可以尝试看看survey、ML-GCN。
在这里插入图片描述

3.基于Pytorch的生活用品多标签分类实战

3.1数据集介绍

在这里插入图片描述

3.2构建标签

在这里插入图片描述

九、半监督和无监督图像分类问题

在这里插入图片描述

1.半监督和无监督分类问题

1.1图像分类标注

在这里插入图片描述

1.2图像分类模型

在这里插入图片描述

十、零样本分类问题

在这里插入图片描述

1.零样本分类问题

1.1什么是单/少样本分类

在这里插入图片描述

1.2什么事零样本分类

在这里插入图片描述
拓展学习能力!

1.3零样本图像分类技术演变

在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐