第4节.分类任务

wingfish_

342人浏览 · 2026-03-30 22:24:55

wingfish_ · 2026-03-30 22:24:55 发布

一、机器学习回顾和展望

1、nn.Linear

把向量/矩阵从A维度转为B维度

2、卷积

见下文

二、分类

现实中很多问题并不是预测问题，是分类问题，如：判断一封邮件是否是垃圾邮件，根据两个人的样貌判断是否为直系亲属，判断图片里是人、狗、还是猫，下围棋等

回归是要预测一个值、模拟已有的数据分布、根据新的x得到新的y，分类是要找到一个分界线、把2个类别分割开来

1、分类的输出

与回归不同，分类的输出为了让不同类别等价，不能采用回归到一个值的方式来进行输出

一般采用的是，独热编码。y^表示标签、真实值，y’表示预测值，用元素1所在的位置表示

最大值所在的下标为预测类，输出其角标即可知道是哪一类

2、分类的输入

用一个图像分类任务做例子

以下例子：输入一张图片，判断是猫还是狗

按照概率分布来理解这个，是狗的概率是0.2，是猫的概率为0.7，是树的概率是0.1

求2个概率分布之间的Loss不能用之前的mae，要用交叉项损失

将三通道的拉直，3个拼接在一起，成为一个向量，作为输入

3、卷积神经网络

不需要对比整张图，只需要关注到小的特征图。越像，值越大。用和卷积核相同的大小去一个个算原始图片中的每一部分，直到全部“卷”完

（1）每次卷积都减小了特征图尺寸，如何保持尺寸不变

zero padding是补0，padding1表示补1圈0，padding2表示补2圈0

（2）更大的卷积核和更多的卷积层数可以带来什么

（3）原始特征图和新特征图，与卷积核的深度有什么关系

原始特征图和卷积核的深度/厚度要保持一致，

新特征图的厚度与卷积核数量是保持一致的。而新特征图的大小受原特征图大小、padding层数、卷积核大小3个条件的影响。

（4）一个卷积层是什么，卷积核的参数量怎么计算

以下为例题，卷积核大小为2表示2*2，3就表示3*3

公式：输入特征图大小=输入特征图大小-卷积核大小+1，

参数量=卷积核大小的维度次方

答案：

①3*3，4（用2*2计算）

②2*2

③4*4（padding加了一圈0变成6*6）

④98*98（3个一卷，3个一卷，1-98都可以卷，到99就不能卷了）

⑤100*100（padding1以后变成了102*102，减二后同上）

⑥2*2（8-7+1），49

⑦94*94（100-7+1）

①3

②224*224（228-5+1）

③3*3*3，27（3是指通道长，padding1后是3*6*6；卷出来的特征图和之前特征图相同4*4，所以卷积核大小是3*3，厚度上和输入特征图保持一致是3，因此卷积核是3*3*3，参数量3^3=27）

④7*4*4（padding后特征图3*6*6，卷积核3*3，卷出来特征图大小应该是4*4。每一个卷积核都可以卷出来一张特征图，一个特征图对应一个卷积核，卷出来是7*4*4特征图）

⑤64*224*224（padding后特征图3*226*226，226-3+1=224，卷出来特征图64*224*224）

⑥128*224*224，73728（padding后特征图64*226*226，226-3+1=224，卷了以后特征图大小是224*224，厚度与卷积核数量保持一致，所以卷了以后特征图是128*224*224。这套卷积核参数量=卷积核数量*每个卷积核的参数量=128*64*3*3=73728）

（5）特征图大小一直不变，不论怎么卷参数展平后都需要大量参数，怎样让特征图变小

依次卷积每次减少2可行吗，不太可行。卷积神经网络常用的方法是subsampling降采量，比如隔一个像素点取一个，200*100→100*50。有以下2种方法：

a.扩大步长

b.依靠pooling：池化

a.卷积步长

有时候卷积不是一个格子一个格子来的，会有一个步长记录跳过的部分

b.pooling：池化

直接减少。有2种方法：

最大池化与平均池化

应用的时候我们很少用平均池化，最大池化用的多一点，一般会选择最显著的那一个点，不用做计算。人眼也只会看到最显著的那个点

一般一次卷积搭配一次pooling池化来进行

（6）最初的目的--怎么通过卷积卷出来一个类别呢

卷到一定程度拉直，经过一个全连接

4、分类的LOSS

让输出也变成概率分布

通过softmax函数，将其转化为整齐的概率分布

2个分布之间的LOSS，可以根据交叉熵损失（以下博客中有关于交叉熵损失的详细介绍）

https://blog.csdn.net/YI_SHU_JIA/article/details/121610828?spm=1001.2014.3001.5502

5、需要大量的、带标签的图片作为数据集

大佬们整理的经典数据集：

其中手写数字被很多人说已经被考研复试老师看烂了……是一个很基础的数据集；

coco数据集除了有标签，还有对图片的描述

三、模型的历史和发展

复试老师经常会问你对于一个领域的了解，包括它的发展历史

the state of the art，最先进模型

1998-2012，由于显卡的发明，显著准确率提升，推动了神经网络的发展

TOP5准确率是指，给5个类别，只要有1个对就对。相当于神经网络的骗局

梯度太长了很多个数相乘，会产生梯度趋于0（消失）或非常大（爆炸）的现象

1×1卷积可以实现降维

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

魔音漫创源码解析：扩展指南：如何在 moyin-creator 中接入自定义 AI 大模型供应商？

本文介绍了如何为开源AI影视生产工具魔音漫创(MoyinCreator)接入自定义AI大模型的方法。主要内容包括：1)分析核心架构，指出AI调用通过适配器模式实现；2)详细步骤：定义供应商类型、编写Provider适配器、注册工厂类、配置前端界面；3)测试验证方法。该方案采用模块化设计，支持灵活接入不同AI模型，不仅适用于大语言模型，也可扩展至图像和视频生成接口。文章还提供了流式传输优化等实用建议

AtomGit开源社区

把 BAPI 里的校验能力接进 RAP，Validation、Simulation Mode 与消息回传的完整落地思路

AtomGit开源社区

基于 API 的商品类目自动分类：NLP + 规则引擎的混合方案

电商商品类目分类面临人工效率低、规则泛化差、NLP模型不可控等痛点。本文提出API服务化架构+NLP语义模型+规则引擎的混合方案：规则引擎精准处理标准商品，NLP模型处理模糊语义，后置规则校验纠偏，通过标准化API输出统一分类结果。该方案实现毫秒级响应，支持多业务系统对接，形成分类-审核-迭代闭环，有效提升分类精度与效率，适用于跨境铺货、供应链管理等场景，解决了传统方案的泛化弱、迭代慢等问题。