YOLOv5/v7 中的类别不平衡问题解决方案研究

yolov5

yolov5 - Ultralytics YOLOv8的前身，是一个用于目标检测、图像分割和图像分类任务的先进模型。

项目地址：https://gitcode.com/gh_mirrors/yo/yolov5

免费下载资源

高祥xiang

5447人浏览 · 2022-11-22 11:00:07

高祥xiang · 2022-11-22 11:00:07 发布

本文定义的类别不平衡问题：在图像分类问题中，不同类别的图像的个数不同，并且差异较大。在目标检测问题中，目标类别的个数区别较大。这都是类别不平衡问题。

原理：

当训练图像的所有 类个数不相同 时, 我们可以更改 类权重 , 即而达到更改 图像权重 的目的。然后根据图像权重重新采集数据，这在图像类别不均衡的数据下尤其重要。

使用 YOLOv5/v7 训练自己的数据集时，各类别的标签数量难免存在不平衡的问题，在训练过程中为了就减小类别不平衡问题的影响，YOLOv5/v7 中引入了 类别权重 和 图像权重 的设置。

类别权重
类别权重用于根据每个类别的统计真实框的个数，取倒数，然后做个规范化(每个值除以它们的和)，最后乘以类别数目放大下。

类别权重用于根据每个类别的统计真实框的个数，取倒数，然后做个规范化(每个值除以它们的和)，最后乘以类别数目放大下。

# 获取每个类别的权重，比如COCO 是80类，那么返回的是 shape: torch.Size([80]), 该类别的真实框越多，对应位置上的值越小。该类别的真实框越少，对应位置的值越大。
model.class_weights = labels_to_class_weights(dataset.labels, nc).to(device) * nc  # attach class weights # 注意：最后乘了 nc=80, 

def labels_to_class_weights(labels, nc=80):
	# Get class weights (inverse frequency) from training labels
	if labels[0] is None:  # no labels loaded
		return torch.Tensor()

	labels = np.concatenate(labels, 0)  # labels.shape = (866643, 5) for COCO
	classes = labels[:, 0].astype(np.int)  # labels = [class xywh]
	weights = np.bincount(classes, minlength=nc)  # occurrences per class

	# Prepend gridpoint count (for uCE training)
	# gpi = ((320 / 32 * np.array([1, 2, 4])) ** 2 * 3).sum()  # gridpoints per image
	# weights = np.hstack([gpi * len(labels)  - weights.sum() * 9, weights * 9]) ** 0.5  # prepend gridpoints to start

	weights[weights == 0] = 1  # replace empty bins with 1
	weights = 1 / weights  # number of targets per class
	weights /= weights.sum()  # normalize
	return torch.from_numpy(weights)

图像权重

在 YOLOv5/v7 train.py 中：默认是 False

parser.add_argument('--image-weights', action='store_true', help='use weighted image selection for training') # 如果需要开启，需要在模型训练时候命令行加上  --image-weights

每个 epoch 选择训练的图片是不一样的，每个图片都有个概率，

调用代码：

    # Update image weights (optional)
    if opt.image_weights:
        # Generate indices
        if rank in [-1, 0]:
            cw = model.class_weights.cpu().numpy() * (1 - maps) ** 2 / nc  # class weights # maps为80个0，所以这里是求平方再除以 80
            iw = labels_to_image_weights(dataset.labels, nc=nc, class_weights=cw)  # image weights
	     # 利用random.choices根据图像的权重选取图片，每次选取和训练集相同的图片数。# 也就意味着训练集中的图片权重大的有的可能会被选取多次，权重小的可能一次都不会被选中用于训练
            dataset.indices = random.choices(range(dataset.n), weights=iw, k=dataset.n)  # rand weighted idx
        # Broadcast if DDP
        if rank != -1:
            indices = (torch.tensor(dataset.indices) if rank == 0 else torch.zeros(dataset.n)).int()
            dist.broadcast(indices, 0)
            if rank != 0:
                dataset.indices = indices.cpu().numpy()

标签到图像权重：

def labels_to_image_weights(labels, nc=80, class_weights=np.ones(80)):
	# Produces image weights based on class_weights and image contents
	class_counts = np.array([np.bincount(x[:, 0].astype(np.int), minlength=nc) for x in labels]) # 统计每张图片中的类别个数， 如 array([0, 0, 0, 0, 1, 0, 2, 0, 1]) 2 表示该图片内有该类别的目标两个，COCO 数据集的话长度为 80
	image_weights = (class_weights.reshape(1, nc) * class_counts).sum(1) # 传入的 class_weights 乘以 类别权重，得到每张图像的权重，也就是共 图像个数 个值。 sum(1) 的意思是 按该图片内的所有某个类别的目标乘以类别权重，再求和，就得到每张图像的权重是多少，权重越大，越可能被采样到。
	# index = random.choices(range(n), weights=image_weights, k=1)  # weight image sample 
	return image_weights

参考：

https://www.cnblogs.com/xiaoheizi-12345/p/14458802.html

https://blog.csdn.net/Graceying/article/details/120288985

GitHub 加速计划 / yo / yolov5

49.42 K

16.03 K

下载

yolov5 - Ultralytics YOLOv8的前身，是一个用于目标检测、图像分割和图像分类任务的先进模型。

最近提交(Master分支：2 个月前 )

79b7336f * Update Integrations table Signed-off-by: Glenn Jocher <glenn.jocher@ultralytics.com> * Update README.md Signed-off-by: Glenn Jocher <glenn.jocher@ultralytics.com> * Update README.zh-CN.md Signed-off-by: Glenn Jocher <glenn.jocher@ultralytics.com> --------- Signed-off-by: Glenn Jocher <glenn.jocher@ultralytics.com> 27 天前

94a62456 * fix: quad training * fix: quad training in segmentation 29 天前

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

[转载]在Windows环境下安装GNU Radio

转自：在Windows环境下安装GNURadio_恐弱智_新浪博客GNU Radio是用Python开发的，大部分开源的工程能够在Linux环境下运行良好，而Windows下却运行的很勉强，而且安装配置都很复杂。GNU Radio算是个例外了，不光提供了Windows的二进制安装，还有比较详细的说明。我是Python小白，所以折腾了好久才弄好，特意记录下来，免得以后再装还折腾。GNU Radio的

GitCode 开源社区

centOS 8 使用dnf安装Docker

DNF是什么？CentOS 8使用YUM软件包管理器版本v4.0.4。现在，该版本使用DNF(已删除YUM)。DNF是软件包管理器。它会在Linux发行版上安装，执行更新并删除软件包。使用DNF安装Docker跳过具有损坏依赖性的程序包一个有效的解决方案是使您的CentOS 8系统使用以下--nobest命令安装最符合条件的版本：sudo dnf install docker...

GitCode 开源社区

定时同步数据库表(mysql+linux+crontab)

sync.sh里面的参数需要改变，ip/username/password/database/tablesync.sh#!/bin/sh# Please change the IP and password of the data source db.# Then change the table name.filename=/home/nington/db/$(date +%Y-%m