mmdetection多卡训练中报警告semaphore_tracker: There appear to be 14 leaked semaphores to clean up at shutdow

JaciusCV · 2021-08-25 10:35:54 发布

最近自己写了个模型，采用mmdetection框架去训练coco数据集。由于数据集较大，单卡情况下预计需要一个月时间才能完成1x的训练。这无法容忍，于是采用多卡分布式训练。

首先，第一次由于batchsize过大，导致显存爆了。
调整batchsize后，报如下错误：

在这里插入图片描述显示有信号泄露警告，起初以为只是警告忽略就可，主要关注其中的error错误，百度这个错误，网上并没有关于这个问题的解答。于是关注于警告的部分，这个警告的解决方案，可以参考相关博文：
UserWarning: semaphore_tracker: There appear to be 4 leaked semaphores to clean up at shutdown