YOLOV7 DP可以,但是DDP老是报错怎么办?
·
最近使用多卡训练YOLOV7,一开始使用的是DP,可以正常训练,但是看到使用DDP可以加速训练,果断使用,但是总报错,之前YOLOV5使用没问题,所以就照着YOLOv5改了改,断断续续改了俩天终于成功了!!!
话不多说,直接上代码:
train.py 最前面加上
LOCAL_RANK = int(os.getenv('LOCAL_RANK', -1)) # https://pytorch.org/docs/stable/elastic/run.html
RANK = int(os.getenv('RANK', -1))
WORLD_SIZE = int(os.getenv('WORLD_SIZE', 1))
在main函数有如下改动
# Set DDP variables
# opt.world_size = int(os.environ['WORLD_SIZE']) if 'WORLD_SIZE' in os.environ else 1
# opt.global_rank = int(os.environ['RANK']) if 'RANK' in os.environ else -1
opt.global_rank = RANK
opt.local_rank = LOCAL_RANK
opt.world_size = WORLD_SIZE
我觉得主要原因在于opt.local_rank=int(os.getenv(‘RANK’, -1))这一行!!!
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)