已解决：RuntimeError: CUDA error: out of memory

小天冲冲冲

35270人浏览 · 2021-09-26 15:07:06

小天冲冲冲 · 2021-09-26 15:07:06 发布

1. 检查是否使用了合适版本的torch

print(torch.__version__)  # 1.9.1+cu111
print(torch.version.cuda)  # 11.1
print(torch.backends.cudnn.version())  # 8005
print(torch.cuda.current_device())  # 0
print(torch.cuda.is_available())  # TRUE

2.检查是否显存不足，尝试修改训练的batch size，修改到最小依旧无法解决，然后使用如下命令实时监控显存占用情况

watch -n 0.5 nvidia-smi

未调用程序时，显存占用的情况为

因此问题在于：程序指定了使用四块GPU，调用前面两块资源的时候是没有问题的，但是第三块被其他小伙伴的程序占用，因此报错。

3. 指定使用的GPU

os.environ['CUDA_VISIBLE_DEVICES'] = "0, 1, 3"
device = torch.device("cuda:0" if torch.cuda.is_available() and not args.no_cuda else "cpu")  # cuda 指定使用GPU设备
model = torch.nn.DataParallel(model, device_ids=[0, 1, 3])  # 指定多GPU并行处理时使用的设备编号

这样就愉快的跑起来了

如果此时需要同时利用剩下的一块的GPU，可以使用如下代码：

os.environ['CUDA_VISIBLE_DEVICES'] = "2"
device = torch.device("cuda:2" if torch.cuda.is_available() and not args.no_cuda else "cpu")  # cuda 指定使用GPU设备
model = torch.nn.DataParallel(model, device_ids=[2])  # 指定多GPU并行处理时使用的设备编号

最近发现一个更方便的GPU使用的方法，如果遇上多个脚本需要同时使用GPU跑，可以按照下面的方式使用，在python前面添加指定的GPU编号。

CUDA_VISIBLE_DEVICES=1 python script1.py 
CUDA_VISIBLE_DEVICES=2 python script2.py

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

[转载]在Windows环境下安装GNU Radio

转自：在Windows环境下安装GNURadio_恐弱智_新浪博客GNU Radio是用Python开发的，大部分开源的工程能够在Linux环境下运行良好，而Windows下却运行的很勉强，而且安装配置都很复杂。GNU Radio算是个例外了，不光提供了Windows的二进制安装，还有比较详细的说明。我是Python小白，所以折腾了好久才弄好，特意记录下来，免得以后再装还折腾。GNU Radio的