下面这段为知乎上的解释

为什么使用相同的网络结构,跑出来的效果完全不同,用的学习率,迭代次数,batch size 都是一样?固定随机数种子是非常重要的。但是如果你使用的是PyTorch等框架,还要看一下框架的种子是否固定了。还有,如果你用了cuda,别忘了cuda的随机数种子。这里还需要用到torch.backends.cudnn.deterministic.

torch.backends.cudnn.deterministic是啥?顾名思义,将这个 flag 置为True的话,每次返回的卷积算法将是确定的,即默认算法。如果配合上设置 Torch 的随机种子为固定值的话,应该可以保证每次运行网络的时候相同输入的输出是固定的

但是,如何理解:“每次返回的卷积算法将是确定的”?第一行设置的那些不是就够了吗

区别在于:使用cpu时不需要设置,使用gpu时需要设置

  • 在cpu中,我们只需要保证:

    • 所有参数的初始化相同
    • 学习率、迭代次数、batch size相同

    那么,参数的更新都是由梯度计算得到的,快慢、次数都相同,所以最后得到的模型的参数也相同,输出结果就相同。

  • 而当使用gpu训练模型时,可能引入额外的随机源,使得结果不能准确再现(gpu提供了多核并行计算的基础结构)

总结

所以我们在进行深度学习实验时,为了能够使得结果可复现,我们需要固定随机源,可以采用设置随机数字生成器的种子

myseed = 42069  # set a random seed for reproducibility
torch.backends.cudnn.deterministic = True
np.random.seed(myseed)
torch.manual_seed(myseed)
if torch.cuda.is_available():
    torch.cuda.manual_seed_all(myseed)
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐