train loss和val loss结果分析（详解）

诺顿与苏菲

17398人浏览 · 2022-01-02 10:41:32

诺顿与苏菲 · 2022-01-02 10:41:32 发布

train loss 不断下降，test loss不断下降，说明网络仍在学习;

train loss 不断下降，test loss趋于不变，说明网络过拟合;

train loss 趋于不变，test loss不断下降，说明数据集有问题;

train loss 趋于不变，test loss趋于不变，说明学习遇到瓶颈，需要减小学习率或批量数目;

train loss 不断上升，test loss不断上升，说明网络结构设计不当，训练超参数设置不当，数据集经过清洗等问题。

1.trian和val结果相差很大。

我说的是如果你含有BN层的话，有些人选择把BN层去掉之后，发现trian和val相差不大了。

存在的问题：对训练集 accuracy可达0.99 loss=1e-2 -3，然而验证集 accuracy 0.5，loss 很高，试了多个初始学习率（0.1 — 0.0001）都不行

解决上述问题：采取warm up方法，对上述问题有点帮助,或者换成SN层，但是显存会增大很多。

训练resnet，由于不finetune，很容易过拟合，paper《Deep Residual Learning for Image Recognition》中对cifar10的实验用了一个trick是 warm up（热身），就是先采用小的学习率（0.01）进行训练，训练了400iterations之后将学习率调整至0.1开始正式训练。

一开始，分别用了四个初始学习率 lr=0.1; 0.01; 0.001; 0.0001; 然后每1000个iterations就降低一次lr。然而这四种初始学习率都试过之后，发现，验证集的accuracy怎么都上不去，都是0.5~0.6之间，而训练集的可以到0.99。而resnet采用了batch normalization,在caffe中，batch normalization 就有一个“坑”，就是use_global_stats 的设置问题。training时候是关闭，testing的时候是要打开，deploy也是要打开的。

对于训练集accuracy达0.99，验证集accuracy是0.5+的情况，以为是batch normalization出问题，最后试了一下warm up，网络在验证集的loss才有所下降

后续补充

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AtomGit 11 月：新一代 AtomGit 平台正式上线！

AtomGit开源社区

【实战教程】手把手教你用AI搞定毕业论文：从DeepSeek搭框架，到沁言学术“填肉”

本文提出了一套AI论文写作SOP工具链，推荐结合使用DeepSeek和沁言学术两个工具。首先利用DeepSeek强大的结构化思维生成逻辑严密的论文框架，再通过沁言学术基于真实文献进行内容填充。这种方法既能保证论文逻辑性，又能避免AI编造数据和文献的问题。具体操作分为两个阶段：1)用DeepSeek设计三级目录；2)用沁言学术基于上传的参考文献进行定向写作，确保每句话都有出处。这种组合方式既发挥了通