导读:

如果你曾好奇过AI模型是如何一步步变得"聪明"的,答案的关键就藏在一个数学概念里——损失函数。

从一个直觉开始

想象你在学射箭。每次射出一箭之后,你会观察箭落点与靶心的距离——偏了多少,偏向哪里。然后,你根据这个偏差来调整姿势,再射下一箭。久而久之,你的准头越来越好。

AI模型的训练过程,和这几乎一模一样。

损失函数,就是那把"量尺"——它精确地告诉模型,这一次的预测,偏离正确答案有多远。

图片

损失函数是什么?

在机器学习领域,损失函数(Loss Function)用于计算模型预测值与真实"标准答案"之间的差距。这个差距,就叫做损失(Loss)。

如果模型预测得准,损失就小;

如果预测偏差大,损失就大。

模型训练的目标,就是不断调整自身参数,让损失越来越小,直到低于某个预设阈值——这时,我们认为模型已经训练到位了。

值得注意的是,损失函数不只是一个评分工具,它本身就是优化算法的输入。正因为它直接驱动参数更新,所以它的选择至关重要。

图片

模型是怎么"学习"的?

这里要引入一个关键算法:梯度下降(Gradient Descent)。

梯度,可以理解为损失函数在某一点的"坡度"——它指示了损失增大的方向。梯度下降算法反其道而行之,沿着坡度向下走,一步步找到损失最小的参数组合。

以一个简单的线性回归模型为例:它的预测公式是 y = wx + b,其中 w 是权重,b 是偏置。模型训练时,就是在不断微调 w 和 b,让每次预测的损失逐渐减小。

到了深度学习阶段,神经网络动辄包含数百万个参数,梯度计算变得极为复杂。这时就需要用到反向传播(Backpropagation)——它从输出层的损失出发,利用链式法则,逐层往回计算每个参数对总体损失的贡献,再由梯度下降统一更新权重。

图片

常见的损失函数有哪些?

损失函数的种类繁多,大体可分为两大类:回归损失函数和分类损失函数。

回归损失函数

用于预测连续数值的场景,比如房价预测、气温预测。

均方误差(MSE) 是最常用的默认选择。它计算所有预测误差的平方平均值。对误差平方处理,使得大误差被格外严厉地惩罚——所以MSE对异常值非常敏感,适合输出值近似正态分布的场景。

平均绝对误差(MAE) 则直接取误差的绝对值求平均,不对误差平方处理。它对异常值更加"宽容",适合数据中可能存在极端值、但不希望这些极端值主导训练的场景。

Huber损失 是两者的"折中方案":误差较小时像MSE一样是二次的,误差较大时像MAE一样是线性的。它通过一个超参数 δ 来控制这个过渡点,既保留了梯度下降的优化便利性,又具备对异常值的鲁棒性。

图片

分类损失函数

用于预测离散类别的场景,比如判断邮件是否为垃圾邮件、识别图片中的动物。

二元交叉熵(Binary Cross-Entropy) 是二分类问题的标配。它不仅惩罚"答错了"的预测,还惩罚"答对了但不够自信"的预测——模型给出0.51的概率判断正确,和给出0.99的概率判断正确,在它眼里是不一样的。这迫使模型学会给出既正确又有把握的答案。

分类交叉熵(Categorical Cross-Entropy) 将同样的逻辑延伸到多类别场景。神经网络通过Softmax激活函数为每个类别输出一个概率值,总和为1,损失函数则衡量这个预测概率分布与真实分布之间的差距。

铰链损失(Hinge Loss) 则更多用于支持向量机(SVM)。它着重优化分类决策边界,奖励那些不仅分类正确、还距离边界足够远的预测——过于"勉强"的正确答案也会被惩罚。

过拟合与正则化

有一个隐患需要警惕:如果模型一味地最小化训练数据上的损失,可能会把训练集里的噪音和细节也"记住",导致在新数据上表现糟糕——这就是过拟合。

为了应对这个问题,可以在损失函数中加入正则化项,对模型的复杂度进行额外惩罚。比如L1正则化(MAE形式)会让模型倾向于产生稀疏权重,抑制不必要的特征激活。

这相当于在"把训练数据答对"和"保持模型简洁"之间取得平衡。

图片

如何选择合适的损失函数?

没有放之四海而皆准的最佳损失函数。选择时需要综合考量:

任务类型:回归还是分类?二分类还是多分类?

数据特点:数据中是否有大量异常值?输出值的分布是什么样的?

错误代价:在具体业务中,哪种错误更不可接受?

计算资源:某些损失函数的计算复杂度更高,这在大规模训练中不可忽视。

小结

损失函数是机器学习的"指南针"——它告诉模型,当前的预测有多差,该往哪个方向改进。没有它,模型就没有"学习"的方向,训练也就无从谈起。

从最基础的线性回归,到复杂的大型神经网络,无论模型架构如何变化,损失函数始终是驱动智能涌现的核心机制之一。下一次当你看到AI做出一个精准的判断时,背后或许正是某个损失函数,在无数次迭代中默默发挥着它的作用。

更多transformer,VIT,swin tranformer
参考头条号:人工智能研究所
v号:人工智能研究Suo, 启示AI科技

 动画详解transformer  在线视频教程

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐