什么是损失函数？AI“学习“背后的核心机制

人工智能研究所

336人浏览 · 2026-04-21 07:45:00

人工智能研究所 · 2026-04-21 07:45:00 发布

导读：

如果你曾好奇过AI模型是如何一步步变得"聪明"的，答案的关键就藏在一个数学概念里——损失函数。

从一个直觉开始

想象你在学射箭。每次射出一箭之后，你会观察箭落点与靶心的距离——偏了多少，偏向哪里。然后，你根据这个偏差来调整姿势，再射下一箭。久而久之，你的准头越来越好。

AI模型的训练过程，和这几乎一模一样。

损失函数，就是那把"量尺"——它精确地告诉模型，这一次的预测，偏离正确答案有多远。

损失函数是什么？

在机器学习领域，损失函数（Loss Function）用于计算模型预测值与真实"标准答案"之间的差距。这个差距，就叫做损失（Loss）。

如果模型预测得准，损失就小；

如果预测偏差大，损失就大。

模型训练的目标，就是不断调整自身参数，让损失越来越小，直到低于某个预设阈值——这时，我们认为模型已经训练到位了。

值得注意的是，损失函数不只是一个评分工具，它本身就是优化算法的输入。正因为它直接驱动参数更新，所以它的选择至关重要。

模型是怎么"学习"的？

这里要引入一个关键算法：梯度下降（Gradient Descent）。

梯度，可以理解为损失函数在某一点的"坡度"——它指示了损失增大的方向。梯度下降算法反其道而行之，沿着坡度向下走，一步步找到损失最小的参数组合。

以一个简单的线性回归模型为例：它的预测公式是 y = wx + b，其中 w 是权重，b 是偏置。模型训练时，就是在不断微调 w 和 b，让每次预测的损失逐渐减小。

到了深度学习阶段，神经网络动辄包含数百万个参数，梯度计算变得极为复杂。这时就需要用到反向传播（Backpropagation）——它从输出层的损失出发，利用链式法则，逐层往回计算每个参数对总体损失的贡献，再由梯度下降统一更新权重。

常见的损失函数有哪些？

损失函数的种类繁多，大体可分为两大类：回归损失函数和分类损失函数。

回归损失函数

用于预测连续数值的场景，比如房价预测、气温预测。

均方误差（MSE）是最常用的默认选择。它计算所有预测误差的平方平均值。对误差平方处理，使得大误差被格外严厉地惩罚——所以MSE对异常值非常敏感，适合输出值近似正态分布的场景。

平均绝对误差（MAE）则直接取误差的绝对值求平均，不对误差平方处理。它对异常值更加"宽容"，适合数据中可能存在极端值、但不希望这些极端值主导训练的场景。

Huber损失是两者的"折中方案"：误差较小时像MSE一样是二次的，误差较大时像MAE一样是线性的。它通过一个超参数 δ 来控制这个过渡点，既保留了梯度下降的优化便利性，又具备对异常值的鲁棒性。

分类损失函数

用于预测离散类别的场景，比如判断邮件是否为垃圾邮件、识别图片中的动物。

二元交叉熵（Binary Cross-Entropy）是二分类问题的标配。它不仅惩罚"答错了"的预测，还惩罚"答对了但不够自信"的预测——模型给出0.51的概率判断正确，和给出0.99的概率判断正确，在它眼里是不一样的。这迫使模型学会给出既正确又有把握的答案。

分类交叉熵（Categorical Cross-Entropy）将同样的逻辑延伸到多类别场景。神经网络通过Softmax激活函数为每个类别输出一个概率值，总和为1，损失函数则衡量这个预测概率分布与真实分布之间的差距。

铰链损失（Hinge Loss）则更多用于支持向量机（SVM）。它着重优化分类决策边界，奖励那些不仅分类正确、还距离边界足够远的预测——过于"勉强"的正确答案也会被惩罚。

过拟合与正则化

有一个隐患需要警惕：如果模型一味地最小化训练数据上的损失，可能会把训练集里的噪音和细节也"记住"，导致在新数据上表现糟糕——这就是过拟合。

为了应对这个问题，可以在损失函数中加入正则化项，对模型的复杂度进行额外惩罚。比如L1正则化（MAE形式）会让模型倾向于产生稀疏权重，抑制不必要的特征激活。

这相当于在"把训练数据答对"和"保持模型简洁"之间取得平衡。

如何选择合适的损失函数？

没有放之四海而皆准的最佳损失函数。选择时需要综合考量：

任务类型：回归还是分类？二分类还是多分类？

数据特点：数据中是否有大量异常值？输出值的分布是什么样的？

错误代价：在具体业务中，哪种错误更不可接受？

计算资源：某些损失函数的计算复杂度更高，这在大规模训练中不可忽视。

小结

损失函数是机器学习的"指南针"——它告诉模型，当前的预测有多差，该往哪个方向改进。没有它，模型就没有"学习"的方向，训练也就无从谈起。

从最基础的线性回归，到复杂的大型神经网络，无论模型架构如何变化，损失函数始终是驱动智能涌现的核心机制之一。下一次当你看到AI做出一个精准的判断时，背后或许正是某个损失函数，在无数次迭代中默默发挥着它的作用。

更多transformer，VIT，swin tranformer
参考头条号：人工智能研究所
v号：人工智能研究Suo, 启示AI科技

动画详解transformer 在线视频教程

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

智能控制第二章——模糊控制的理论基础（一）

模糊控制是一种模拟人类思维的智能控制方法，其核心是将自然语言植入计算机系统。它具有无需精确数学模型、鲁棒性强等特点，通过模糊化、推理和精确化实现控制。模糊控制器的构建涉及单片机、A/D转换等技术，需解决适应性、匹配性等问题。模糊集合通过隶属度函数描述不确定性概念，其运算遵循特定规则。隶属度函数的建立需遵循凸性、平衡性等原则，方法包括模糊统计法、例证法等。常见的隶属函数形状需符合人类语言逻辑，避免不