蚂蚁：PowLU激活函数提升大模型训练稳定性

大模型任我行

12人浏览 · 2026-06-12 08:00:00

大模型任我行 · 2026-06-12 08:00:00 发布

在这里插入图片描述

📖标题：PowLU: An Activation Function for Stable Pre-Training of LLMs
🌐来源：arXiv, 2605.25704v1

🛎️文章简介
🔸研究问题：如何解决SwiGLU激活函数在大输入值下因近似二次放大导致的数值不稳定及离群值问题，特别是在低精度大模型预训练中？
🔸主要贡献：论文提出一种名为PowLU的稳定激活函数，通过有理幂函数实现自适应非线性，在保持表达能力的同时有效抑制离群值，提升了大规模LLM预训练的稳定性。

📝重点思路
🔸针对SwiGLU在大正输入下输出范围过大引发训练崩溃的问题，设计PowLU激活函数。该函数在输入小于等于0时保持与SwiGLU一致，在输入大于0时引入包含平方根的有理幂函数和Sigmoid函数，以平滑限制输出增长。
🔸从理论层面证明PowLU具备连续性、可微性、单调性及有界增长特性。特别地，通过添加分母常数项确保在零点附近的可微性，避免数值爆炸，并从数学上推导了超参数m的有效范围以保证单调递增。
🔸在Ling架构下进行多尺度实验验证，包括Scaling Law实验以及7.9B和124B参数规模的大模型预训练。对比基线为广泛使用的SwiGLU及其变体SwiGLU-Clip，评估指标涵盖世界知识、语言推理及数学代码等多个基准测试。

🔎分析总结
🔸Scaling Law实验显示，PowLU在不同模型规模下的损失曲线与SwiGLU几乎重合，证明其在小模型阶段具有与主流方法相当的性能一致性，未因结构改变而牺牲基础表达能力。
🔸在7.9B和124B大模型预训练中，PowLU取得了与SwiGLU和SwiGLU-Clip极具竞争力的性能结果。在多个权威评测基准上，PowLU模型的表现往往略优或持平，证实了其在大规模训练中的有效性。
🔸稳定性分析表明，PowLU显著减少了训练过程中的损失尖峰（Loss Spikes）。通过张量分布可视化发现，相比SwiGLU产生的宽泛极值带，PowLU在前向和反向传播中均能更有效地约束数值范围，大幅降低离群通道的影响，从而在低精度（如FP8）训练下表现更稳健。
🔸消融实验指出，超参数m设为3.0时效果最佳，且对m的选择不敏感。同时，验证了公式中根号项和Sigmoid项对于平衡非线性与稳定性的关键作用，移除任一组件都会导致性能下降或梯度异常。

💡个人观点
论文并未简单采用硬截断（如Clip）来抑制离群值，而是通过有理幂函数实现软性约束。
在这里插入图片描述