越大越好？Chinchilla说：你可能练错了

KingWang_WHU

323人浏览 · 2026-05-23 22:50:15

KingWang_WHU · 2026-05-23 22:50:15 发布

2020年，OpenAI发布了一篇轰动业界的论文——Scaling Laws。它的核心结论简单粗暴：想要更强的模型，就堆更多的参数。一时间，全行业都在疯狂造大模型，千亿参数成了标配，万亿参数也不是梦。

然后DeepMind站出来说：等一下，你们可能搞错了。

这就是今天要聊的这篇论文——Chinchilla，全名《Training Compute-Optimal Large Language Models》。它用一个精妙的实验设计，给整个行业上了一课。

大模型的「营养失衡」问题

打个比方。假设你在健身，Scaling Laws告诉你「举更重的铁就能变强」。于是你疯狂加重量，从50公斤加到200公斤——但每天只吃一顿饭。

问题很明显：你的肌肉（模型参数）确实在增长，但你的营养（训练数据）远远跟不上。你不是变强了，你只是变得又大又虚。

这就是Chinchilla论文最核心的发现：**当时的GPT-3，以及一大批大模型，都处于「欠训练」状态。**参数量上去了，但训练数据根本没喂够。

想想GPT-3：1750亿参数，但训练数据只有大约3000亿token。按照Chinchilla的结论，这个数据量大概只够「喂饱」一个150亿参数左右的模型。差距足足有一个数量级。

三种方法（Kaplan、IsoFLOP、Chinchilla）对最优模型大小和数据量关系的预测（来源：原论文Figure 1）

怎么发现这个问题的？

DeepMind的做法非常工程化。他们在不同的计算预算下（从小的到超大的），训练了超过400个模型。每个计算预算下，都尝试了不同的「模型大小 vs 数据量」组合。

然后他们画出了一条等损耗曲线（iso-loss contour），就像地形图上的等高线。这条曲线清楚地告诉你：给定一个计算预算，模型该多大、数据该多少，才能达到最优。

结论非常清晰：**模型参数量和训练数据量应该大致按1:1的比例增长。**也就是说，如果你的模型翻一倍，训练数据也应该翻一倍。而不是像之前大家做的那样，模型参数增加五倍多，而数据量只增加不到两倍。

用更技术的话说，Scaling Laws提出的幂律关系是 N^0.74 和 D^{0.26，也就是算力增长时，模型规模的增长幅度占主导（指数为0.74），而数据量的增长幅度较小（指数为0.26）。而Chinchilla修正了这个比例——应该大约各占一半：N}0.50 和 D^0.50。

实战证明：小模型+大数据 = 碾压

光说理论不够，DeepMind直接拿结果说话。

他们之前训练了一个叫 Gopher 的模型：2800亿参数，用3000亿token训练。这是当时DeepMind的旗舰，各项指标都很能打。

然后他们按照Chinchilla的最优配比，训练了 Chinchilla：只有700亿参数（Gopher的四分之一），但用了1.4万亿token的训练数据（将近Gopher的4倍）。

结果？Chinchilla在几乎所有benchmark上全面碾压Gopher。

Chinchilla在MMLU各科目上相对Gopher的提升（来源：原论文Figure 6）

打个比方，这就像一个体重70公斤但训练充分的拳手，在擂台上轻松击败了一个体重280公斤但训练不足的巨汉。参数量小了四分之三，反而更强。

更关键的是，Chinchilla的推理成本只有Gopher的四分之一。又强又便宜，没有比这更香的了。

这对行业意味着什么？

Chinchilla的影响是深远的，几乎重塑了大模型的训练范式。

第一，数据是比参数更稀缺的资源。 之前大家疯狂堆参数，却忽略了数据的重要性。Chinchilla之后，高质量训练数据的收集和清洗成了核心竞争力。现在回头看，为什么各个大厂都在拼命搞数据质量，源头就在这里。

第二，小模型路线被正名。 Meta的LLaMA就是Chinchilla理念的直接践行者——用相对较小的模型（7B到65B），但在海量高质量数据上充分训练。结果大家都看到了，LLaMA系列成为了开源社区的基础，衍生出了无数优秀模型。

第三，推理效率的重要性被凸显。 一个700亿参数的模型和2800亿参数的模型效果相当，但部署成本差了四倍。对于实际落地的工程系统来说，这意味着真金白银。

当然，后来的研究也发现了一些Chinchilla没考虑到的问题。比如，如果你想训练一个模型后持续用很久，那在固定参数量下过训练（over-training）是划算的——推理成本会伴随模型整个生命周期，多花点训练算力换来更小的模型是值得的。这可以理解为Chinchilla的「推理成本修正版」，但核心思路没有变：数据量必须跟得上。