Scaling Laws:神经网络规模化的理论与实践
一、Kaplan 2020 规模化定律
1.1 幂律关系的发现
2020年,OpenAI研究团队在论文《Neural Language Model Scaling Laws》中首次系统性地揭示了神经网络性能与其规模之间的数学规律。研究人员通过对超过一百万次实验的系统性分析,发现了一个深刻且优雅的结论:语言模型的性能(以损失值衡量)与模型参数量N、数据集规模D以及训练计算量C之间,存在着简洁而优美的幂律(Power Law)关系。这一发现彻底改变了此后AI领域的研究范式,从"如何设计更好的模型架构"转向了"如何最优地分配计算资源"。
幂律关系的核心思想可以用一个简洁的公式来表达:当其他因素保持不变时,模型的性能损失L会随着某一关键因素(如参数量、数据量或计算量)的增长而呈现出可预测的幂律衰减。这意味着,如果我们知道当前模型的性能以及投入的资源量,就可以相当准确地预测投入更多资源后模型将达到的性能水平。这种可预测性对于大型AI实验室的工程规划至关重要,因为它允许研究团队在正式训练千亿参数模型之前,通过训练小得多的模型来预估最终效果。
在Kaplan等人的研究中,他们识别出了三个不同的规模化 regime( regime),每个 regime 中主导性能提升的因素各不相同。在第一个 regime 中,模型参数量相对较小,数据量充足,此时增加模型参数量是提升性能最有效的途径。在第二个 regime 中,模型和数据都达到了一定规模,性能提升变得困难。在第三个 regime 中,即使用于训练的模型规模极大,模型仍然能够从更多的训练数据中持续获益。这三个 regime 的划分帮助我们理解了为什么不同的模型在不同的训练阶段会有截然不同的Scaling行为。
1.2 核心方程与参数敏感性
Kaplan等人提出的核心规模化方程描述了损失与模型参数量之间的关系。对于给定的Transformer架构和固定的训练令牌数量,损失L可以表示为参数量N的幂函数。这一方程不仅在数学形式上简洁优美,更具有强大的预测能力,使得研究人员可以在投入数十万美元的计算资源之前,对最终模型的性能有一个相当准确的预期。
在论文中,OpenAI团队训练了超过25个不同规模的模型,从最小的1.25亿参数模型到1750亿参数的GPT-3,最大模型的训练计算量是最小模型的1000万倍以上。值得注意的是,所有这些模型都使用了相同的架构(仅在层数和维度上按比例缩放)、相同的训练数据集(WebText的扩展版本)和相同的训练超参数。这种控制变量的设计使得研究团队能够将性能变化精确地归因于模型规模的增长。
损失与参数量的关系:
L(N) ∝ N^(-α_N)
损失与数据量的关系:
L(D) ∝ D^(-α_D)
损失与计算量的关系:
L(C) ∝ C^(-α_C)
其中 α_N, α_D, α_C 为幂律指数,
通常 α_N ≈ 0.076, α_D ≈ 0.095, α_C ≈ 0.050
这三个方程分别描述了:
- 在固定数据集上,增加参数量如何降低损失
- 在固定模型规模下,增加训练数据如何降低损失
- 在固定训练效率下,增加计算量如何降低损失
1.3 GPT-3的启示与影响
GPT-3的发布是Kaplan规模化定律最有力的实践验证。1750亿参数的GPT-3展现出了惊人的涌现能力,包括零样本任务迁移、小样本学习、思维链推理等。论文中详细报告了GPT-3在众多基准测试中的表现,包括自然语言推理、阅读理解、常识推理、代码生成等任务。特别引人注目的是,GPT-3仅凭给出的几个示例就能在新任务上表现出色,这种"小样本学习"能力是规模化带来的最令人兴奋的特性之一。
然而,GPT-3的研究也揭示了Kaplan原始框架的一些局限性。研究团队发现,当模型规模达到1750亿参数时,仍然存在明显的性能提升空间,这表明即使是这个规模的模型,也还未达到其数据效率的最优点。更重要的是,GPT-3的训练只使用了约3000亿个Token,这意味着如果用相同的计算预算来训练一个更小但训练更久的模型,可能会获得更好的效果。这一观察直接催生了后来Chinchilla论文的研究动机——一个彻底改变业界思维的里程碑式工作。
从工程实践角度看,Kaplan 2020的意义在于建立了一套可预测的规模化框架。在此之前,训练大型模型在很大程度上是一门"艺术"而非"科学",研究人员常常在投入大量资源后才发现效果不如预期。有了规模化定律的指导,实验室可以先在小型模型上进行系统性的超参数搜索,确定最佳的架构配置和学习率调度,然后按比例放大到目标规模,大大降低了实验风险和资源浪费。
二、Chinchilla 挑战:参数并非越大越好
2.1 计算最优假说的提出
2022年4月,DeepMind发表了轰动整个AI领域的论文《Training Compute-Optimal Large Language Models》(即著名的Chinchilla论文)。这项研究由Jordan Hoffmann等人主导,他们对"更大的模型是否总是更好"这一假设提出了根本性的质疑。通过精心设计的实验,Chinchilla团队证明了一个令人惊讶的结论:在相同的计算预算下,训练一个更小的模型并使用更多token进行训练,往往能够获得比直接训练一个超大模型更好的效果。这一发现彻底颠覆了当时业界普遍采用的"做大模型"的策略。
Chinchilla论文的核心贡献在于,它通过严格控制的实验,首次系统性地验证了"计算最优"假说。该假说认为,在给定固定FLOPs(浮点运算次数)预算的情况下,存在一个最优的模型参数量与训练token数量的分配比例,使得最终模型的性能达到最大化。这一假说并非凭空提出,而是基于对神经网络学习动态的深入理论分析——模型需要足够的参数来吸收数据中的知识,同时需要足够的训练步骤(token)来充分学习这些知识。
为了验证这一假说,Chinchilla团队使用了与训练Gopher(DeepMind的2800亿参数模型)相同的计算预算,训练了超过400个不同规模的语言模型。这些模型覆盖了从7000万到160亿参数的广泛范围,每个规模的模型都使用不同数量的token进行训练。通过这种地毯式搜索,研究团队获得了关于计算预算如何在参数量和训练token数之间最优分配的精确数据。实验结果清晰地表明,之前的Gopher模型(约2800亿参数)相对于最优配置来说,参数过多了约3.7倍——如果用相同的计算预算训练一个更小的模型并使用更多token,效果会更好。
2.2 里程碑式的70B/1T实验
Chinchilla论文中最引人注目的实验是对一个700亿参数模型(Chinchilla)进行的训练。该模型使用了一万亿个Token进行训练,虽然参数量远小于GPT-3的1750亿,但训练token数量却是GPT-3的三倍以上。在超过250项基准测试中,Chinchilla的表现都显著优于GPT-3、PaLM、Gopher等当时最先进的大语言模型。这一结果震惊了整个领域,因为它证明了"大"并不等于"好"——正确的Scaling比单纯的规模更重要。
具体来说,Chinchilla在MMLU(大规模多任务语言理解)测试中达到了67%的准确率,比参数量是其2.5倍的Gopher还高出7个百分点。在常识推理和阅读理解等任务上,Chinchilla同样展现出明显优势。这些结果并非来自更先进的架构创新——Chinchilla使用的正是标准的Transformer架构——而纯粹来自于更优的规模化策略。这一发现让整个行业开始重新审视自己的训练配方,从"尽可能把模型做大"转向"在给定计算预算下找到最优配置"。
Chinchilla 最优配置计算公式:
对于给定的计算预算 C(FLOPs),最优参数量 N* 和最优token数 D* 满足:
N* = (C / 6)^(1/3) ≈ 0.693 × C^(1/3)
D* = (C / 6)^(1/3) ≈ 0.693 × C^(1/3)
其中 C = 6ND(N为参数量,D为token数)
关键发现:
- 最优情况下,N* 与 D* 成正比
- 即:每增加 1 倍参数量,应同时增加约 1 倍训练 token 数
- 参数量与token数的最优比例约为 1:20
具体案例:
假设训练预算与 GPT-3 相同(约 3.14 × 10^23 FLOPs)
最优配置 ≈ 400亿参数 + 1万亿token
(而非 GPT-3 的 1750亿参数 + 3000亿token)
2.3 GPT-3为何是"过度训练"的
从Chinchilla的视角重新审视GPT-3,我们发现一个有趣的事实:GPT-3在某种程度上是"过度训练"的。这并非说GPT-3的训练有问题,而是说如果DeepMind有相同的计算预算来训练一个模型,他们会选择一个参数量更小但训练更久的模型,从而获得更好的性能。具体而言,GPT-3的训练使用了约3000亿个token,但与其1750亿参数的规模相比,这个数据量相对不足——每个参数平均只被"看到"了约170万个token。
Chinchilla论文揭示的这种Scaling不当会导致严重的效率损失。当模型的参数量过大而训练数据不足时,模型无法充分学习其参数所能表达的知识的全部潜力。换句话说,模型的"大脑容量"(参数量)很大,但"受教育程度"(训练token数)不够,导致知识吸收不充分。这种现象在实践中表现为:虽然大模型的绝对性能可能仍然更高,但其单位计算成本所换取的性能提升并不经济。
这一认识的转变对整个行业产生了深远影响。在Chinchilla之后,主流AI实验室开始调整自己的训练策略:不再盲目追求更大的参数量,而是更注重在给定计算预算下找到最优的配置比例。LLaMA、Mistral、Gemma等后续模型的成功在很大程度上都受益于这一认识的转变——它们通过使用更多的训练token(相对于参数量的比例)来弥补参数量上的差距,取得了令人印象深刻的性能表现。
三、计算最优训练策略
3.1 如何在给定预算下分配计算资源
计算最优训练的核心问题可以这样表述:假设你有固定的计算预算(比如说可以运行100天的GPU集群),你应该用它来训练一个参数量很大的模型还是一个小得多的模型但训练更久?Chinchilla论文给出了一个精确的回答:对于标准的Transformer架构,最优策略是将计算预算平均分配给模型参数量的增长和训练token数的增长。具体而言,当计算预算翻倍时,模型的参数量应该乘以约1.78倍,同时训练token数也应该乘以约1.78倍。
这一规律的理论基础来自于对Transformer训练过程中计算需求的分析。训练一个Transformer模型的总FLOPs可以近似表示为6ND,其中N是参数量,D是训练数据集中每个样本被训练的轮数(epoch)乘以token总数。在固定的计算预算C = 6ND下,我们需要在N和D之间做出权衡。如果N很大,模型有足够的容量来存储知识,但每个token只能被训练有限次数;如果N很小,模型容量受限,即使训练很多epoch也无法充分利用所有token中的知识。
通过大量的消融实验,Chinchilla团队拟合出了以下Scaling规律:在固定的计算预算下,最优的参数量N_opt和最优的训练token数D_opt都与计算预算C呈幂律关系,指数约为1/3。更重要的是,他们发现最优的D与N的比值相当稳定,大约在20左右。这意味着,对于任何规模的模型,训练token数应该是参数量的20倍左右才能达到计算效率的最优。
计算最优规模化方程:
给定总计算预算 C,神经网络的损失 L 可以建模为:
L(C) = A · C^(-α) + B
其中:
- A 是与模型架构相关的常数
- α ≈ 0.05 ~ 0.076(取决于具体设置)
- B 是不可约简的损失下界(噪音水平)
参数-Token联合Scaling:
当同时增加参数量 N 和训练token数 D 时,
如果保持 N^(0.27) · D^(0.27) 不变,
则损失遵循稳定的幂律衰减。
简化的拇指规则:
- 计算预算翻倍 → 参数量 × 1.78
- 计算预算翻倍 → 训练token数 × 1.78
- 最优 token数/参数比 ≈ 20:1
这意味着:
- 100亿参数模型 ≈ 2000亿token
- 700亿参数模型 ≈ 1.4万亿token
- 1000亿参数模型 ≈ 2万亿token
3.2 实际应用与工程考量
虽然Chinchilla的最优配置公式在理论上看似简单直接,但在实际工程中应用这一规律却面临着诸多挑战。首先,"计算预算"并非一个固定的概念——不同的硬件效率、不同的模型架构、不同的训练时长都会影响实际的计算消耗。例如,使用更长的序列长度会显著增加注意力机制的FLOPs,但并不一定线性地提升模型对长程依赖的学习能力。因此,在应用Chinchilla原则时,需要根据具体的训练基础设施和模型架构进行调整。
其次,训练稳定性是一个不可忽视的制约因素。随着模型参数量的增大,训练过程中的数值不稳定问题(如梯度爆炸、Loss发散)会变得更加严重。这意味着在实际操作中,我们往往无法简单地将参数增加到Chinchilla公式所预测的最优值。LLaMA 2和Mistral等模型的成功部分来自于它们在保持Chinchilla比例的同时,通过细致的超参数调优(如学习率预热、余弦衰减、权重衰减等)来确保训练的稳定性。
另一个实际考量是数据效率。随着模型在数据集上训练的时间增长(epoch数增加),每个额外token带来的性能提升会逐渐递减。这意味着在数据集的早期遍历中,模型能够快速学习到数据中最普遍、最明显的模式和规律;但随着训练的深入,模型需要越来越长的时间来学习数据中更细微、更罕见的知识。这种收益递减的现象在大规模训练中尤为明显,也解释了为什么Chinchilla强调使用更大的数据集而非更长的训练时间。
3.3 从"大模型"到"聪明地缩放"
Chinchilla的发现标志着AI研究范式的一个重要转折点:从"做大模型"转向"聪明地缩放"。在Chinchilla之前,业界的主流策略是先设计一个足够大的模型架构(通常是当时硬件能够支持的最大规模),然后用所有可用的数据对其进行训练。Chinchilla之后,研究人员开始更加系统性地思考:给定我们的计算资源和数据,最优的模型规模和训练配置是什么?
这种思维转变催生了一系列重要进展。Meta的LLaMA系列模型就是这一理念的典型代表:LLaMA 2的70亿参数模型使用了高达2万亿个token进行训练,其性能在许多基准测试中都可以与参数量更大的模型(如GPT-3.5)相媲美甚至超越。这一结果表明,在正确的Scaling策略下,即使是相对"小"的模型也可以达到令人惊叹的智能水平。
值得注意的是,Chinchilla的Scaling规律主要针对从零开始训练(training from scratch)的场景。对于指令微调(instruction tuning)和人类反馈强化学习(RLHF)阶段,计算最优的配置可能会有所不同。在这些后续训练阶段,模型的"知识"已经基本固定,主要任务是学会更好地利用这些知识来遵循指令和满足人类偏好,因此训练策略也有所不同。
四、数据最优规模化
4.1 数据质量与数量的博弈
如果说Chinchilla告诉我们"训练多少token"很重要,那么数据质量的研究则揭示了"这些token是什么"更为关键。传统的规模化观点认为,只要拥有足够多的数据,模型的性能就会不断提升。然而,Microsoft研究院的Phi系列模型彻底颠覆了这一认知。Phi-1、Phi-1.5和Phi-2等模型仅用不到100亿参数和约10亿训练token,就达到了参数量和训练数据量比它们大数十倍的模型相近的性能水平——这一令人震惊的结果让整个领域开始重新审视"高质量数据"的价值。
Phi系列成功的核心秘密在于"教科书质量"的数据选择策略。研究团队没有使用常规的网络爬取数据,而是精心构建了一个由合成数据(synthetic data)和精选高质量内容组成的训练集。具体而言,Phi系列使用了Chain-of-Thought(思维链)形式的合成代码和教科书级别的科学问答内容。这种数据的选择标准远高于传统的去重和清洗流程——团队不仅过滤掉低质量的网页内容,还主动生成高质量的、专门为教育目的设计的数据。
从规模化定律的角度看,Phi系列的发现意味着数据质量可以被"兑换"为等效的计算量。如果高质量数据的学习效率是普通数据的10倍,那么使用1亿高质量token训练出的模型,可能相当于用10亿普通token训练的模型。这一洞察促使研究人员开始从"增加数据量"转向"提升数据质量",成为数据工程(Data Engineering)这一新兴领域的重要推动力。
数据效率与质量Scaling:
传统规模化(Kaplan/Chinchilla):
L(D) ∝ D^(-0.095) # 损失随token数的幂律衰减
引入数据质量因子 q(q > 1 表示高质量数据):
L_q(D) ∝ (q · D)^(-0.095) = q^(-0.095) · D^(-0.095)
即:使用高质量数据 q 等效于增加 q^(1/0.095) 倍的普通数据量
当 q = 10 时,等效于增加约 10^10.5 ≈ 316亿倍的普通数据
Phi系列的经验法则:
- 1B 高质量合成token ≈ 10B 普通web token
- 10B 高质量合成token ≈ 100B 普通web token
- 数据质量因子 q 可达 5~50 倍不等
数据去重(Deduplication)的Scaling效应:
- 去重后数据集规模通常减少 30%~50%
- 但训练效率提升可达 2~5 倍
- 因为重复数据会浪费模型的"学习容量"
4.2 Phi系列的深刻教训
Phi-1是第一个引起广泛关注的"小模型高能力"案例。这个仅有13亿参数、使用了约70亿token训练代码的模型,在HumanEval基准测试中的通过率达到了50.6%——与参数量为其50倍的GPT-4相差不远。更令人惊讶的是,Phi-1在训练过程中几乎没有接触过真实的GitHub代码,而主要学习的是由GPT-3.5生成的"教科书式"合成代码。这表明,对于代码生成任务,教会模型"如何正确地思考和解决问题"比让它"模仿大量的实际代码风格"更为有效。
Phi-1.5进一步强化了这一发现。它使用了一部分真实网络数据和一部分合成数据的混合训练,训练token总数约为1000亿。尽管模型规模仍然只有16亿参数,但Phi-1.5在常识推理、世界知识问答甚至多步数学推理等任务上,都展现出了远超其参数规模预期的能力。这些结果表明,Phi系列探索了一条与主流Scaling路线完全不同的道路:不是通过增加规模来提升能力,而是通过提升数据的"信息密度"来更高效地利用有限的模型容量。
Phi-2(27亿参数,约1.4万亿token)的发布则彻底打破了"小模型无法具备涌现能力"的偏见。这个相对较小的模型展现出了令人印象深刻的思维链推理能力——通过在训练数据中包含大量的分步解答示例,Phi-2学会了在回答问题时先生成中间的推理步骤,从而在需要多步推理的 benchmark 上取得了远超预期的成绩。这一发现对AI民主化具有重要意义:它表明,通过精心设计训练数据,即使是资源有限的团队也有可能训练出具有强大能力的模型。
4.3 去重与数据工程
数据去重( deduplication)是近年来数据工程中最重要的进展之一。研究发现,主流训练数据集中存在大量重复内容——有些文档可能被复制了数百甚至数千份。这些重复内容对于模型训练来说是严重的效率损失:模型会在这些重复数据上反复学习,不仅浪费了宝贵的计算资源,还可能导致模型对这些内容的过度记忆(overfitting),而忽视了数据集中更稀有、更多样化的知识。
Google的《Deduplicating Training Data Makes Language Models Better》论文系统性地研究了去重对模型训练的影响。他们发现,使用MinHash等高效近似去重算法后,Common Crawl数据集的规模缩减了约30%,但训练出的模型在下游任务上的性能反而有所提升。这一反直觉的结果清楚地说明:数据的多样性(diversity)比数据的数量(quantity)更为重要。一个只包含独特内容的10B token数据集,其训练效率可能远超包含大量重复内容的100B token数据集。
现代大规模数据处理流程通常包括多个去重阶段:文档级去重(移除完全重复的网页)、段落级去重(移除内容高度相似的段落)、以及语义级去重(使用嵌入向量识别语义相近的内容)。此外,质量过滤(removing low-quality content)、毒性过滤(removing harmful content)、以及去隐私化(removing personally identifiable information)都是标准的数据处理步骤。这些精细的数据工程工作虽然不如训练一个超大模型那样引人注目,但对于最终模型的质量却至关重要。
五、涌现能力:质变还是量变?
5.1 什么是"涌现"
"涌现能力"(Emergent Abilities)是近年来大语言模型研究中最引人入胜也最富争议的话题之一。所谓涌现能力,指的是在小规模模型上完全不存在、但在大规模模型上突然出现的能力。这种"从无到有"的跳跃式变化,与传统的平滑Scaling预期形成了鲜明对比——在Kaplan的幂律框架下,模型的各项能力应该是随着规模增长而逐渐、连续地提升的,而非在某个临界点突然"跳变"。
最早系统性地研究涌现能力的论文来自Google Brain的团队,他们定义了涌现的两种主要形式:强涌现(strong emergence)和弱涌现(weak emergence)。强涌现指的是某项能力在规模较小时完全为零、只在超过某个临界点后突然出现;弱涌现则指的是某项能力在所有规模上都存在,但提升的速度在达到某个临界点后明显加快。在大语言模型的研究中,最常见的涌现现象是强涌现——例如,算术计算能力在GPT-3(175B)上几乎为零,但在GPT-3.5和GPT-4上突然变得可靠可用。
涌现能力的发现引发了关于"语言模型是否真正理解了语言"的大讨论。一些研究者认为,涌现能力只是模型对训练数据中模式记忆的外在表现,并非真正的"理解"或"推理"。另一些研究者则认为,足够复杂的神经网络能够发展出对语言的深层结构化表示,而这种表示正是智能行为的基础。这场争论至今仍在继续,但一个不争的事实是:涌现能力的存在使得模型的Scaling变得更加不可预测,也为AGI的讨论增添了新的维度。
涌现能力的量化定义:
给定任务 T 和模型规模 N,定义能力得分 S(N):
- 连续Scaling:S(N) 是 N 的单调递增函数
- 涌现Scaling:当 N < N_c 时,S(N) ≈ 0
当 N ≥ N_c 时,S(N) 快速增长
涌现临界点 N_c 的估计:
N_c 随任务复杂度呈指数增长:
N_c(task) ∝ exp(任务推理深度)
典型涌现能力及其估计临界规模:
| 能力类型 | 估计临界规模 | 备注 |
|-----------------|---------------|-------------------------|
| 简单加减法 | ~10B 参数 | 在足够数据下,7B 也可能 |
| 多位数乘法 | ~100B 参数 | GPT-4 级别 |
| 基础编程 | ~10B 参数 | LLaMA-2 70B |
| 复杂代码生成 | ~100B 参数 | GPT-4 级别 |
| 多步数学推理 | ~100B 参数 | Minerva, GPT-4 |
| 链式思维推理 | ~50B 参数 | 需要 CoT 微调 |
| 跨语言翻译 | ~7B 参数 | 多数主流7B模型可达 |
| 上下文学习 | ~10B 参数 | GPT-3 首次展示 |
5.2 典型涌现能力案例
算术能力是大语言模型涌现现象最经典的案例之一。在GPT-2及更小规模的模型中,几乎无法完成任何有意义的数学计算——即使是简单的两位数加法也经常出错。然而,当模型规模达到GPT-3级别(175B参数)时,模型突然展现出了令人惊讶的算术能力,能够正确执行多位数加减法甚至简单的乘除法。更进一步的GPT-4则能够处理复杂的代数运算和高等数学问题。这种能力的跳跃式出现让研究人员开始思考:算术能力究竟是从大量的数学文本中"记忆"来的,还是模型真正学会了某种数学推理的内在机制?
思维链推理(Chain-of-Thought, CoT)是另一个典型的涌现能力案例。标准的提示方法(直接给出问题并要求答案)在小规模模型上往往效果不佳,模型会给出看似合理但实际错误的答案。然而,当使用思维链提示(要求模型先生成分解步骤再给出答案)时,中等规模的模型(通常在100B参数以上)会展现出显著更强的推理能力。有趣的是,思维链提示在小规模模型上几乎没有效果——这本身就是一个涌现现象:只有当模型的规模足够大时,它才能"理解"并"遵循"这种分步推理的格式要求。
代码生成是第三个引人注目的领域。GPT-3(175B参数)在HumanEval基准测试中的通过率仅为约28%——与随机猜测相差无几。但当规模提升到GPT-3.5/ GPT-4级别后,通过率跃升至超过67%。更有趣的是,专门为代码任务训练的模型如Codex(120亿参数)在这个基准测试上就已经达到了37%的通过率,说明任务特定的数据和训练可以降低涌现的临界规模。这一发现对于资源有限的团队具有重要的实践意义:与其一味追求通用模型的规模,不如针对特定任务进行专门的优化。
5.3 涌现的测量依赖性
近年来,一些研究者对"涌现"是否真实存在提出了质疑。斯坦福大学和Google的联合研究《Are Emergent Abilities of Large Language Models a Mirage?》指出,许多所谓的涌现能力实际上可能是一种测量 artifact(人为产物),而非模型能力真正的跳跃式变化。具体而言,当研究人员将评估指标从离散的"正确/错误"二分类切换为连续的"部分正确"评分时,原本看起来"涌现"的曲线往往变成了平滑的Scaling曲线。
例如,在某些基准测试中,研究者使用精确匹配的准确率作为评价指标——模型必须给出与标准答案完全一致的输出才能得分。在这种设置下,小规模模型几乎不可能得满分(因为总是会在某个细节上有所不同),而大规模模型则更有可能生成完全匹配的答案。这种"全或无"的评价方式人为地制造了一个性能跃迁的表象。改用模糊匹配、部分分数或语义相似度等更精细的评估方法后,性能曲线往往变得平滑得多。
尽管存在这些方法论上的争议,涌现能力仍然是理解大语言模型Scaling行为的重要概念。即使用更平滑的评价指标,模型在某些任务上的Scaling效率也会随着规模变化——某些能力确实需要模型达到一定规模后才能被有效学习,这种"Scaling门槛"(scaling threshold)的存在本身就是一个值得深入研究的现象。理解哪些能力需要多大的模型才能有效学习,对于指导实际训练和部署具有重要的工程价值。
六、推理时计算规模化
6.1 训练 vs 推理:一场范式的转变
长久以来,AI领域的Scaling讨论几乎完全集中在训练阶段(training-time compute)——我们应该如何分配计算资源来训练模型?然而,DeepMind的AlphaCode和AlphaGeometry等研究开创了一个全新的Scaling方向:推理时计算规模化(Inference-Time Compute Scaling)。这一范式的核心思想是:与其把所有计算都投入到训练阶段,不如在模型进行推理时投入更多的计算资源来"思考"更好的答案。
推理时计算的概念可以用一个直观的类比来理解:人类在解决复杂问题时,往往不会立即给出答案,而是会花时间仔细思考、尝试不同的方法、推翻错误的思路、最终找到正确的解答。传统的大语言模型推理过程则相当于人类看到一个数学题就立刻写下脑海中浮现的第一个答案——快速但不够可靠。推理时计算的方法则允许模型在给出最终答案之前,先生成多个候选解答、评估它们的质量、然后选择或综合出最佳答案。
这种范式转变的理论基础来自于对"能力"和"效率"之间关系的重新思考。在训练阶段Scaling时,我们是在提升模型的"内在能力"——即模型参数所编码的知识和技能。但在某些情况下,与其训练一个"什么都知道"的超大模型,不如训练一个"懂得如何思考"的中等规模模型,然后通过在推理时投入更多计算来释放其潜力。这种方法在数学推理、代码生成、逻辑推理等需要"深思熟虑"的任务上特别有效。
6.2 AlphaCode与代码生成的突破
2022年,DeepMind发布的AlphaCode在编程领域引发了轰动。这个系统在Codeforces竞赛平台上参加了真实的编程比赛,在有超过5000名人类程序员参与的竞赛中,AlphaCode的排名达到了前54%——这意味着它击败了大约一半的人类参赛者。对于AI代码生成领域来说,这是一个里程碑式的成就,因为此前的系统在竞赛级编程问题上几乎束手无策。
AlphaCode的关键创新在于其推理时计算策略。系统首先生成一个大规模的候选代码集(使用改进的采样技术),然后对这些候选代码进行过滤和聚类,最后通过一个专门的验证系统来筛选出最可能正确的答案。值得注意的是,AlphaCode并没有使用比当时最先进模型更多的参数——它的优势来自于在推理阶段投入了大量计算资源来探索和验证多种可能的解答。
AlphaCode 推理时计算框架:
第一步:大规模候选生成
- 使用修改过的语言模型生成数百万个候选解答
- 每个候选解答对应一个不同的推理路径
- 通过 temperature 采样和 nucleus sampling 增加多样性
第二步:聚类与过滤
- 将语义相似的候选解答聚类在一起
- 识别出不同的解决方案类别
- 过滤掉明显无效或重复的解答
第三步:验证与选择
- 对每个聚类中的代表解答进行自动化测试
- 选择通过最多测试的解答
- 最终提交前再次进行边界情况测试
计算分配(以 Codeforces 题目为例):
- 训练阶段:与Codex相当的计算量
- 推理阶段:生成 ~10^6 ~ 10^7 个候选
- 推理计算量可能是训练的 10~100 倍
关键洞察:
"思考"更多 ≠ "记忆"更多
推理时计算提升的是"搜索质量"而非"知识储量"
6.3 AlphaGeometry与数学推理
AlphaGeometry是DeepMind在推理时计算Scaling方向的另一个突破性工作。这个系统专门用于解决几何数学问题——这是被认为对AI极具挑战性的领域,因为几何问题需要精确的推理、图形的理解和复杂定理的应用。AlphaGeometry在2000道IMO(国际数学奥林匹克)几何题上取得了94%的解题率,接近顶级人类奥数选手的水平。
AlphaGeometry采用了神经符号混合架构:一个是用于生成直觉性猜测的神经网络,另一个是用于严格逻辑推理的形式几何定理证明器。在推理时,系统会同时运行这两个组件,让神经网络生成可能的推理步骤,然后由符号系统验证这些步骤的正确性。如果某一步被证明是错误的,系统会回溯并尝试其他方向,直到找到一条完整的正确证明路径。
这种架构的精妙之处在于,它将推理时计算(探索多种可能的证明路径)与形式化验证(确保推理的严格正确性)有机结合。与其训练一个"什么都记得"的超大模型,AlphaGeometry选择让模型专注于生成高质量的"直觉"——即可能正确的推理步骤——然后通过符号系统的验证来筛选。这种"神经直觉 + 符号验证"的范式,在需要精确推理的领域展现出了巨大潜力。
6.4 推理时Scaling的数学框架
推理时计算Scaling的兴起催生了对这一现象的数学理论研究。研究人员提出了一个统一的理论框架来理解训练时Scaling和推理时Scaling的关系。在他们的模型中,一个任务的最终性能取决于两个核心因素的组合:模型解决问题的"概率"(即给定问题时输出正确答案的条件概率)和推理时计算的"资源"(即在每个问题上花费的推理计算量)。当推理时计算增加时,模型可以通过更多的采样和验证来"购买"更高的成功率。
这一理论框架可以用一个简化的公式来描述:对于给定的推理时计算预算B,模型的成功率可以近似为 P(success) ≈ 1 - (1 - p)^B,其中p是单次尝试的成功概率。这意味着,即使单次尝试的成功概率p很低(比如说只有1%),通过大量的尝试(B = 100次),最终的成功率也可以达到约63%。如果B增加到1000次,成功率更是可以提升到约99.995%。这种Scaling规律解释了为什么推理时计算方法在需要搜索和验证的任务上如此有效。
推理时计算Scaling的数学模型:
设:
- p = 单次采样得到正确答案的概率
- B = 推理时采样/计算次数
- P(B) = 最终成功率
则:
P(B) = 1 - (1 - p)^B
对于小的 p,当 Bp << 1 时:
P(B) ≈ B · p (线性区域)
P(B) ≈ 1 (饱和区域,当 B >> 1/p 时)
性能提升的边界:
- 推理时Scaling的效率取决于 p 的大小
- 如果 p 太小,需要指数级的采样才能获得有效提升
- 这就是为什么 AlphaCode 需要生成百万级的候选代码
训练 vs 推理Scaling的效率比较:
- 训练Scaling:性能 ∝ C^(α_train),α ≈ 0.05
- 推理Scaling:性能 ∝ log(B),当 p 很小时近似对数增长
结论:
- 对于 p 较高的任务(如常识问答),推理Scaling效率较低
- 对于 p 较低的任务(如复杂数学证明),推理Scaling更有效
- 最优策略是在两者之间找到平衡
6.5 推理时Scaling的局限性与挑战
尽管推理时计算Scaling展现出巨大潜力,但它也面临着明显的局限性。首先,推理时计算的成本是实时支付的——每次用户请求都需要在推理时投入额外的计算资源,这意味着延迟和成本的直接增加。对于需要快速响应的应用场景(如实时对话),在每个问题上投入大量的推理时计算可能不切实际。与训练时Scaling的一次性成本不同,推理时计算的成本会在模型的整个生命周期中持续累积。
其次,推理时计算Scaling的效果高度依赖于任务的结构。对于那些"正确答案是唯一确定的"任务(如数学证明、代码生成),推理时计算可以通过搜索和验证来显著提升成功率。但对于那些"没有唯一正确答案"的任务(如创意写作、开放式对话),推理时计算的价值就大打折扣——更多的采样并不会让模型写出更好的小说或更有见地的分析。
第三个挑战是可验证性。许多被认为"需要深度推理"的任务缺乏可靠的自动验证方法。如果我们无法自动判断一个回答是否正确,就无法有效地使用"生成-验证-选择"的推理策略。虽然在数学和代码领域,自动验证相对容易实现(数学有标准答案,代码可以运行测试),但在更广阔的自然语言领域,验证往往需要人工评判或依赖更复杂的LLM评判器。
七、测试时计算策略
7.1 过程奖励模型与结果奖励模型
传统的语言模型训练使用结果奖励模型(Outcome Reward Model, ORM)——只在模型生成完整答案后才给予奖励信号。这种方法简单高效,但有一个致命的缺陷:它无法区分一个"接近正确但有小错误"的答案和一个"完全错误"的答案。对于需要多步推理的任务,这种粗糙的奖励信号可能导致模型无法有效学习如何"步步为营"地接近正确答案。
过程奖励模型(Process Reward Model, PRM)代表了另一种范式。PRM在推理过程的每一步都给予奖励信号,使得模型能够学习"哪些推理步骤是正确的,哪些是错误的"。这种细粒度的反馈让模型能够在推理过程中进行自我修正——如果当前步骤看起来不对,模型可以选择回溯并尝试其他方向,而不是一条道走到黑。OpenAI的研究表明,PRM在需要复杂多步推理的任务上比ORM有显著优势,特别是在数学问题求解领域。
PRM的一个关键应用场景是与蒙特卡洛树搜索(MCTS)结合。在AlphaGo和AlphaZero中,这种结合已经取得了巨大成功——AlphaGeometry的工作也采用了类似的思路。在LLM时代,研究人员正在探索如何将这种"过程监督"的思想应用于自然语言推理任务。初步结果表明,对于足够复杂的推理任务,PRM引导的搜索可以显著超越纯基于ORM的采样方法。
过程奖励模型 vs 结果奖励模型:
ORM(结果奖励模型):
- 只在完整答案结束时提供奖励
- 奖励信号:R(answer) ∈ {-1, 0, +1}
- 优点:训练简单,数据易获取
- 缺点:无法指导中间推理步骤
PRM(过程奖励模型):
- 在每个推理步骤结束时提供奖励
- 奖励信号:R(step_i) ∈ {-1, 0, +1}
- 优点:提供细粒度的学习信号
- 缺点:需要人工标注每一步的正确性,成本高
PRM训练数据的获取策略:
1. 人工标注(最准确但最昂贵)
2. 合成数据:用强模型生成推理轨迹,
再用更弱的模型评估每一步
3. 形式化验证:对于代码/数学,使用自动化工具验证
4. 自教学:让模型自己生成和验证推理步骤
PRM引导的束搜索(Beam Search):
传统束搜索:
- 在每个时间步保留 B 个最佳候选
- 只使用局部评分(next token probability)
PRM引导的束搜索:
- 使用两个评分函数:
- 局部评分:P(token | context)
- 过程评分:PRM(context) ∈ [0, 1]
- 综合得分 = α · log P(token) + β · PRM(context)
- 优先探索高PRM分数的推理路径
7.2 Best-of-N与Self-Consistency策略
Best-of-N(BoN)是最简单也是最直观的测试时计算策略之一。其核心思想是:生成N个独立的候选答案,选择其中最可能正确的一个。实现方式可以是简单地选择模型赋予最高概率的那个答案,也可以使用额外的验证器(如代码执行器、数学求解器)来筛选。BoN的数学原理是直接的:如果单次成功率为p,那么N次独立尝试中至少有一次成功的概率为1-(1-p)^N。
Self-Consistency(自洽性)是对BoN的一个重要改进。其核心洞察是:对于需要推理的问题,正确的答案往往更容易被多个不同的推理路径得到,而错误的答案则往往只有少数推理路径会得到。基于这一洞察,Self-Consistency首先生成多个不同的推理路径和对应的答案,然后选择出现频率最高的那个答案作为最终输出。这种方法在需要多步推理的任务上展现出显著优势,特别是在数学和逻辑推理领域。
Tree-of-Thoughts(思维树)是Self-Consistency的进一步扩展。它不仅生成多个独立的推理路径,还允许推理路径之间的"分支"和"回溯"。当某个推理方向看起来没有希望时,模型可以回溯到之前的某个节点,尝试另一个方向。这种有向搜索的方法在需要探索大量可能解空间的任务(如创意写作、复杂规划)上特别有效。
7.3 Beam Search与Lookahead Search变体
标准束搜索(Beam Search)是语言模型推理中广泛使用的解码策略,它在每个时间步保留B个最佳候选序列。然而,标准的束搜索存在一个重要局限:它使用局部的 token 级概率来评估全局序列的质量,这在需要多步推理的任务中可能导致问题——局部的"最优选择"在全局上下文中可能是次优的。
Lookahead Search(前瞻搜索)是一种改进策略,它在评估当前候选时不仅考虑当前token的概率,还"前瞻"几个未来步骤的可能发展。这种方法可以更准确地评估一个局部决策的长期价值,尽管它也带来了额外的计算成本。对于需要深谋远虑的推理任务(如数学证明、复杂编程),Lookahead Search可以显著改善最终答案的质量。
另一个重要变体是Monte Carlo Tree Search(MCTS)在大语言模型推理中的应用。传统的MCTS已经在AlphaGo等系统中证明了其在离散决策问题上的强大能力——它通过平衡探索(exploration)和利用(exploitation)来高效地搜索巨大的决策空间。最近的研究开始将MCTS应用于LLM推理,让模型能够像下棋一样系统性地探索推理树,而不是简单地自回归生成文本。
这些搜索策略的核心思想是:在推理阶段,模型不应该"一次性"生成答案,而应该通过某种形式的搜索来"寻找"正确答案。这种从"生成"到"搜索"的转变,代表了AI推理范式的一次重要升级。当然,这种升级也带来了推理延迟和计算成本的显著增加,如何在性能和效率之间找到最佳平衡点,仍然是活跃的研究领域。
八、现代规模化配方
8.1 数据质量的重新审视
在Chinchilla之后,"更大的模型 + 更多的token"成为业界的主流信条。然而,随着模型规模越来越大,研究者们开始意识到,数据质量的重要性丝毫不亚于数据数量。Phi系列的成功(仅用13亿参数和70亿token就达到接近GPT-3.5水平的代码能力)让整个领域开始重新思考"什么才是好的训练数据"。
现代规模化配方中,数据工程已经成为与模型架构同等重要的组成部分。高质量训练数据的构建通常包括以下几个关键步骤:首先是数据源的选择——学术论文、教科书、专业文档、技术博客等来源的知识密度通常远高于普通网页。其次是质量过滤——使用轻量级分类器(如DistilBERT)来识别和移除低质量内容。第三是去重——包括精确去重(移除完全相同的内容)和近似去重(使用MinHash等算法移除高度相似的内容)。最后是有针对性的增强——对于某些稀缺领域(如数学推理、代码生成),可以合成高质量的补充数据。
一个值得关注的趋势是"合成数据"(Synthetic Data)在训练中的广泛应用。Phi系列、Minerva、StarCoder等模型都大量使用了由强模型生成的合成数据。合成数据的优势在于可以精确控制数据的分布和难度,但也有风险——如果合成数据的分布与真实世界差异太大,模型可能会在真实场景中表现不佳。如何平衡合成数据的便利性和真实性,是当前研究的热点问题。
8.2 架构选择与Scaling特性
虽然Transformer架构在过去五年中几乎没有实质性变化,但在具体实现层面出现了许多重要的创新。Rotary Position Embedding(RoPE)已经几乎取代了绝对位置编码,成为大多数新模型的标准选择,因为它更好地处理了长序列。Grouped Query Attention(GQA)通过将多个查询头分组共享同一个键-值头来减少注意力计算量,在几乎不损失性能的情况下显著降低显存需求。SwiGLU激活函数和RMSNorm归一化也已经成为事实标准。
架构的选择与Scaling特性密切相关。不同的架构变体在不同的规模上可能有不同的表现。例如,有些架构在小规模上表现平平,但在大规模上展现出超越预期的能力;而另一些架构则恰恰相反。通过在小规模上系统性地比较不同的架构选择,研究人员可以在训练大模型之前找到最有潜力的配置。
现代Transformer架构的关键选择:
位置编码(Position Embedding):
- 绝对位置编码(ABS):早期标准,简单但外推能力差
- RoPE(Rotary):当前主流,支持更长上下文
- ALiBi:另一种外推友好的位置编码
注意力机制变体:
- Full Attention:标准自注意力,O(n^2) 复杂度
- GQA(Grouped Query Attention):减少KV头数量
- MQA(Multi-Query Attention):所有Query共享KV
- Flash Attention:IO感知的精确注意力实现
归一化策略:
- LayerNorm:早期标准
- RMSNorm:计算更高效,效果相当
- DeepNorm:用于极深模型的稳定化技术
激活函数:
- ReLU:传统选择
- GeLU:BERT以来广泛使用
- SwiGLU:LLaMA、Mistral等现代模型的标准
Scaling相关的架构观察:
- 参数Sharing(如ALiBi vs RoPE)在不同规模上表现不同
- 有些优化在7B规模是"必需"的,在70B规模反而有害
- 架构改进的效果往往与模型规模正相关
8.3 训练稳定性与超大模型
随着模型规模越来越大,训练稳定性成为制约Scaling的关键瓶颈之一。训练不稳定的典型表现包括:Loss突然发散、梯度爆炸或消失、学习率调度失效等。早期的大型模型训练(如GPT-2、GPT-3)经常遇到这些问题,往往需要通过细致的超参数调整和架构修改来规避。
现代实践中已经积累了大量确保训练稳定性的技巧。学习率调度方面,"预热+余弦衰减"已经成为标准配置——预热阶段让模型逐渐适应大的学习率,主训练阶段使用余弦函数平滑衰减到很小的值。权重衰减方面,通常设置为0.1左右,防止参数过大导致的数值不稳定。梯度裁剪(gradient clipping)也是必备的——通常将梯度范数裁剪到1.0或更小。
对于超大规模模型(如GPT-4、Claude 3、Gemini),训练稳定性问题更加严峻。Google的PaLM论文中详细描述了他们如何通过模型并行(tensor parallelism)、流水线并行(pipeline parallelism)和数据并行(data parallelism)的组合来训练5400亿参数的PaLM。这些技术在分布式训练中不可避免地引入了同步开销和负载不均衡问题,需要精心设计来确保训练效率和稳定性。
8.4 端到端的Scaling配方总结
综合以上所有因素,现代LLM的端到端Scaling配方可以概括为以下几个核心原则。第一,遵循Chinchilla Scaling:在给定的计算预算下,模型参数量和训练token数应该按照约1:20的比例共同增长。第二,重视数据质量:使用高质量、多样化、去重后的数据,其效果可能超过简单地增加数据量。第三,选择成熟的架构:使用经过验证的架构变体(RoPE、GQA、SwiGLU、RMSNorm),避免在Scaling过程中引入不必要的风险。第四,确保训练稳定:通过细致的超参数调优和适当的正则化技术,确保训练过程的平稳进行。
一个典型的现代Scaling配方案例是LLaMA 3:使用15万亿token(是LLaMA 2的7倍以上)的数据训练了8B和70B两个规模的模型。即使是8B参数的小模型,在这个数据规模下也展现出了令人惊讶的能力,在许多基准测试中达到了上一代400B+参数模型的水平。这一结果进一步验证了数据质量与数量的双重重要性。
九、超越 Transformer 的神经规模化
9.1 State Space Models与Mamba
尽管Transformer在过去几年中牢牢占据了NLP领域的主导地位,但其核心缺陷——O(n^2)的注意力复杂度——在处理超长序列时成为了不可逾越的瓶颈。State Space Models(SSM)作为一种替代架构,提供了线性复杂度的序列建模能力。Mamba是由Carnegie Mellon大学提出的选择性状态空间模型(Selective State Space Model),它通过动态选择性地压缩或保留信息,在语言建模任务上达到了与Transformer相当甚至更好的性能,同时享有显著更低的推理成本。
Mamba的核心创新在于引入了"选择性"机制。传统的SSM对所有输入应用相同的动态方程,而Mamba根据输入内容动态调整哪些信息应该被保留、哪些应该被遗忘。这种选择性机制使得Mamba能够像Transformer一样,灵活地处理不同类型的上下文信息,同时保持SSM的线性复杂度优势。在标准的语言建模基准上,130亿参数的Mamba模型可以与参数量相近的Transformer模型相媲美,而在长序列任务上则展现出明显优势。
然而,SSM在某些需要精确信息检索的任务上仍然落后于Transformer。例如,在需要精确"复制"输入中某个特定token的任务上,SSM的表现不如注意力机制。这表明,Transformer的全局注意力机制在某些场景下仍然是不可替代的。未来的架构发展可能需要在不同机制之间找到更好的平衡。
State Space Models (SSM) 基础:
连续系统的状态空间表示:
h'(t) = A h(t) + B x(t)
y(t) = C h(t) + D x(t)
离散化后(用于实际计算):
h_k = A_bar h_{k-1} + B_bar x_k
y_k = C h_k
其中 A, B, C, D 是学习到的参数矩阵
Mamba的选择性机制(关键创新):
- 不是使用固定的 A, B, C 矩阵
- 而是让模型学习 A(x), B(x), C(x)
- 根据输入内容动态调整SSM的参数
Mamba vs Transformer 复杂度对比:
- Transformer:O(n^2) 注意力 + O(n) 内存
- Mamba:O(n) 序列计算 + O(n) 内存
- 对于 n = 10000,Mamba 节省约 10000 倍计算
Mamba的Scaling观察:
- 在相同参数下,Mamba 训练速度更快
- 在推理时,Mamba 的内存占用更低
- 但在某些精确记忆任务上,SSM 弱于 Transformer
- 混合架构(如 Jamba)正在探索两者的结合
9.2 混合专家模型与稀疏化Scaling
混合专家模型(Mixture of Experts, MoE)代表了Scaling的另一种重要范式:不是在所有参数上激活全部计算,而是让模型的不同部分专门处理不同的输入。Google的Switch Transformer首次将MoE大规模应用于NLP,训练了超过1.6万亿参数的模型,在保持计算成本与 dense 模型相当的同时大幅提升了模型容量。
MoE的核心思想是"专家专业化":不同的专家(通常是前馈网络)专门处理不同类型的信息。例如,在处理代码时,某些专家可能专门负责语法分析,另一些可能负责语义理解,还有一些负责数学计算。通过将输入路由到最相关的专家,MoE可以在不增加推理计算量的前提下,大幅增加模型的有效容量。
Mistral AI的Mixtral 8x7B是MoE架构的一个里程碑式实现。它由8个"专家"组成,每个专家是一个独立的7B参数FFN网络。在推理时,每个token只会激活两个专家进行处理,总计算量约等于14B参数的dense模型,但模型的"理论容量"却达到了56B参数。在众多基准测试中,Mixtral 8x7B的性能达到了甚至超过了参数量相近的dense模型(如LLaMA 2 70B),同时享有更低的推理延迟。
9.3 多模态Scaling与跨模态能力
多模态模型代表了Scaling的下一个前沿。与其训练专门处理文本的大型模型,业界开始探索如何将文本、图像、音频、视频等多种模态的信息统一建模。GPT-4V、Gemini、Claude 3等模型都已经支持多模态输入,展现出处理复杂跨模态任务的能力。
多模态Scaling的一个关键挑战是不同模态数据的异质性。文本是离散的token序列,图像是连续的像素矩阵,音频是随时间变化的波形。如何将这些不同形式的数据映射到一个统一的表示空间,是多模态建模的核心问题。当前的解决方案通常是将非文本模态通过特定的编码器(如Vision Transformer用于图像、Whisper用于语音)转换为"token-like"的表示,然后统一送入语言模型进行处理。
多模态Scaling的一个重要发现是:跨模态的联合训练可以显著提升模型在各个模态上的能力。例如,在图像数据上训练的视觉编码器,不仅可以用于图像理解任务,还可以帮助提升文本模型的空间推理能力——因为语言中对空间关系的描述与视觉中的空间感知存在深层联系。这种"知识迁移"现象表明,多模态Scaling不仅仅是"多模态能力的简单加总",而是可能产生超越各模态之和的协同效应。
9.4 代码模型的特殊Scaling规律
代码生成模型(如StarCoder、CodeLlama)展现出了与通用语言模型不同的Scaling规律。在代码领域,模型不仅需要理解语言的语义,还需要理解程序的语法、执行逻辑和运行时行为。这种双重需求导致了特殊的Scaling模式:代码模型往往可以在比文本模型更小的规模上达到可用的性能。
研究表明,代码领域的数据效率远高于通用文本领域。Phi-1只用70亿token的合成代码就达到了接近GPT-3.5水平的代码能力,而GPT-3.5使用了约3000亿token的通用文本进行训练。这意味着,对于代码生成任务,模型可以从相对较少但高质量的代码数据中学习到大部分必要的知识,而不必依赖大规模的通用语言理解。
代码模型的另一个有趣特性是"执行反馈"的作用。与自然语言不同,代码可以通过编译器、解释器或单元测试进行自动验证。这种可验证性使得代码模型可以使用强化学习等技术,通过执行结果来优化自身的行为。AlphaCode的成功正是建立在这种"生成-验证-选择"的范式之上的——它不是训练一个"更好的模型",而是训练了一个"更好的搜索策略"。
十、规模化定律的局限性
10.1 相关性而非因果性
Scaling Laws描述的是经验性的统计规律,而非理论上的必然真理。当我们观察到"更多的参数 + 更多的数据 = 更好的性能"时,这并不意味着这种关系在任何情况下都成立。Scaling Laws的预测能力建立在"趋势延续"的假设之上——即小规模实验中观察到的幂律关系会持续到大尺度。然而,这个假设本身是无法在实验上验证的:我们无法通过小规模实验来证明幂律关系在超大规模上仍然成立。
历史上不乏"趋势中断"的先例。例如,在深度学习早期,人们发现神经网络的性能会随着层数增加而退化(梯度消失问题),直到ReLU激活函数和Batch Normalization的发明才解决了这一问题。Scaling Laws也面临着类似的潜在"天花板":在达到某个规模后,可能会出现新的瓶颈(如数据枯竭、架构限制、训练不稳定等),导致Scaling规律不再成立。
另一个重要的警告是:Scaling Laws主要描述的是语言模型在标准基准测试上的性能变化,而这些基准测试本身可能无法全面衡量模型的真实"智能"水平。如果基准测试存在偏见、覆盖范围有限或者存在数据泄露,Scaling Laws的结论就可能产生误导。因此,在解读Scaling Laws时,我们需要保持谨慎——它告诉我们的主要是"在当前设置下、当前评估方法下,规模会带来什么样的变化",而非"规模是通向通用人工智能的唯一道路"。
10.2 收益递减与数据墙
幂律衰减的本质就是收益递减:每增加一倍的计算资源,获得的性能提升都会比上一次更小。这意味着,虽然Scaling定律预测性能会无限提升(只要计算资源无限),但在实践中,我们迟早会遇到收益递减到不值得继续投入的临界点。
"数据墙"(Data Wall)是当前最常被讨论的Scaling瓶颈之一。根据各种估算,互联网上可用于训练的高质量英文文本大约在10万亿到100万亿token之间。如果按照Chinchilla建议的20:1的token/参数比来计算,这意味着一万亿参数以上的模型将面临数据不足的问题。虽然不同语言的互联网数据可以提供额外的训练语料,但高质量的非英文数据同样稀缺。
收益递减的数学表达:
幂律模型:
L(C) = A · C^(-α) + B
其中 α ∈ (0, 1),决定了收益递减的速度。
α 越小,收益递减越快。
边际收益(每增加一倍计算的性能提升):
ΔL / ΔC ∝ C^(-α-1)
当 C 很大时,ΔL 趋近于 0。
数据墙的估算:
高质量英文文本总量:~10-100T tokens
中文高质量文本:~1-10T tokens
代码数据(GitHub):~100-500B tokens
如果遵循 Chinchilla 20:1 法则:
- 10T tokens ⇒ 500B 参数模型
- 100T tokens ⇒ 5T 参数模型
当前最前沿模型的规模:
- GPT-4: ~1.8T 参数(?)
- Claude 3: ~2T 参数(?)
- Gemini Ultra: ~1.56T 参数
结论:对于纯数据Scaling,我们可能已经接近某些边界。
应对策略:
1. 合成数据生成(Phi系列路线)
2. 多模态数据扩展
3. 知识蒸馏与迁移学习
4. 推理时计算 Scaling(AlphaCode路线)
5. 新的高效架构(SSM、MoE)
10.3 Scaling不能解决什么
尽管Scaling Laws展示了规模化在提升语言模型能力方面的强大力量,但也有很多问题是Scaling无法解决的。首先,幻觉(hallucination)问题随着模型规模的增大并没有得到根本性改善。大型模型在生成听起来自信而流畅但实际上不正确的内容方面,反而可能更加"擅长"——因为它们更善于组织语言、更善于生成看似合理的论证。Scaling可以增加模型的知识储备,但无法从根本上解决模型"不确定自己不知道什么"的问题。
其次,实时信息与知识的更新是Scaling的天生短板。无论模型有多大,训练好的模型的知识都是"凝固"的。要获取最新信息,需要重新训练或使用外部检索系统——而这两者都超出了经典Scaling Laws的讨论范围。RAG(检索增强生成)技术虽然可以在一定程度上缓解这一问题,但并没有从根本上改变模型知识陈旧的问题。
第三,安全性与对齐(alignment)问题无法通过Scaling自动解决。虽然更大的模型通常在对抗对抗性攻击方面表现更好,但它们也更难进行人类意图的对齐——训练过程中的"奖励黑客"(reward hacking)问题在大规模训练中更加突出。确保超大模型的行为符合人类价值观和意图,需要专门的技术和方法,不能简单通过增加规模来解决。
10.4 预测的脆弱性
Scaling Laws的一个核心用途是预测:给定小规模实验的结果,预测大规模模型的表现。然而,这种预测的准确性取决于小规模和大规模之间的"一致性"——即相同的规律在小尺度和大尺度上都适用。如果这种一致性假设被打破,Scaling Laws的预测就可能产生严重偏差。
一个潜在的脆弱性来源是"架构进步"与"Scaling"的交互效应。在过去五年中,我们不仅看到了模型规模的增长,还见证了大量的架构改进(RoPE、GQA、SwiGLU等)和训练技巧的进步(更好的学习率调度、更好的数据过滤等)。这些改进的效果往往在小规模实验中被低估,因为它们的收益可能只在较大规模时才充分显现。这意味着,基于小规模实验的Scaling预测可能过于保守。
另一个脆弱性来源是训练数据的组成变化。随着可用的高质量文本被逐渐耗尽,研究人员不得不使用质量更低的替代数据源,或者大量依赖合成数据。这些变化可能会改变Scaling关系的参数(幂律指数、损失下界等),使得基于历史数据的预测不再准确。在解读Scaling Laws时,我们需要始终意识到这些潜在的"分布偏移"问题。
十一、主流模型规模化对比
11.1 代表性模型的Scaling特征
了解Scaling Laws的最好方式之一是考察实际部署的模型如何应用这些原则。从GPT-3到Claude 3、Gemini,每一代模型都在Scaling策略上有不同的探索。GPT-3是最早的大规模Scaling实验之一,它证明了1750亿参数和3000亿token的组合可以在广泛任务上取得突破性进展,但也暴露了"参数过多、数据不足"的问题。Chinchilla则用700亿参数和1万亿token的配置,证明了更均衡的Scaling可以带来更高的效率。
PaLM(5400亿参数)代表了另一种Scaling策略的探索:继续追求更大的参数规模,同时使用更多的训练数据(通过Pathways架构实现跨多个TPU Pod的训练)。PaLM的训练使用了约7800亿token,虽然token/参数比(约14:1)低于Chinchilla的建议值(20:1),但仍比GPT-3(约1.7:1)高得多。PaLM在多项基准测试上取得了当时最先进的性能,但也暴露了超大规模训练中的稳定性挑战。
LLaMA系列代表了"民主化Scaling"的思路:通过更小的参数规模配合更大量的训练数据,在相对有限的计算预算下达到接近顶尖模型的性能。LLaMA 2的70B模型使用了2万亿token,token/参数比高达约28:1,超过了Chinchilla的建议值。这种"数据优先"的策略不仅降低了训练成本,还使得模型更容易部署和微调,对整个AI社区产生了深远影响。
11.2 关键Scaling指标对比
下表对比了主流大语言模型的关键Scaling指标。这些数据来自各论文的公开报告,部分数字(如某些模型的参数量和训练token数)为估计值,仅供参考。值得注意的是,不同模型的报告粒度不同——有些模型详细披露了训练配置,有些则含糊其辞。这种信息披露的不一致性也是评估Scaling定律预测能力时需要考虑的因素。
主流大语言模型Scaling特征一览:
| 模型 | 参数量 | 训练Token | T/P比 | 训练FLOPs | 发布时间 | 备注 |
|-----------------|-----------|-------------|---------|-----------|----------|------------------------|
| GPT-3 | 175B | 300B | ~1.7 | ~3.1e23 | 2020.06 | Kaplan框架,"大参数"策略 |
| Jurassic-1 | 178B | 300B | ~1.7 | ~3.2e23 | 2021.08 | 与GPT-3类似的Scaling |
| Megatron-Turing | 530B | 300B | ~0.57 | ~9.5e23 | 2021.10 | 超大规模,但token不足 |
| Gopher | 280B | 300B | ~1.1 | ~5.0e23 | 2021.12 | DeepMind, Chinchilla前身 |
| Chinchilla | 70B | 1,400B | ~20 | ~4.0e23 | 2022.04 | 计算最优基准 |
| PaLM | 540B | 780B | ~1.4 | ~2.5e24 | 2022.04 | Pathways架构 |
| LLaMA-1 | 65B | 1,400B | ~21.5 | ~5.4e23 | 2023.02 | 7B/13B/33B/65B可选 |
| LLaMA-2 | 70B | 2,000B | ~28.6 | ~8.4e23 | 2023.07 | RLHF微调版本 |
| Mistral-7B | 7B | ~300B+ | ~43 | ~1.3e22 | 2023.09 | 小而精,Grouped Attn |
| Mixtral-8x7B | 8x7B MoE | ~1,500B | ~27 | ~3.4e23 | 2023.12 | 专家混合架构 |
| Phi-1 | 1.3B | 70B | ~54 | ~5.5e20 | 2023.06 | 高质量合成数据优先 |
| Phi-1.5 | 1.3B | 100B | ~77 | ~7.8e20 | 2023.09 | 纯文本合成数据 |
| Phi-2 | 2.7B | 1,400B | ~518 | ~2.3e21 | 2023.12 | 极致数据效率 |
| Gemini Pro | ~?B | ~? | ~? | ~? | 2023.12 | 多模态,数据未公开 |
| Gemini Ultra | ~?B | ~? | ~? | ~? | 2024.02 | 最强能力,数据未公开 |
| Claude 3 Opus | ~?B | ~? | ~? | ~? | 2024.03 | 数据未公开 |
| GPT-4o | ~?B | ~? | ~? | ~? | 2024.05 | 多模态,数据未公开 |
注:T/P比 = 训练Token数 / 参数量(十亿为单位时的比值)
"~" 表示估计值,因为部分模型未公开详细配置
11.3 从Scaling看模型能力演变
通过对这些模型的Scaling特征进行系统分析,我们可以清楚地看到AI能力演变的几个阶段。第一个阶段(2020-2021)是"参数量为王"的时代,GPT-3、PaLM等模型通过大幅增加参数量来推动能力边界,但普遍存在"token/参数比"偏低的问题。第二个阶段(2022-2023)是"计算最优"的时代,Chinchilla的发现促使业界调整Scaling策略,token/参数比成为重要的优化指标。
第三个阶段(2023-至今)则是"数据质量觉醒"的时代。Phi系列、LLaMA系列等模型证明,在正确的Scaling策略下,即使相对较小的模型也可以达到令人惊讶的能力水平。这一阶段的另一个重要趋势是MoE架构的崛起——Mixtral 8x7B等模型通过稀疏激活实现了"参数多、计算省"的效果,为Scaling提供了一条新路径。
展望未来,我们可以预见几个重要的Scaling方向:首先是合成数据的广泛应用,通过AI生成高质量训练数据来突破真实数据的瓶颈;其次是多模态Scaling,将文本、图像、视频、音频等多种数据源统一建模;第三是推理时计算的Scaling,通过更智能的搜索和验证策略来弥补训练规模化的局限。这些方向共同指向一个结论:Scaling Laws不是终点,而是通向更强大AI系统的一座里程碑。
十二、未来展望
12.1 数据Scaling的天花板
尽管互联网上的数据量看似巨大,但高质量的语言数据并非无穷无尽。多个研究团队独立进行的估算显示,高质量的英文文本大约在10万亿到100万亿token之间,中文高质量文本的数量则更少。按照Chinchilla建议的20:1的token/参数比计算,这意味着在现有Scaling范式下,能够被"数据充分训练"的模型规模上限大约在5000亿到5万亿参数之间——而我们已经在接近这一边界。
"数据枯竭"的挑战催生了几个研究方向。第一是合成数据:使用强大的模型来生成新的训练数据,Phi系列已经证明了这一方向的可行性。但合成数据的风险在于,如果模型只学习自己生成的内容,可能会陷入"自噬循环"——生成内容的分布逐渐窄化,最终模型能力的提升趋于停滞。如何保持合成数据的多样性和真实性,是当前活跃的研究问题。
第二是跨语言迁移:大多数高质量文本数据是英文的,但通过多语言联合训练,可以让模型从一种语言中学到的知识迁移到另一种语言,从而更高效地利用有限的每种语言数据。第三是长上下文窗口的利用:在有限的训练数据下,让模型更充分地利用每个token的上下文信息,也是缓解数据压力的一种方式。
数据Scaling的天花板与应对策略:
高质量文本数据估算(2024年):
- 英文高质量文本:10-100T tokens
- 中文高质量文本:1-10T tokens
- 代码(GitHub等):0.1-0.5T tokens
- 学术论文:~100B tokens
- 书籍:~100-200B tokens
在Chinchilla比例(20:1)下的最大可行模型:
- 英文数据上限:5T 参数模型
- 中文数据上限:500B 参数模型
- 代码数据上限:25B 参数模型
合成数据的关键挑战:
1. 分布偏移问题
- 模型生成的内容可能逐渐偏离真实数据分布
- 长期可能导致能力停滞或退化
2. 质量稀释问题
- 合成数据的质量通常低于真实数据
- 大量低质量合成数据可能稀释有效学习信号
3. 知识来源问题
- 合成数据不能创造模型不知道的新知识
- 本质上是对现有知识的重新组合和表达
缓解策略:
- 级联式生成:大模型生成 → 小模型过滤 → 中等模型训练
- 多样性增强:在生成时引入随机扰动增加多样性
- 真实性验证:使用检索或外部知识库验证合成内容的准确性
- 真实数据锚定:在合成数据中混入真实数据,保持分布锚定
12.2 合成数据的崛起
合成数据正在成为绕过数据瓶颈的关键技术之一。其核心思想是:如果真实世界的数据不够或质量不够高,就用AI模型来"创造"高质量的训练数据。这一思路在多个领域已经取得了成功验证:AlphaGeometry使用符号引擎生成了数亿条几何证明训练数据;Phi系列使用GPT-3.5/4生成教科书级别的教育和代码内容;数学领域的Minerva模型大量使用了由强模型生成的数学推理过程。
合成数据的优势在于其灵活性和可控制性。与真实数据不同,合成数据可以根据研究人员的需要进行精确设计:可以生成特定难度范围的题目,可以覆盖真实数据中稀缺的领域,可以确保答案的正确性和可验证性。这种灵活性使得合成数据特别适合用于提升模型在特定能力维度上的表现。
然而,合成数据也面临深刻的挑战。最核心的问题是"上限":合成数据本质上是对模型已有知识的重组和表达,无法真正引入模型训练数据中不存在的新知识。如果模型在真实数据中从未见过某个数学定理的证明,就无法通过合成数据"创造"出这个证明。合成数据可以扩展现有知识的表达形式,但无法创造全新的知识内容。
另一个重要挑战是"自噬循环"(autophagocytosis 或 model collapse)。当模型越来越多地在由自己生成的数据上训练时,模型的输出分布会逐渐偏离真实数据的分布,导致模型能力的退化。解决这个问题需要在合成数据生成过程中引入足够的随机性和多样性,并在训练数据中保持一定比例的真实数据锚定。
12.3 推理时Scaling的竞争
如果说过去十年的AI发展是由"训练时Scaling"(更多的参数、更多的数据、更多的计算)驱动的,那么未来十年很可能将由"推理时Scaling"(更智能的推理策略、更多的推理计算)来推动。这一转变的标志是AlphaCode、AlphaGeometry、AlphaProof等系统在数学和代码领域取得的突破性进展。
推理时Scaling竞争的核心问题是:如何在有限的推理预算下获得最大的性能提升?这涉及到多个技术维度的创新:更高效的采样策略(如束搜索的变体)、更准确的奖励模型(如过程奖励模型PRM)、更智能的验证机制(如形式化证明器、代码执行器)、以及更好的搜索框架(如MCTS、TOT)。
OpenAI的o1和DeepMind的AlphaProof代表了这一方向的重要进展。o1使用内部化的CoT推理过程,在每个推理步骤中隐式地评估中间状态的质量,实现了在数学和代码推理上的显著提升。AlphaProof则将形式化证明验证与LLM推理相结合,通过大量的自动化证明验证来选择高质量的推理路径。
推理时Scaling的一个关键优势是它的灵活性:可以在不重新训练模型的情况下,通过改进推理策略来提升模型在特定任务上的表现。这意味着,即使模型的参数被"冻结",仍然可以通过更智能的推理方法来不断改进系统的输出质量。这种"后训练优化"的范式对于商业部署具有重要意义。
12.4 新架构的潜力
State Space Models(如Mamba)和混合专家模型(如Mixtral)代表了架构创新的两条重要路径。SSM通过线性复杂度的序列建模能力,为处理超长上下文提供了新的可能性;MoE通过稀疏激活实现了参数规模与计算成本的部分解耦。这两种架构的结合——比如Jamba(MoE+SSM)——可能代表下一代大模型的重要方向。
另一个值得关注的架构趋势是"长上下文窗口"的扩展。Gemini 1.5 Pro将上下文窗口扩展到了100万token,GPT-4 Turbo支持12.8万token。这种长上下文能力不仅仅是技术上的进步,更打开了全新的应用可能性:直接让模型阅读和理解整本书籍、长篇代码库、完整的法律合同或医学文献。
然而,架构创新也面临着Scaling的挑战:新的架构需要在超大规模上证明自己的有效性,而这本身就意味着巨大的投入风险。一个在小规模上表现优异的架构,可能在扩大到数十亿参数后展现出意料之外的特性。这种"规模效应"的不确定性,是架构创新面临的最大挑战之一。
12.5 通用人工智能的Scaling视角
关于Scaling Laws最根本的问题是:规模化能否通向通用人工智能(AGI)?乐观者认为,只要持续增加模型规模和训练数据,涌现的智能能力最终将达到甚至超越人类水平。他们指出,历史上的技术革命——从蒸汽机到电力到计算机——都遵循类似的范式:通过投入更多资源(能源、晶体管、计算),实现能力的跃升。
悲观者则指出,当前的LLM在某些关键能力上存在根本性的局限,而这些局限无法通过Scaling来解决。例如:模型缺乏对物理世界的直接体验和因果推理能力;模型的行为仍然主要受统计规律驱动而非真正的理解;模型无法真正自主地设定和追求目标。这些批评并非否认Scaling的价值,而是强调Scaling可能只是通向AGI的必要而非充分条件。
一个越来越流行的观点是"两阶段论":Scaling定律已经(或即将)接近其天花板,而要实现AGI,需要在Scaling之外取得额外的突破——可能是新的架构、新的训练范式(如Self-Play、好奇心驱动学习)、新的知识表示方式(如符号-神经混合系统)、或者全新的计算平台(如神经形态计算、量子计算)。
无论最终答案是什么,Scaling Laws已经深刻地改变了我们对AI系统的理解和工程实践方式。它提供了一套可预测的工程框架,使得我们可以系统性地规划资源投入;它揭示了数据质量的重要性,推动了数据工程作为一个独立领域的发展;它也激发了对AI能力边界的深层思考。无论Scaling是否最终通向AGI,它都已经是理解现代AI最重要的理论框架之一,值得每一个关心人工智能发展的人深入学习和思考。
12.6 结语:Scaling的哲学思考
从更深层的角度来看,Scaling Laws反映了一个关于智能本质的根本问题:智能是否可以被"工程化"?即,通过足够多的计算资源和足够精细的数据工程,是否可以堆砌出接近或超越人类的智能水平?
支持者会指出,大语言模型展现出的涌现能力——从简单模式匹配到复杂推理——表明了"规模"确实能够带来质的变化。这种观点认为,智能不是某种神秘的、不可简化的现象,而是大量简单计算单元协同作用的涌现结果。如果我们能找到正确的"计算单元"和正确的"组织方式",理论上任何智能水平都是可以通过计算资源来逼近的。
反对者则会强调,当前的大语言模型仍然缺乏真正理解世界运作方式的能力——它们能生成流畅的文本、解决复杂的数学问题、编写可运行的代码,但所有这些都是在"模式匹配"的层面上实现的,而非真正的"理解"。真正的智能需要对世界的因果模型、主动的意图和持续的自我反思能力,而这些都是当前Scaling范式所无法触及的。
无论持哪种观点,我们都无法否认Scaling Laws已经并将继续深刻地影响AI的发展轨迹。它为我们提供了一个前所未有的机会来系统性地研究和理解智能的Scaling特性,也为我们提出了许多根本性的问题:什么决定了Scaling的效率?什么样的数据才能真正推动能力的提升?推理时的计算是否比训练时的计算更接近"智能"的本质?这些问题的答案,不仅关乎工程实践,更关乎我们对智能本质的理解。
在结束这篇关于Scaling Laws的综述之际,我们可以看到,这一领域正站在一个关键的十字路口:数据Scaling正在逼近天然边界,合成数据提供了新的可能性但也带来了新的挑战,推理时Scaling正在成为一个重要的补充方向,而新架构的探索也在不断推进。无论未来哪个方向取得突破,有一点是确定的:Scaling Laws已经成为现代AI研究的基础工具,它提供的概念框架和量化方法将持续指导着AI系统的设计与优化,为通向更强大的人工智能系统奠定坚实的理论与实践基础。