新上线今天0 投票
算术泛化的漫长延迟:当学习到的表征超越行为表现
在AI领域,Transformer模型在算法任务上的训练常出现一种被称为“顿悟”(grokking)的现象:模型在训练集上快速达到高准确率后,会经历一个漫长的平台期,然后突然实现泛化。这种延迟的原因一直是个谜。最近一项研究通过编码器-解码器算术模型揭示了这一现象背后的机制——延迟并非源于模型未能学习到结构,而是因为解码器难以访问编码器已学到的表征。
研究核心发现:解码器瓶颈是延迟主因
研究人员以一步Collatz预测任务为实验对象,这是一个经典的算术问题。他们发现,在训练初期(几千步内),编码器就已经成功组织了数字的奇偶性和余数结构。然而,输出准确率在随后的数万步训练中仍接近随机水平。
通过因果干预实验,研究团队验证了“解码器瓶颈假说”:
- 移植编码器:将训练好的编码器移植到新模型中,可将顿悟速度加速2.75倍。
- 移植解码器:移植训练好的解码器反而会损害性能。
- 冻结编码器:冻结已收敛的编码器,仅重新训练解码器,可以完全消除平台期,最终准确率达到97.6%,而联合训练仅为86.1%。
这些结果表明,延迟主要源于解码器难以有效利用编码器已构建的表征,而非模型整体学习能力不足。
数字表示方式的关键影响
研究还发现,数字的表示方式(进制) 对解码器的学习难度有决定性影响。在测试的15种进制中:
- 进制24:由于其因数分解与Collatz映射的算术特性对齐,模型达到了99.8% 的准确率。
- 二进制:表示方式“坍缩”且无法恢复,导致模型完全失败。
进制选择作为一种归纳偏置,控制了解码器能够利用的局部数字结构量,从而在相同底层任务上产生巨大的可学习性差异。
对AI研究与工程实践的启示
这项研究不仅解释了Transformer在算法任务中泛化延迟的机制,还为模型设计和训练策略提供了新思路:
- 架构优化:在编码器-解码器架构中,应特别关注解码器的设计,确保其能有效访问编码器的表征。
- 数据表示:选择合适的输入表示(如进制)可以显著提升模型的学习效率,这类似于为模型提供“更友好的语言”。
- 训练策略:采用分阶段训练(如先训练编码器再训练解码器)可能比联合训练更有效,尤其对于复杂算法任务。
随着AI模型在数学推理、代码生成等需要精确泛化的领域应用日益广泛,理解并克服这种“表征-行为”脱节现象,将成为提升模型可靠性和效率的关键。