新上线今天0 投票
密集监督不够:循环语言模型中的读出盲点
研究背景:循环语言模型的监督困境
循环语言模型(Looped Language Models)通过将隐藏状态解码为预测并反馈到后续计算中,实现了运行时状态管理。然而,这种设计引发了一个基础问题:交叉熵损失究竟控制了哪些状态变量?近期一篇来自 arXiv 的论文(编号 2606.24898)揭示了密集监督的局限性——逐循环的交叉熵损失只能控制读出层暴露的变量,而非循环转换中活跃的所有变量。
核心发现:隐藏状态规模的失控
研究团队在 44M 和 129M 参数的循环 Transformer 模型中发现,当使用 RMSNorm 或 LayerNorm 等尺度不变读出机制时,隐藏状态的范数会急剧膨胀至数千甚至数万。这是因为这些归一化操作隐藏了径向尺度信息,使得交叉熵损失无法直接感知和控制状态规模。而预归一化残差循环却持续携带并更新这一尺度,导致模型在训练过程中逐渐失控。
解决方案:让尺度可见或消除循环
论文提出了两种互补的修复策略:
- 尺度可见的读出:使用不隐藏尺度的读出机制,让损失函数直接作用于状态范数。
- 显式范数惩罚:在损失中添加对隐藏状态范数的约束项。
实验表明,这些方法能将状态范数稳定在十位数级别。此外,尺度消除的循环(如采用归一化后的残差连接)也是一种有效的架构修复。
设计规则与性能提升
研究总结出一条简洁的设计规则:密集监督训练出口,循环尺度控制需要让尺度对损失可见或从循环中移除。遵循这一规则的尺度控制变体,在可变深度基准测试中,于匹配推理深度的工作点上取得了更低的困惑度(perplexity)。
行业意义
这项工作对当前流行的早期退出(early exit)和循环计算(recurrent computation)范式具有重要指导意义。它提醒研究者:简单的逐层交叉熵监督可能隐藏着状态失控的风险,而尺度控制是确保模型稳定性和性能的关键。未来,在设计和优化循环语言模型时,需要同时关注输出质量和内部状态的健康度。