学习何时停止?一项关于推理模型提前退出的成本感知研究
研究背景:推理模型的“早停”难题
大型语言模型(LLM)在推理任务中,不同实例所需的计算量差异巨大。一些简单问题可能只需少量推理步骤,而复杂问题则需要更长的“思维链”。传统的固定预算方法(如设定最大token数)会造成计算浪费,而简单的启发式规则(如置信度阈值、收敛检测)虽能实现动态退出,但其性能上限尚不明确。
针对这一问题,来自缅因大学普雷斯克岛分校、斯坦福大学等机构的研究人员提出了 LearnStop——一种无需隐藏状态的检查点停止机制,旨在通过学习最优停止策略来平衡推理质量与计算成本。
LearnStop 的工作原理
LearnStop 的核心思想是在预先设定的固定预算检查点(例如每 128 或 256 个 token)处,从当前推理前缀中提取一个简短答案,并利用在线特征(如答案置信度、熵、前缀投票份额、答案稳定性、回溯标记密度)预测该前缀的正确性。如果预测为正确,则立即停止推理并输出该答案;否则继续推理至下一检查点。
与需要访问模型隐藏状态的方法不同,LearnStop 仅依赖可观测的表面特征,因而具有更广泛的适用性。
实验发现:任务依赖性显著
研究团队在 18 种任务-模型组合上进行了测试,覆盖 GSM8K、MATH-500、MMLU-Pro、AIME-90、GPQA 等基准,以及 Qwen3 和 DeepSeek-R1 蒸馏变体。关键发现如下:
- 自由形式数学任务(如 GSM8K)中,LearnStop 的多特征学习策略显著优于固定预算基线,并经常击败单一标量退出规则(如仅使用置信度或熵)。在 Qwen3-32B 上,经验前沿的事后峰值自适应增益达到 +0.157,验证集选点保持正增益,与最强标量基线相比配对增益为 +0.028。
- 多项选择题和极难任务(如 AIME-90)中,简单的标量规则(如置信度、熵或稳定性)反而更具竞争力,甚至更强。
这表明,学习型停止机制并非标量退出的通用替代品,其价值高度依赖于推理轨迹的结构。当许多问题在达到全预算前已正确,但又不呈现单一可靠的标量停止信号时,LearnStop 最为有效;反之,若置信度或答案收敛已能很好地解决停止问题,则学习方法的优势基本消失。
成本核算与实际部署考量
研究还深入分析了不同计算场景下的成本:
- KV 缓存分叉(KV-fork):需额外存储中间状态。
- 前缀缓存(Prefix-cache):利用已计算前缀加速。
- 黑盒模式:仅通过 API 调用,无法访问内部状态。
通过 H100 服务性能分析、检查点调度扫描、迁移学习分析和鲁棒性检验,论文为实际部署提供了验证集选点、配对 bootstrap 检验和有限网格丢失正确风险校准等实用工具。
小结与启示
这项研究为推理模型的动态计算分配提供了新视角:“何时停止”不是一刀切的问题。对于开发者而言,若任务以自由形式数学为主,且简单阈值表现不佳,值得尝试 LearnStop 等多特征学习方法;而对于选择题或难度分布均匀的任务,标量规则可能更简单有效。未来工作可探索更复杂的轨迹特征,或针对特定任务进行自适应检查点调度。