LearnStop：推理模型何时停止最划算？成本感知早停研究

研究背景：推理模型的“早停”难题

大型语言模型（LLM）在推理任务中，不同实例所需的计算量差异巨大。一些简单问题可能只需少量推理步骤，而复杂问题则需要更长的“思维链”。传统的固定预算方法（如设定最大token数）会造成计算浪费，而简单的启发式规则（如置信度阈值、收敛检测）虽能实现动态退出，但其性能上限尚不明确。

针对这一问题，来自缅因大学普雷斯克岛分校、斯坦福大学等机构的研究人员提出了 LearnStop——一种无需隐藏状态的检查点停止机制，旨在通过学习最优停止策略来平衡推理质量与计算成本。

LearnStop 的工作原理

LearnStop 的核心思想是在预先设定的固定预算检查点（例如每 128 或 256 个 token）处，从当前推理前缀中提取一个简短答案，并利用在线特征（如答案置信度、熵、前缀投票份额、答案稳定性、回溯标记密度）预测该前缀的正确性。如果预测为正确，则立即停止推理并输出该答案；否则继续推理至下一检查点。

与需要访问模型隐藏状态的方法不同，LearnStop 仅依赖可观测的表面特征，因而具有更广泛的适用性。

实验发现：任务依赖性显著

研究团队在 18 种任务-模型组合上进行了测试，覆盖 GSM8K、MATH-500、MMLU-Pro、AIME-90、GPQA 等基准，以及 Qwen3 和 DeepSeek-R1 蒸馏变体。关键发现如下：

自由形式数学任务（如 GSM8K）中，LearnStop 的多特征学习策略显著优于固定预算基线，并经常击败单一标量退出规则（如仅使用置信度或熵）。在 Qwen3-32B 上，经验前沿的事后峰值自适应增益达到 +0.157，验证集选点保持正增益，与最强标量基线相比配对增益为 +0.028。
多项选择题和极难任务（如 AIME-90）中，简单的标量规则（如置信度、熵或稳定性）反而更具竞争力，甚至更强。

这表明，学习型停止机制并非标量退出的通用替代品，其价值高度依赖于推理轨迹的结构。当许多问题在达到全预算前已正确，但又不呈现单一可靠的标量停止信号时，LearnStop 最为有效；反之，若置信度或答案收敛已能很好地解决停止问题，则学习方法的优势基本消失。

成本核算与实际部署考量

研究还深入分析了不同计算场景下的成本：

KV 缓存分叉（KV-fork）：需额外存储中间状态。
前缀缓存（Prefix-cache）：利用已计算前缀加速。
黑盒模式：仅通过 API 调用，无法访问内部状态。

通过 H100 服务性能分析、检查点调度扫描、迁移学习分析和鲁棒性检验，论文为实际部署提供了验证集选点、配对 bootstrap 检验和有限网格丢失正确风险校准等实用工具。

小结与启示

这项研究为推理模型的动态计算分配提供了新视角：“何时停止”不是一刀切的问题。对于开发者而言，若任务以自由形式数学为主，且简单阈值表现不佳，值得尝试 LearnStop 等多特征学习方法；而对于选择题或难度分布均匀的任务，标量规则可能更简单有效。未来工作可探索更复杂的轨迹特征，或针对特定任务进行自适应检查点调度。

学习何时停止？一项关于推理模型提前退出的成本感知研究

研究背景：推理模型的“早停”难题

LearnStop 的工作原理

实验发现：任务依赖性显著

成本核算与实际部署考量

小结与启示

延伸阅读

相关资讯