SheepNav
精选今天0 投票

大模型“想太多”?量化LLM推理冗余度,发现61%-93%的思考都是多余的

大模型“想太多”?新研究量化推理冗余度:61%-93%的思考都是多余的

OpenAI o1、DeepSeek-R1等推理型大语言模型(LLM)通过生成超长思维链(Chain-of-Thought)来解决复杂问题,但代价是高昂的延迟、GPU算力和能耗。一篇来自 arXiv 的新论文 How Much Thinking is Enough? Quantifying and Understanding Redundancy in LLM Reasoning 首次系统性地量化并解释了这种“过度思考”现象——结论令人震惊:在多个前沿模型和基准测试中,高达61%至93%的推理步骤是冗余的

冗余度高达93%,多数问题只需一步思考

研究人员提出了一种直接基于推理模型自身的冗余度量化方法:对于一条正确的思维链,冗余度定义为“可被截断的末尾分段步骤的最大比例”,截断后模型被迫终止思考并直接输出答案,仍能得出正确结果。

实验覆盖了四个主流推理模型(包括OpenAI o1系列、DeepSeek-R1等)和两个数学推理基准(MATH-500和另一个),共8个(模型,基准)条件。结果显示:

  • 步骤级冗余度(ρ)在61%至93%之间,意味着模型的大部分推理步骤对最终正确答案并非必要。
  • 在8个条件中的6个,中位关键前缀(critical prefix)仅为单个分段步骤——即大部分问题只需一步思考就能答对。
  • 随着问题难度增加(MATH-500的Level 5),冗余度有所下降,但即使在最难的问题上,冗余度仍高达46%至85%

冗余不是Bug,而是训练机制的结构性结果

更引人深思的是理论分析部分。研究证明:这种冗余是“长度无关的结果奖励”(length-agnostic outcome rewards)的结构性后果,而非模型特有的缺陷

在当前的强化学习(RL)训练范式下,模型只根据最终答案是否正确获得奖励,而不惩罚思考链的长度。论文证明:在任何此类奖励机制下,不存在有限的最优停止时间——模型总会倾向于继续思考,因为多一步思考至少不会降低正确概率,而停止则可能出错。

这一结论不依赖于具体的RL算法、基础模型、数据分布,也不管策略是通过RL还是蒸馏获得。因此,“过度思考”不是某个模型可以修补的bug,而是当前推理模型训练方式固有的结构特性

对AI行业的影响与启示

这项研究对AI推理模型的优化方向提出了根本性挑战:

  1. 效率优化迫在眉睫:如果大部分推理步骤是冗余的,那么通过“思考预算”(thinking budget)控制或早期退出机制,有望在不牺牲准确率的前提下大幅降低推理成本。
  2. 奖励机制需要改革:引入长度惩罚或过程奖励(process rewards)可能从根源上缓解过度思考。但论文警告,简单截断可能损害模型在困难问题上的表现,需要更精细的设计。
  3. 重新审视“推理能力”:当前的思维链是否真的反映了“推理”,还是更像一种随机搜索和验证?冗余的普遍性提示我们,模型可能并未学会高效推理,而是学会了“用大量计算换取可靠性”。

小结

这项研究首次从理论和实证两个层面揭示了LLM推理中的严重冗余现象。对于追求实时性、低成本的AI应用(如代码助手、智能客服),这一发现意味着巨大的优化空间。而对于整个AI社区,它提醒我们:更长的思考不一定更聪明,如何让模型“想得少、想得准”才是下一阶段的关键课题

延伸阅读

  1. 当正确信念崩塌:临床压力下LLM的认知韧性研究
  2. BODHI:精准推断操作系统内核规格,LLM Pass@1 飙升至 96.73%
  3. 量子青蛙:量化时间合作游戏中的涌现协作与难度缩放
查看原文