LLM何时需要推理？熵相变视角下的动态系统解读

核心发现：推理不是任务属性，而是动态解码状态

Chain-of-Thought（CoT）推理已成为提升大语言模型（LLM）能力的默认策略，但其有效性并非普适。最新研究揭示了一个矛盾现象：在事实性问答或开放式生成任务中，CoT不仅收益甚微，甚至可能拖累性能，同时显著增加token消耗。针对这一“推理悖论”，来自北京大学的魏晓、王浩庆、邓志鸿和唐烨辉等研究者提出了一种全新视角——将LLM推理视为一种动态解码状态，而非任务或模型的固有属性。

熵动力学：预测推理收益的信号

研究团队通过系统分析发现，解码早期的熵变化轨迹是判断当前任务是否适合CoT的关键信号。具体而言，那些能从CoT中受益的任务，其熵值在解码初期呈现持续下降趋势；反之，若熵值不稳定或上升，则CoT往往无效甚至有害。这一现象可类比为相变：从高熵的“探索”状态切换到低熵的“结构化推理”状态。

EDRM框架：轻量级、免训练的路由机制

基于上述洞察，研究者提出了EDRM（Entropy Dynamics-based Reasoning Manifold），一种无需额外训练的路由框架。EDRM通过将早期解码的熵轨迹嵌入到一个紧凑、可解释的流形表示中，实现零样本部署和细粒度的实例级自适应推理策略选择。

实验结果：效率与精度双赢

在15个基准测试和4种不同规模与架构的LLM上，EDRM均优于静态基线方法。在数据集级别，仅需50个校准样本，EDRM即可实现41%–55%的token缩减，同时提升准确率；在实例级别，它能在保持27%–45% token节省的前提下，将准确率进一步提升最高4.7%。

行业启示：选择性推理优于默认推理

这项研究不仅提供了实用的推理路由工具，更从根本上挑战了“CoT对所有任务都有益”的默认假设。它提示我们，在LLM推理中引入动态控制机制，根据任务特性按需调用推理能力，是提升效率与效果的关键方向。对于AI工程化部署而言，EDRM的轻量级特性（无需训练、低样本需求）使其具有极高的实用价值。