大模型幻觉新解：早期轨迹承诺与不对称动态的因果证据

研究揭示大语言模型幻觉的深层机制：早期轨迹承诺与不对称动态

一篇题为《幻觉即轨迹承诺：Transformer生成中不对称吸引子动态的因果证据》的论文，通过因果实验方法，为大语言模型（LLM）的“幻觉”问题提供了新的理论解释。研究发现，幻觉并非随机错误，而是模型在生成早期就“承诺”进入的稳定轨迹，其动态具有显著的不对称性——陷入幻觉容易，纠正却异常困难。

研究团队采用 “同提示分叉” 实验设计：对同一提示进行多次采样，观察模型生成如何自发分叉为事实性轨迹和幻觉性轨迹。在 Qwen2.5-1.5B 模型上，使用涵盖6个类别的61个提示进行测试，结果发现：

44.3%的提示（27个） 出现了分叉现象。
关键的是，事实与幻觉的轨迹在第一个生成的词元处就已分道扬镳（第0步KL散度为0，第1步KL散度>1.0）。这表明，模型在生成伊始，其内部状态就已决定了走向事实还是幻觉的“路径”。

为了探究其背后的因果机制，研究进行了激活修补实验。通过在不同层注入“幻觉”或“正确”的激活值，观察对输出轨迹的影响：

这揭示了一个核心的不对称动态：模型一旦踏上幻觉轨迹，就仿佛掉入了一个“引力阱”，外部干预很难将其拉回正轨。

进一步的窗口修补实验量化了这种难度：

研究并未止步于生成过程，而是回溯到提示编码阶段（第0步）。分析发现：

在第15层的残差状态，就能以皮尔逊相关系数r=0.776（p<0.001）的强度，预测每个提示的幻觉率。这意味着，模型在“读题”时，其内部表征就已蕴含了走向幻觉的概率。
通过无监督聚类，提示被分为5个“体制”类群（η²=0.55）。其中，一个位于“鞍点”附近的类群，集中了13个基于错误前提的提示中的12个。这表明，模型对提示的“体制”分类，决定了其将进入哪个“吸引子盆地”——是事实的稳定区，还是幻觉的稳定区。

综合以上发现，论文提出了一个连贯的理论框架，将大语言模型的幻觉概念化为：

这项研究不仅深化了我们对LLM内部工作机制的理解，更具有重要的实践意义：

解释性AI：为模型的可解释性提供了新的视角和工具，帮助定位导致幻觉的关键层和步骤。
幻觉缓解：指出了传统“事后纠错”方法的局限性。更有效的策略可能需要在生成早期（甚至编码阶段）进行干预，或者设计训练方法以“拓宽”事实盆地的入口，或“填平”幻觉盆地。
模型评估：提示的“体制”分类和早期预测指标，或可用于构建更精细的幻觉风险评测基准。
理论建模：将动力系统理论引入语言模型分析，为未来研究开辟了新的跨学科路径。

总而言之，这项研究将大语言模型的幻觉从一个令人头疼的“缺陷”，转变为一个可以系统研究和理解的动力学现象。它告诉我们，减少幻觉不仅需要更好的数据或更大的模型，更需要深入理解并巧妙引导模型内部那套复杂而精密的“决策”轨迹。