SheepNav
新上线今天0 投票

幻觉即轨迹承诺:Transformer生成中不对称吸引子动态的因果证据

研究揭示大语言模型幻觉的深层机制:早期轨迹承诺与不对称动态

一篇题为《幻觉即轨迹承诺:Transformer生成中不对称吸引子动态的因果证据》的论文,通过因果实验方法,为大语言模型(LLM)的“幻觉”问题提供了新的理论解释。研究发现,幻觉并非随机错误,而是模型在生成早期就“承诺”进入的稳定轨迹,其动态具有显著的不对称性——陷入幻觉容易,纠正却异常困难。

核心发现:幻觉是一种“早期承诺”

研究团队采用 “同提示分叉” 实验设计:对同一提示进行多次采样,观察模型生成如何自发分叉为事实性轨迹和幻觉性轨迹。在 Qwen2.5-1.5B 模型上,使用涵盖6个类别的61个提示进行测试,结果发现:

  • 44.3%的提示(27个) 出现了分叉现象。
  • 关键的是,事实与幻觉的轨迹在第一个生成的词元处就已分道扬镳(第0步KL散度为0,第1步KL散度>1.0)。这表明,模型在生成伊始,其内部状态就已决定了走向事实还是幻觉的“路径”。

因果不对称性:陷入幻觉易,纠正幻觉难

为了探究其背后的因果机制,研究进行了激活修补实验。通过在不同层注入“幻觉”或“正确”的激活值,观察对输出轨迹的影响:

  • 将幻觉激活注入正确轨迹:在第20层操作时,87.5% 的试验中输出被“腐蚀”为幻觉内容。
  • 将正确激活注入幻觉轨迹:在第24层尝试“纠正”时,成功率仅为 33.3%
  • 这两个比例均显著高于10.4%的基线水平和12.5%的随机修补控制组(p=0.025)。

这揭示了一个核心的不对称动态:模型一旦踏上幻觉轨迹,就仿佛掉入了一个“引力阱”,外部干预很难将其拉回正轨。

干预的难度差异

进一步的窗口修补实验量化了这种难度:

  • 引发幻觉:往往只需要单一步骤的扰动。
  • 纠正幻觉:则需要跨多个步骤的持续干预

根源在编码阶段:提示的“体制”决定幻觉倾向

研究并未止步于生成过程,而是回溯到提示编码阶段(第0步)。分析发现:

  • 在第15层的残差状态,就能以皮尔逊相关系数r=0.776(p<0.001)的强度,预测每个提示的幻觉率。这意味着,模型在“读题”时,其内部表征就已蕴含了走向幻觉的概率。
  • 通过无监督聚类,提示被分为5个“体制”类群(η²=0.55)。其中,一个位于“鞍点”附近的类群,集中了13个基于错误前提的提示中的12个。这表明,模型对提示的“体制”分类,决定了其将进入哪个“吸引子盆地”——是事实的稳定区,还是幻觉的稳定区。

理论框架:幻觉作为“局部稳定的吸引子盆地”

综合以上发现,论文提出了一个连贯的理论框架,将大语言模型的幻觉概念化为:

  1. 局部稳定的吸引子盆地:幻觉和事实都是模型动力学中的稳定状态(“盆地”)。
  2. 进入是概率性的、迅速的:在提示编码阶段,模型基于对提示“体制”的判断,以一定概率快速“承诺”进入某个盆地。
  3. 退出需要协调的、多步的干预:由于动态的不对称性,从幻觉盆地中逃脱远比掉入它要困难得多。
  4. 盆地结构在编码时即已选定:决定走向哪个盆地的关键“岔路口”,在模型处理完提示词(第0步)时就已经出现。

对AI行业的意义与启示

这项研究不仅深化了我们对LLM内部工作机制的理解,更具有重要的实践意义:

  • 解释性AI:为模型的可解释性提供了新的视角和工具,帮助定位导致幻觉的关键层和步骤。
  • 幻觉缓解:指出了传统“事后纠错”方法的局限性。更有效的策略可能需要在生成早期(甚至编码阶段)进行干预,或者设计训练方法以“拓宽”事实盆地的入口,或“填平”幻觉盆地。
  • 模型评估:提示的“体制”分类和早期预测指标,或可用于构建更精细的幻觉风险评测基准。
  • 理论建模:将动力系统理论引入语言模型分析,为未来研究开辟了新的跨学科路径。

总而言之,这项研究将大语言模型的幻觉从一个令人头疼的“缺陷”,转变为一个可以系统研究和理解的动力学现象。它告诉我们,减少幻觉不仅需要更好的数据或更大的模型,更需要深入理解并巧妙引导模型内部那套复杂而精密的“决策”轨迹。

延伸阅读

  1. M3R:基于气象信息多模态注意力的局部降雨临近预报
  2. Python库支持离散变分公式与基于配置的鲁棒变分物理信息神经网络训练解决方案(DVF-CRVPINN)
  3. 轻量级几何自适应:解决物理信息神经网络训练难题的新框架
查看原文