SheepNav
精选今天0 投票

LLM为何在因果发现上失败?新研究提出“干预代理”突破理论极限

因果发现(Causal Discovery)是科学推理的基石,然而大型语言模型(LLM)能否可靠地完成这一任务,始终是悬而未决的问题。近日,一篇发表于arXiv的论文《Why LLMs Fail at Causal Discovery and How Interventional Agents Escape》从理论层面给出了答案:LLM的失败并非源于模型或数据,而是学习范式本身的固有局限

核心问题:LLM为何“学不会”因果关系?

论文指出,当前主流的训练方法——包括监督微调(SFT)直接偏好优化(DPO)上下文学习(ICL)——都会产生一种预测器,它无法区分能生成相似观测数据的因果图。更致命的是,任何试图做到这一点的尝试,都要求模型的内部表征无限增长,而这恰恰违反了这些方法有效工作的前提条件。研究者将这一发现形式化为核障碍定理(Kernel Obstruction Theorem),证明该局限是学习范式内在的,与具体模型或数据集无关。

这一结论解释了为何在因果发现基准测试中,即使经过微调的LLM在面对简单因果图时也会遇到性能瓶颈,并且随着图复杂度增加而退化。

突破路径:将LLM“降级”为干预预言机

既然直接训练LLM进行因果发现在理论上不可行,研究团队另辟蹊径,提出了Agentic Causal Bayesian Optimization(A-CBO)框架。其核心思路是:不再试图让LLM直接输出因果图,而是将其“冻结”起来,仅作为干预预言机(Interventional Oracle)——回答关于干预效应的特定查询。外部一个**贝叶斯循环(Bayesian loop)**则负责在候选因果图之间集中信念,仅需对数级别次数的交互即可收敛。

因为决策过程发生在核障碍定理的适用范围之外,A-CBO可以在底层模型不变的情况下证明收敛。这意味着,即使LLM本身不具备因果推理能力,通过巧妙的外部分工,也能实现可靠的因果发现。

实验结果:无需训练,性能超越微调基线

Corr2Cause基准上,A-CBO无需任何训练即可匹配微调基线的表现。而在新提出的Extended Corr2Cause基准(规模扩展至24个变量、包含18,000个测试样本)上,A-CBO显著优于微调和偏好优化方法,且优势随问题复杂度增加而扩大。

行业启示:LLM的“推理天花板”与代理式AI的崛起

这项研究为AI领域提供了双重启示:一方面,它揭示了LLM在因果推理上的根本性天花板,提醒从业者不要盲目相信大规模模型能自动习得科学推理能力;另一方面,它展示了**代理式AI(Agentic AI)**的潜力——通过将LLM作为模块化的“工具”,结合外部算法,可以突破模型自身的理论限制。

未来,因果发现或许不再依赖于让LLM“变得更聪明”,而是构建更精巧的人机协作系统,让模型在擅长的模式识别与语言理解上发挥作用,而将逻辑推理与因果推断交由专门的算法模块处理。

延伸阅读

  1. 从文本中识别人类价值观:一种可定制的大模型架构
  2. Soro:专为塔吉克语打造的轻量级基础模型与聊天机器人
  3. 合成信息的起源:用隐写术为AI生成内容刻上“遗传印记”
查看原文