LLM因果发现失败原因：新研究提出A-CBO突破理论极限

因果发现（Causal Discovery）是科学推理的基石，然而大型语言模型（LLM）能否可靠地完成这一任务，始终是悬而未决的问题。近日，一篇发表于arXiv的论文《Why LLMs Fail at Causal Discovery and How Interventional Agents Escape》从理论层面给出了答案：LLM的失败并非源于模型或数据，而是学习范式本身的固有局限。

核心问题：LLM为何“学不会”因果关系？

论文指出，当前主流的训练方法——包括监督微调（SFT）、直接偏好优化（DPO）和上下文学习（ICL）——都会产生一种预测器，它无法区分能生成相似观测数据的因果图。更致命的是，任何试图做到这一点的尝试，都要求模型的内部表征无限增长，而这恰恰违反了这些方法有效工作的前提条件。研究者将这一发现形式化为核障碍定理（Kernel Obstruction Theorem），证明该局限是学习范式内在的，与具体模型或数据集无关。

这一结论解释了为何在因果发现基准测试中，即使经过微调的LLM在面对简单因果图时也会遇到性能瓶颈，并且随着图复杂度增加而退化。

突破路径：将LLM“降级”为干预预言机

既然直接训练LLM进行因果发现在理论上不可行，研究团队另辟蹊径，提出了Agentic Causal Bayesian Optimization（A-CBO）框架。其核心思路是：不再试图让LLM直接输出因果图，而是将其“冻结”起来，仅作为干预预言机（Interventional Oracle）——回答关于干预效应的特定查询。外部一个**贝叶斯循环（Bayesian loop）**则负责在候选因果图之间集中信念，仅需对数级别次数的交互即可收敛。

因为决策过程发生在核障碍定理的适用范围之外，A-CBO可以在底层模型不变的情况下证明收敛。这意味着，即使LLM本身不具备因果推理能力，通过巧妙的外部分工，也能实现可靠的因果发现。

实验结果：无需训练，性能超越微调基线

在Corr2Cause基准上，A-CBO无需任何训练即可匹配微调基线的表现。而在新提出的Extended Corr2Cause基准（规模扩展至24个变量、包含18,000个测试样本）上，A-CBO显著优于微调和偏好优化方法，且优势随问题复杂度增加而扩大。

行业启示：LLM的“推理天花板”与代理式AI的崛起

这项研究为AI领域提供了双重启示：一方面，它揭示了LLM在因果推理上的根本性天花板，提醒从业者不要盲目相信大规模模型能自动习得科学推理能力；另一方面，它展示了**代理式AI（Agentic AI）**的潜力——通过将LLM作为模块化的“工具”，结合外部算法，可以突破模型自身的理论限制。

未来，因果发现或许不再依赖于让LLM“变得更聪明”，而是构建更精巧的人机协作系统，让模型在擅长的模式识别与语言理解上发挥作用，而将逻辑推理与因果推断交由专门的算法模块处理。

LLM为何在因果发现上失败？新研究提出“干预代理”突破理论极限

核心问题：LLM为何“学不会”因果关系？

突破路径：将LLM“降级”为干预预言机

实验结果：无需训练，性能超越微调基线

行业启示：LLM的“推理天花板”与代理式AI的崛起

延伸阅读

相关资讯