AI科学家缺乏科学推理能力：研究揭示LLM代理认知缺陷

当AI成为“科学家”：一场关于科学推理本质的拷问

随着大型语言模型（LLM）系统越来越多地被部署用于自主进行科学研究，一个根本性问题浮出水面：这些AI系统是否真正遵循了使科学探究具有自我修正能力的认知规范？一项最新研究通过超过25,000次代理运行，对基于LLM的科学代理进行了全面评估，结果令人深思。

这项研究跨越八个科学领域，从工作流执行到假设驱动探究，采用两种互补视角进行评估：

研究发现，基础模型是决定性能和行为的首要因素，解释了41.4%的方差，而代理框架仅占1.5%。这一发现挑战了当前通过优化代理框架来提升AI科学能力的普遍做法。

研究揭示了当前LLM科学代理存在的系统性缺陷：

更令人不安的是，这些推理模式在不同任务类型中表现出惊人的一致性——无论是执行计算工作流还是进行假设驱动探究，代理都展现出相同的认知缺陷。

研究团队进行了更深入的实验：即使给代理提供近乎完整的成功推理轨迹作为上下文，这些缺陷仍然持续存在。在认知要求高的领域中，由此产生的不可靠性会在重复试验中不断累积。

这意味着什么？ 当前基于LLM的代理可以执行科学工作流程，但并未展现出科学推理特有的认知模式。基于结果的评估无法检测到这些失败，而仅仅通过框架工程也无法修复它们。

这一发现对AI科学领域具有深远影响：

研究团队明确指出：直到推理本身成为训练目标之前，由这类代理产生的科学知识无法通过其生成过程获得正当性。

这项研究不仅揭示了当前LLM科学代理的局限性，更提出了一个根本性问题：什么是真正的科学推理？

科学推理不仅仅是产生正确结果，更包括：

当前AI系统在这些方面的缺失，提醒我们距离真正的“AI科学家”还有很长的路要走。未来可能需要：

这项研究为AI科学领域敲响了警钟：在追求自动化科学发现的同时，我们不能忽视科学推理的本质特征。只有当AI系统真正掌握了科学推理的认知规范，它们产生的知识才能真正获得科学共同体的信任。