健全的智能体科学需对抗性实验：LLM分析加速但易产生虚假发现

arXiv 上的一篇新论文指出，基于 LLM 的智能体正被迅速用于科学数据分析，这虽然加速了发现，但也加速了一种熟悉的失败模式：快速生成看似合理、可无限修正的分析，将假设空间转化为由选择性分析支持的候选主张，优化目标是可发表的正向结果。

论文作者来自 ICLR 2026 的“野外的智能体”研讨会，他们强调科学知识与软件不同，不能通过代码的迭代积累和事后统计支持来验证。一个流畅的解释或单个数据集上的显著结果并非验证，因为缺失的证据是负空间——那些可能证伪主张的实验和分析从未被执行或发表。

因此，作者提出，对于由智能体辅助产生的非实验性主张，应采用“证伪优先”的评估标准：智能体不应主要用于构建最具说服力的叙事，而应主动寻找主张可能失败的方式。这一观点直击当前 AI 辅助科研的核心隐患，呼吁建立更严谨的验证机制。

健全的智能体科学需要对抗性实验