精选今天0 投票
健全的智能体科学需要对抗性实验
arXiv 上的一篇新论文指出,基于 LLM 的智能体正被迅速用于科学数据分析,这虽然加速了发现,但也加速了一种熟悉的失败模式:快速生成看似合理、可无限修正的分析,将假设空间转化为由选择性分析支持的候选主张,优化目标是可发表的正向结果。
论文作者来自 ICLR 2026 的“野外的智能体”研讨会,他们强调科学知识与软件不同,不能通过代码的迭代积累和事后统计支持来验证。一个流畅的解释或单个数据集上的显著结果并非验证,因为缺失的证据是负空间——那些可能证伪主张的实验和分析从未被执行或发表。
因此,作者提出,对于由智能体辅助产生的非实验性主张,应采用“证伪优先”的评估标准:智能体不应主要用于构建最具说服力的叙事,而应主动寻找主张可能失败的方式。这一观点直击当前 AI 辅助科研的核心隐患,呼吁建立更严谨的验证机制。