聚合指标误导AI科研选择：长期研究智能体需外部审计

自动研究智能体（autoresearch agents）如今能够自主提出、评估并选择科学候选方案，通常依据一个聚合指标进行排序。然而，一项最新研究指出，当科学有效性存在于异质化的子区域或群体结构中时，聚合指标可能将错误的候选者排在首位——表面数字提升，但底层结构却发生反转。这一发现对依赖单一指标进行自动化科研决策的方法提出了严峻挑战。

该研究以 arXiv:2606.11522 预印本形式发布，作者为 Adithya Srinivasan 和 Devesh Paragiri。他们通过生态系统人口模型（Ecosystem Demography model）中的火灾模拟任务展示了这一现象：全局得分最高的候选者与次优者仅相差噪声水平，但前者会导致受保护的北方森林区域崩溃，而后者则能保护这些区域。关键区别在于每个子区域的行为，而非全局数字。

作者指出，这种失败并非领域特例，只要候选者的有效性是多维的，而验证器是单一聚合指标，就会出现类似问题。更关键的是，优化该指标的智能体本身最不可能发现指标错误——因为在智能体停止后，提示（prompt）已无剩余回合可供纠正。

为此，研究提出了一种“搜索纪律”（search-discipline）协议：将决策权移交给一个外部控制循环，该循环在智能体做出选择后审计每个候选者在子区域的行为，可以降级智能体原本接受的候选者，甚至重新打开智能体已宣布完成的运行。这一协议的核心是依赖可审查的候选效果证据，而非单一分数。

这项研究对于AI驱动的科学研究具有深远意义。随着自动研究智能体在材料科学、药物发现、气候建模等领域日益普及，如何确保其决策的鲁棒性和可解释性成为关键问题。聚合指标虽然简化了评估，但可能掩盖重要的局部失效模式。作者建议，在长期、多目标的研究任务中，必须引入外部审计机制，防止“优化骗局”导致科学错误。

该工作提醒我们：在AI加速科学发现的浪潮中，不能盲目相信数字，而应建立多层次的验证体系。

长期研究型智能体的搜索纪律：聚合指标可能误导科学候选者选择

延伸阅读

相关资讯