LLM-AutoSciLab：大模型闭环科学发现，主动实验效率提升5倍

科学发现本质上是一个闭环过程：假设指导数据采集，而观测结果反过来修正假设空间。然而，当前大多数方法将科学发现简化为对固定数据集的监督学习，有限的观测往往支持多个看似合理的机制，这些机制在局部拟合良好，却无法泛化到新场景。因此，核心挑战在于如何选择信息量最大的观测来消除不确定性——这需要从静态推理转向自适应数据采集。

针对这一难题，来自弗吉尼亚理工大学等机构的研究团队提出了 LLM-AutoSciLab，一个将假设生成与假设条件实验选择、机制修正相耦合的闭环框架。不同于将模型拟合到被动收集的数据上，LLM-AutoSciLab 迭代地提出合理假设，选择最具区分力的实验来验证或修正这些假设，并根据实验结果更新自身状态。

为评估这种动态、闭环的科学发现能力，团队还发布了 ActiveSciBench 基准测试集，包含两个子集：ActiveSciBench-Chem（57 个酶动力学任务）和 ActiveSciBench-GRN（45 个基因调控网络任务）。这些任务将发现过程建模为预算受限的流程，要求算法具备自适应实验设计、变量选择和真实机制恢复能力。

实验结果令人振奋：在 NewtonBench、ActiveSciBench-Chem 和 ActiveSciBench-GRN 上，LLM-AutoSciLab 分别取得了 67.6% 和 35.1% 的符号准确率（前两个任务），以及 31.1% 的精确图恢复率（GRN 任务）。更关键的是，假设引导的实验设计在样本效率上比最强基线高出 2-5 倍。

从被动学习到主动探索：科学发现的新范式

传统机器学习在科学发现中的应用往往受限于固定数据集：模型从已有数据中学习映射关系，但数据收集本身是独立于模型需求的。LLM-AutoSciLab 打破了这一局限，它让大语言模型（LLM）扮演“科学家”角色，主动设计实验来检验假设。这种闭环范式更接近真实科研流程：先提出假设，再通过实验获取关键数据，最后根据数据修正或选择假设。

核心机制：假设生成、实验选择与机制修正

LLM-AutoSciLab 的每次迭代包含三个步骤：

假设生成：基于当前知识状态，LLM 提出一组候选机制（如数学方程或网络结构）。
实验选择：根据信息增益或不确定性度量，选择最能区分不同假设的实验（如特定条件下的观测变量）。
机制修正：根据实验反馈，更新假设空间，剔除或修正不符合观测的机制。

这一过程循环进行，直到预算耗尽或不确定性降低到阈值以下。

基准测试与性能亮点

ActiveSciBench 的设计颇具挑战：每个任务都有真实的底层机制（如 Michaelis-Menten 动力学方程或基因调控网络），算法需要在有限实验预算内恢复这些机制。LLM-AutoSciLab 在符号准确率上大幅领先传统贝叶斯优化、主动学习等方法，尤其在样本效率上表现出色——仅用基线 1/5 的实验次数就能达到同等精度。

行业意义与未来展望

LLM-AutoSciLab 展示了 LLM 在科学发现中的巨大潜力：不仅是作为知识库或代码生成器，而是作为闭环探索的核心决策者。该框架可应用于药物发现、材料设计、系统生物学等领域，加速假设验证和机制发现。未来工作可能包括：整合多模态实验数据（如图像、序列）、扩展到更复杂的因果发现任务，以及探索人机协作模式。

项目代码和数据集已开源（https://github.com/sanchit-kabra/LLM-AutoSciLab），感兴趣的读者可以复现并扩展这一方法。

LLM-AutoSciLab：大模型驱动的闭环科学发现框架，让AI主动实验探索未知

从被动学习到主动探索：科学发现的新范式

核心机制：假设生成、实验选择与机制修正

基准测试与性能亮点

行业意义与未来展望

延伸阅读

相关资讯