语言模型预测研究成功：比较想法评估加速科学发现

随着语言模型在自动化假设生成和实验实施方面加速科学研究，一个新的瓶颈浮出水面：如何在不进行详尽实验的情况下，评估和筛选数百个AI生成的研究想法？来自最新研究（arXiv:2605.21491）的团队提出，能否让语言模型学会预测研究想法的实证成功，即在运行任何实验之前判断哪个想法更可能取得更好性能？

该研究聚焦于比较性实证预测任务：给定一个基准测试的研究目标和两个候选想法，模型需要预测哪个想法能取得更优的基准性能。为此，研究团队构建了一个包含 11,488 个想法对 的数据集，这些想法对的结果基于 PapersWithCode 的客观实证结果。

实验结果令人瞩目：未经微调的 8B 参数模型仅达到 30% 的准确率，而通过监督微调（SFT），准确率飙升至 77.1%，甚至超越了 GPT-5 的 61.1%。更值得一提的是，研究团队将评估任务建模为推理任务，并采用**带可验证奖励的强化学习（RLVR）**训练模型，使模型学会发现潜在的推理路径，在保持可解释性的同时达到 71.35% 的准确率。

通过消融实验和分布外测试，研究证明了模型对表面启发式特征的鲁棒性，并成功迁移到跨领域时间分割测试集和独立构建的测试集上。这些结果表明，计算高效的小型语言模型可以作为有效、客观的验证器，为自主科学发现提供可扩展的路径。

该研究已入选 ACL 2026 Findings，为AI驱动的科研自动化开辟了新方向——从“生成想法”迈向“智能筛选想法”，有望显著加速科学研究的迭代周期。

教语言模型预测研究成功：通过比较想法评估加速科学发现

延伸阅读

相关资讯