新上线今天0 投票
教语言模型预测研究成功:通过比较想法评估加速科学发现
随着语言模型在自动化假设生成和实验实施方面加速科学研究,一个新的瓶颈浮出水面:如何在不进行详尽实验的情况下,评估和筛选数百个AI生成的研究想法?来自最新研究(arXiv:2605.21491)的团队提出,能否让语言模型学会预测研究想法的实证成功,即在运行任何实验之前判断哪个想法更可能取得更好性能?
该研究聚焦于比较性实证预测任务:给定一个基准测试的研究目标和两个候选想法,模型需要预测哪个想法能取得更优的基准性能。为此,研究团队构建了一个包含 11,488 个想法对 的数据集,这些想法对的结果基于 PapersWithCode 的客观实证结果。
实验结果令人瞩目:未经微调的 8B 参数模型仅达到 30% 的准确率,而通过监督微调(SFT),准确率飙升至 77.1%,甚至超越了 GPT-5 的 61.1%。更值得一提的是,研究团队将评估任务建模为推理任务,并采用**带可验证奖励的强化学习(RLVR)**训练模型,使模型学会发现潜在的推理路径,在保持可解释性的同时达到 71.35% 的准确率。
通过消融实验和分布外测试,研究证明了模型对表面启发式特征的鲁棒性,并成功迁移到跨领域时间分割测试集和独立构建的测试集上。这些结果表明,计算高效的小型语言模型可以作为有效、客观的验证器,为自主科学发现提供可扩展的路径。
该研究已入选 ACL 2026 Findings,为AI驱动的科研自动化开辟了新方向——从“生成想法”迈向“智能筛选想法”,有望显著加速科学研究的迭代周期。
