AI智能体复现社会科学研究：读论文写代码，准确率如何？

近年来，大型语言模型（LLM）智能体在科研辅助领域展现出巨大潜力。一项来自苏黎世联邦理工学院等机构的最新研究，将这一能力推向了新的高度：仅凭论文中的方法描述和原始数据，AI智能体能否自行编写代码并复现社会科学的研究结果？

该研究团队开发了一套名为“智能体复现系统”的自动化流程。系统首先从论文中提取结构化的方法描述，然后在严格的信息隔离环境下——智能体从未见过原始代码、结果或论文全文——自主编写代码执行复现。系统还支持确定性、单元格级别的输出对比，并通过错误归因步骤追踪差异的根源。

为了评估系统的有效性，研究团队在 48篇经过人工验证可复现的社会科学论文 上，测试了4种智能体框架和4种LLM的组合。结果表明，智能体在很大程度上能够复现已发表的结果，但不同模型、框架和论文之间的表现差异显著。根本原因分析 显示，复现失败既源于智能体自身的错误，也源于论文本身的方法描述不够明确。

这一研究的意义不仅在于验证了AI在科学复现中的潜力，更揭示了当前学术出版中方法描述规范性的不足。如果AI能够通过阅读论文自动复现结果，那么未来审稿流程、教学演示乃至跨领域验证都将迎来变革。同时，研究也提醒我们：论文的“可复现性”不仅取决于数据和代码的开放，更依赖于文字描述的精确性。

目前该论文已发表于 arXiv，研究团队公开了相关系统与评估数据，为后续研究提供了基准。随着LLM能力的持续提升，这种“读论文、写代码”的智能体有望成为科学家的得力助手，加速知识验证与传播。

读论文，写代码：AI智能体复现社会科学研究结果

延伸阅读

相关资讯