SheepNav
新上线今天0 投票

AI 科研论文越来越“像样”,反而成了科学家的大麻烦

去年夏天,苏黎世大学可重复科学中心的研究员 Peter Degen 接到导师的求助:一篇 2017 年发表的论文突然被疯狂引用,从过去每年几十次飙升至数百次。调查发现,这些引用论文几乎全由 AI 生成——它们利用公开数据集,通过软件工具和 AI 写作辅助,在短短两小时内就能“生产”一篇可发表的研究。虽然这些论文不再像早期 AI 生成内容那样漏洞百出,但依然充斥着错误和误导。Degen 指出,这给本就超负荷的同行评审系统带来了巨大压力,因为“LLM 让批量生产论文变得太容易了”。

从“被引暴增”到“论文工厂”

Degen 的调查始于导师的一句抱怨:“我的论文被引得太多了。”这听起来像是凡尔赛,但实情令人忧虑。他顺着 GitHub 上的代码线索,最终找到了中国广州一家公司在 Bilibili 上发布的教程:宣称能用其工具在 两小时内 完成一篇具备发表潜力的研究。这些论文通常基于 Global Burden of Disease 等公开数据集,进行各种排列组合式的预测分析——从老年人跌倒风险到结直肠癌发病率,主题无穷无尽。

质量提升,但问题更隐蔽

与早期 AI 生成论文相比,这批新论文的“质量”明显提升。它们不再有明显的事实错误或语法混乱,甚至能通过初步的格式检查。然而,研究人员对其中一批关于头痛的研究进行分析后发现,这些论文错误率极高,且存在大量统计误用和结果曲解。更棘手的是,它们看起来足够“专业”,传统筛选手段很难将其自动剔除。

同行评审系统承压

学术界本就面临审稿人短缺的困境。AI 论文的涌入进一步加剧了这一问题:编辑和审稿人需要花费更多时间甄别论文真伪,而低质量 AI 论文的泛滥也挤占了真正有价值研究的发表空间。Degen 表示:“同行评审系统已经达到极限,而 LLM 让批量生产变得易如反掌。”

应对之道:从检测到治理

目前,学术界开始尝试多种应对方案:

  • AI 检测工具:部分期刊开始使用 AI 内容检测软件,但效果有限,因为 AI 生成的文本越来越难以与人类写作区分。
  • 公开代码与数据:强制要求论文附上代码和数据,以增加造假成本。
  • 改革评审机制:探索更高效的评审模式,如开放同行评审或预印本后评审。

然而,Degen 认为,根本问题在于学术评价体系对“发表数量”的过度推崇。只要“不发表就出局”的压力存在,AI 生成论文的动机就不会消失。

小结

AI 科研论文的“进步”是一把双刃剑:它降低了科研写作的门槛,但也催生了更隐蔽的学术不端。当机器能写出以假乱真的论文时,人类审稿人需要更聪明的工具和更合理的制度来守住学术诚信的底线。

延伸阅读

  1. Claude Code 产品负责人谈使用限制、透明度与“轻量化驾驭”
  2. 米拉·穆拉蒂:我的AI要让“人类始终参与其中”
  3. EvolveMem:让LLM智能体记忆系统自主进化,检索机制不再一成不变
查看原文