精选今天0 投票
LLM审稿靠谱吗?新研究揭示:人类与AI审稿一致性有限,且存在“刷分”漏洞
随着大型语言模型(LLM)在学术评审中的应用逐渐增多,甚至部分顶级会议已开始试点使用AI辅助审稿,一个关键问题随之浮现:LLM的评审意见能否与人类评审员保持一致?作者又是否会利用LLM来“刷分”?一项针对2025年ACL Rolling Review(ARR)论文的实证研究给出了初步答案。
研究背景:LLM审稿走向台前
近年来,LLM生成的论文评审意见越来越常见。一些大型会议甚至开始官方试点AI辅助审稿。然而,这种做法的潜在风险不容忽视:一方面,审稿人可能过度依赖AI;另一方面,作者也可能利用LLM反复修改论文,以迎合AI评审的偏好,从而获得更高分数。这种“博弈”行为可能破坏学术评审的公正性。
核心发现:一致性有限,且波动较大
研究团队对2025年ARR的论文进行了实验,从作者和审稿人两个角度评估LLM评审的质量。结果发现,LLM评审与人类评审的一致性整体有限。虽然在最佳设置下一致性尚可,但一致性水平在不同提示词和不同模型之间差异显著。这意味着,LLM评审的可靠性高度依赖于具体实现,远未达到稳定可信的程度。
更令人担忧:LLM评审可被“博弈”
研究进一步模拟了作者使用LLM进行“迭代式修改”的场景:作者根据LLM给出的评审意见,反复修改论文,再提交给LLM评审。结果发现,这种策略在某些情况下确实有效——最多可使35%的论文获得统计上显著的总分提升。这表明,LLM评审存在被“刷分”的漏洞,作者可以通过针对性修改来操纵AI评审结果。
行业影响与启示
这项研究为正在探索AI辅助审稿的学术社区敲响了警钟。虽然LLM能提升审稿效率,但其一致性不足和易被博弈的特性,可能引入新的不公平。未来,若要在正式评审中采用LLM,必须设计更稳健的机制,例如:
- 多模型、多提示词混合评审,减少单一模型的偏差;
- 引入对抗性检测,识别出被“刷分”的论文;
- 保持人类评审的主导地位,仅将LLM作为辅助工具。
总之,LLM评审尚未成熟到可以完全替代人类。在拥抱技术便利的同时,学术共同体需要保持警惕,确保评审过程的公平与权威。