LLM审稿一致性有限，作者可“刷分”提升评分

随着大型语言模型（LLM）在学术评审中的应用逐渐增多，甚至部分顶级会议已开始试点使用AI辅助审稿，一个关键问题随之浮现：LLM的评审意见能否与人类评审员保持一致？作者又是否会利用LLM来“刷分”？一项针对2025年ACL Rolling Review（ARR）论文的实证研究给出了初步答案。

研究背景：LLM审稿走向台前

近年来，LLM生成的论文评审意见越来越常见。一些大型会议甚至开始官方试点AI辅助审稿。然而，这种做法的潜在风险不容忽视：一方面，审稿人可能过度依赖AI；另一方面，作者也可能利用LLM反复修改论文，以迎合AI评审的偏好，从而获得更高分数。这种“博弈”行为可能破坏学术评审的公正性。

核心发现：一致性有限，且波动较大

研究团队对2025年ARR的论文进行了实验，从作者和审稿人两个角度评估LLM评审的质量。结果发现，LLM评审与人类评审的一致性整体有限。虽然在最佳设置下一致性尚可，但一致性水平在不同提示词和不同模型之间差异显著。这意味着，LLM评审的可靠性高度依赖于具体实现，远未达到稳定可信的程度。

更令人担忧：LLM评审可被“博弈”

研究进一步模拟了作者使用LLM进行“迭代式修改”的场景：作者根据LLM给出的评审意见，反复修改论文，再提交给LLM评审。结果发现，这种策略在某些情况下确实有效——最多可使35%的论文获得统计上显著的总分提升。这表明，LLM评审存在被“刷分”的漏洞，作者可以通过针对性修改来操纵AI评审结果。

行业影响与启示

这项研究为正在探索AI辅助审稿的学术社区敲响了警钟。虽然LLM能提升审稿效率，但其一致性不足和易被博弈的特性，可能引入新的不公平。未来，若要在正式评审中采用LLM，必须设计更稳健的机制，例如：

多模型、多提示词混合评审，减少单一模型的偏差；
引入对抗性检测，识别出被“刷分”的论文；
保持人类评审的主导地位，仅将LLM作为辅助工具。

总之，LLM评审尚未成熟到可以完全替代人类。在拥抱技术便利的同时，学术共同体需要保持警惕，确保评审过程的公平与权威。

LLM审稿靠谱吗？新研究揭示：人类与AI审稿一致性有限，且存在“刷分”漏洞

研究背景：LLM审稿走向台前

核心发现：一致性有限，且波动较大

更令人担忧：LLM评审可被“博弈”

行业影响与启示

延伸阅读

相关资讯