大语言模型评分与人类差异研究：GPT/Llama评分行为分析

随着人工智能在教育领域的应用日益广泛，大语言模型（LLMs）被提议用于自动化作文评分，但其与人类评分的一致性一直是个未解之谜。一项最新研究深入探讨了这一问题，揭示了LLMs在评分行为上与人类存在的系统性差异。

研究背景与方法

这项由Jerin George Mathew、Sumayya Taher、Anindita Kundu和Denilson Barbosa共同完成的研究，评估了GPT系列和Llama系列等多个主流大语言模型在作文评分任务中的表现。研究采用“开箱即用”的设置，即不对模型进行特定任务的训练，直接测试其评分能力，以模拟实际应用场景。

核心发现：评分差异显著

研究结果显示，LLMs生成的分数与人类评分之间的一致性相对较弱，且这种一致性因文章特征而异。具体而言：

对短篇或未充分展开的文章：LLMs倾向于给出比人类评分者更高的分数。这可能是因为模型更注重表面结构的完整性，而非内容的深度与论证的充分性。
对包含轻微语法或拼写错误的长篇文章：LLMs则倾向于给出更低的分数。相比之下，人类评分者可能更宽容于这类小错误，更关注文章的整体逻辑、观点创新性和论述质量。

评分与反馈的内在一致性

尽管与人类评分存在偏差，但研究发现LLMs生成的分数与其提供的反馈高度一致。获得更多赞扬的文章通常得分更高，而受到更多批评的文章得分则较低。这表明LLMs的评分并非随机，而是基于一套内在的逻辑体系。

深层原因：信号依赖不同

研究指出，LLMs的评分和反馈遵循连贯的模式，但它们所依赖的“信号”与人类评分者不同。人类评分者可能综合考量内容深度、逻辑连贯性、创新性等复杂因素，而LLMs可能更侧重于文本的表面特征，如长度、语法正确性、词汇多样性等。这种信号依赖的差异导致了评分结果的对齐有限。

行业启示与未来展望

这项研究对AI在教育领域的应用具有重要启示。虽然LLMs目前不能完全替代人类评分者，但它们可以作为辅助工具，提供初步评分和反馈，帮助教师减轻负担。未来，通过针对性的训练和算法优化，或许能提升模型与人类评分的一致性。

关键点总结：

LLMs评分与人类存在系统性偏差，尤其在处理不同长度和错误类型的文章时。
模型评分与反馈内在一致，但依赖的信号与人类不同。
LLMs在作文评分中可作为可靠辅助工具，但需谨慎对待其评分结果。

这项研究提醒我们，在拥抱AI技术的同时，也应认识到其局限性，避免过度依赖。

研究揭示：大语言模型评分与人类判分存在系统性差异

研究背景与方法

核心发现：评分差异显著

评分与反馈的内在一致性

深层原因：信号依赖不同

行业启示与未来展望

延伸阅读

相关资讯