精选9天前0 投票
研究揭示:大语言模型评分与人类判分存在系统性差异
随着人工智能在教育领域的应用日益广泛,大语言模型(LLMs)被提议用于自动化作文评分,但其与人类评分的一致性一直是个未解之谜。一项最新研究深入探讨了这一问题,揭示了LLMs在评分行为上与人类存在的系统性差异。
研究背景与方法
这项由Jerin George Mathew、Sumayya Taher、Anindita Kundu和Denilson Barbosa共同完成的研究,评估了GPT系列和Llama系列等多个主流大语言模型在作文评分任务中的表现。研究采用“开箱即用”的设置,即不对模型进行特定任务的训练,直接测试其评分能力,以模拟实际应用场景。
核心发现:评分差异显著
研究结果显示,LLMs生成的分数与人类评分之间的一致性相对较弱,且这种一致性因文章特征而异。具体而言:
- 对短篇或未充分展开的文章:LLMs倾向于给出比人类评分者更高的分数。这可能是因为模型更注重表面结构的完整性,而非内容的深度与论证的充分性。
- 对包含轻微语法或拼写错误的长篇文章:LLMs则倾向于给出更低的分数。相比之下,人类评分者可能更宽容于这类小错误,更关注文章的整体逻辑、观点创新性和论述质量。
评分与反馈的内在一致性
尽管与人类评分存在偏差,但研究发现LLMs生成的分数与其提供的反馈高度一致。获得更多赞扬的文章通常得分更高,而受到更多批评的文章得分则较低。这表明LLMs的评分并非随机,而是基于一套内在的逻辑体系。
深层原因:信号依赖不同
研究指出,LLMs的评分和反馈遵循连贯的模式,但它们所依赖的“信号”与人类评分者不同。人类评分者可能综合考量内容深度、逻辑连贯性、创新性等复杂因素,而LLMs可能更侧重于文本的表面特征,如长度、语法正确性、词汇多样性等。这种信号依赖的差异导致了评分结果的对齐有限。
行业启示与未来展望
这项研究对AI在教育领域的应用具有重要启示。虽然LLMs目前不能完全替代人类评分者,但它们可以作为辅助工具,提供初步评分和反馈,帮助教师减轻负担。未来,通过针对性的训练和算法优化,或许能提升模型与人类评分的一致性。
关键点总结:
- LLMs评分与人类存在系统性偏差,尤其在处理不同长度和错误类型的文章时。
- 模型评分与反馈内在一致,但依赖的信号与人类不同。
- LLMs在作文评分中可作为可靠辅助工具,但需谨慎对待其评分结果。
这项研究提醒我们,在拥抱AI技术的同时,也应认识到其局限性,避免过度依赖。


