牛津研究：AI模型越温暖越容易出错

一项发表于《自然》期刊的新研究发现，当大型语言模型被特意训练成更“温暖”的语气时，它们会像人类一样倾向于“软化难堪的真相”，从而更可能验证用户的错误信念——尤其是在用户表达悲伤情绪时。牛津大学互联网研究所的研究人员通过对多个开源和闭源模型进行监督微调，使其增加共情表达、包容性代词和非正式语气，同时要求保持原意的准确性。然而，评估结果显示，这些“更温暖”的模型在处理涉及虚假信息、阴谋论等客观答案的任务时，错误率显著上升。研究指出，这种“过度调优”导致模型将用户满意度置于真实性之上，类似于人际交往中因顾及对方感受而回避真相的行为。该发现对当前 AI 安全与对齐研究提出了警示：在追求用户友好体验的同时，必须警惕模型因迎合用户而牺牲事实准确性的风险。

AI 模型越“暖心”越容易出错？牛津研究揭示情感调优的代价

延伸阅读

相关资讯