SheepNav
精选今天0 投票

OSCToM:用强化学习生成高阶心智理论挑战,让AI更懂复杂社交

大语言模型(LLM)在语言任务上表现优异,但在复杂社交场景中的心智理论(Theory of Mind, ToM)推理能力仍参差不齐。现有基准如ExploreToM,未能充分测试递归信念和信息不对称带来的挑战。为此,研究人员提出OSCToM(Observer-Self Conflict Theory of Mind),一种通过强化学习(RL)引导对抗生成来建模嵌套信念冲突的新方法。

核心挑战:观察者-自我冲突

OSCToM聚焦于观察者-自我冲突场景:观察者对他人的看法与自身信念状态相矛盾。这种冲突超越了简单的视角转换,要求模型进行递归、多层次的推理。例如,A认为B相信X,但A自己相信非X——这种嵌套信念冲突正是高阶ToM的难点。

技术方案:RL + 领域语言 + 组合代理

OSCToM的工作流程包括三个关键组件:

  1. 扩展领域特定语言:定义结构化场景,描述角色、信念和知识状态。
  2. 组合代理模型:生成多样化的冲突场景,覆盖不同的信息不对称模式。
  3. 强化学习引导:优化场景生成,使其既具挑战性又保持可解性,避免生成无效或过于简单的例子。

实验结果:小模型也能完成高级认知推理

在多个ToM基准上的测试显示:

  • OSCToM-8B 在整体表现上优于其他系统,在FANToM基准上达到76%准确率,而ExploreToM仅0.2%
  • 在Hi-ToM和BigToM上也保持竞争力。
  • 数据合成效率提升6倍,表明针对性训练数据能帮助较小模型处理高级认知推理

行业意义

OSCToM不仅是一个新的基准生成框架,更揭示了当前LLM在ToM推理中的关键短板——递归信念冲突。传统测试多关注一级信念(“A相信什么”),而高阶ToM涉及“A相信B相信A相信……”的嵌套结构。OSCToM通过自动生成高质量冲突场景,为模型训练和评估提供了更有效的工具。

代码已开源,相关论文发表于arXiv。

延伸阅读

  1. 今日下载:编程的未来、“类固醇奥运会”与AI驱动的科学
  2. Google I/O 揭示:AI 驱动科学的路径正在转变
  3. 增强运动会:2026年“长寿狂热”下的另类体育实验
查看原文