精选今天0 投票
OSCToM:用强化学习生成高阶心智理论挑战,让AI更懂复杂社交
大语言模型(LLM)在语言任务上表现优异,但在复杂社交场景中的心智理论(Theory of Mind, ToM)推理能力仍参差不齐。现有基准如ExploreToM,未能充分测试递归信念和信息不对称带来的挑战。为此,研究人员提出OSCToM(Observer-Self Conflict Theory of Mind),一种通过强化学习(RL)引导对抗生成来建模嵌套信念冲突的新方法。
核心挑战:观察者-自我冲突
OSCToM聚焦于观察者-自我冲突场景:观察者对他人的看法与自身信念状态相矛盾。这种冲突超越了简单的视角转换,要求模型进行递归、多层次的推理。例如,A认为B相信X,但A自己相信非X——这种嵌套信念冲突正是高阶ToM的难点。
技术方案:RL + 领域语言 + 组合代理
OSCToM的工作流程包括三个关键组件:
- 扩展领域特定语言:定义结构化场景,描述角色、信念和知识状态。
- 组合代理模型:生成多样化的冲突场景,覆盖不同的信息不对称模式。
- 强化学习引导:优化场景生成,使其既具挑战性又保持可解性,避免生成无效或过于简单的例子。
实验结果:小模型也能完成高级认知推理
在多个ToM基准上的测试显示:
- OSCToM-8B 在整体表现上优于其他系统,在FANToM基准上达到76%准确率,而ExploreToM仅0.2%。
- 在Hi-ToM和BigToM上也保持竞争力。
- 数据合成效率提升6倍,表明针对性训练数据能帮助较小模型处理高级认知推理。
行业意义
OSCToM不仅是一个新的基准生成框架,更揭示了当前LLM在ToM推理中的关键短板——递归信念冲突。传统测试多关注一级信念(“A相信什么”),而高阶ToM涉及“A相信B相信A相信……”的嵌套结构。OSCToM通过自动生成高质量冲突场景,为模型训练和评估提供了更有效的工具。
代码已开源,相关论文发表于arXiv。
