OSCToM：RL引导对抗生成高阶心智理论挑战

大语言模型（LLM）在语言任务上表现优异，但在复杂社交场景中的心智理论（Theory of Mind, ToM）推理能力仍参差不齐。现有基准如ExploreToM，未能充分测试递归信念和信息不对称带来的挑战。为此，研究人员提出OSCToM（Observer-Self Conflict Theory of Mind），一种通过强化学习（RL）引导对抗生成来建模嵌套信念冲突的新方法。

核心挑战：观察者-自我冲突

OSCToM聚焦于观察者-自我冲突场景：观察者对他人的看法与自身信念状态相矛盾。这种冲突超越了简单的视角转换，要求模型进行递归、多层次的推理。例如，A认为B相信X，但A自己相信非X——这种嵌套信念冲突正是高阶ToM的难点。

技术方案：RL + 领域语言 + 组合代理

OSCToM的工作流程包括三个关键组件：

扩展领域特定语言：定义结构化场景，描述角色、信念和知识状态。
组合代理模型：生成多样化的冲突场景，覆盖不同的信息不对称模式。
强化学习引导：优化场景生成，使其既具挑战性又保持可解性，避免生成无效或过于简单的例子。

实验结果：小模型也能完成高级认知推理

在多个ToM基准上的测试显示：

OSCToM-8B 在整体表现上优于其他系统，在FANToM基准上达到76%准确率，而ExploreToM仅0.2%。
在Hi-ToM和BigToM上也保持竞争力。
数据合成效率提升6倍，表明针对性训练数据能帮助较小模型处理高级认知推理。

行业意义

OSCToM不仅是一个新的基准生成框架，更揭示了当前LLM在ToM推理中的关键短板——递归信念冲突。传统测试多关注一级信念（“A相信什么”），而高阶ToM涉及“A相信B相信A相信……”的嵌套结构。OSCToM通过自动生成高质量冲突场景，为模型训练和评估提供了更有效的工具。

代码已开源，相关论文发表于arXiv。

OSCToM：用强化学习生成高阶心智理论挑战，让AI更懂复杂社交

核心挑战：观察者-自我冲突

技术方案：RL + 领域语言 + 组合代理

实验结果：小模型也能完成高级认知推理

行业意义

延伸阅读

相关资讯