SheepNav
精选今天0 投票

合成对比推理:为多表问答注入可解释的推理轨迹

多表问答(Multi-Table Q&A)要求模型在多个关系型表格之间检索证据、链接模式并进行组合推理,是一项极具挑战性的任务。然而,现有的多表问答数据集通常只提供问题和最终答案,缺乏中间推理过程的监督信号,使得模型难以学习到真正的推理能力。

针对这一痛点,来自摩根大通等机构的研究者提出了一种名为合成对比推理(Synthetic Contrastive Reasoning) 的方法,通过合成对比推理轨迹数据集来增强模型的多表推理能力,相关论文已发表于 arXiv。

核心方法:生成正负推理轨迹

研究团队基于 MMQA 数据集构建了一套合成对比推理轨迹数据集。他们利用多个异构的大语言模型(LLMs)生成两种类型的推理轨迹:

  • 正例轨迹:经过验证的正确推理路径,能够准确得出答案。
  • 负例轨迹:看似合理但实际错误的推理路径,用于提供对比信号。

这些正负轨迹对构成了偏好数据,随后通过对比偏好优化(Contrastive Preference Optimization, CPO) 方法对开源大模型进行微调。CPO 的核心思想是让模型更倾向于生成正确的推理轨迹,同时避免错误的推理方式。

显著效果:性能大幅提升

实验在多个主流开源模型上进行,包括 Qwen3-14BMistral-8BLlama-3.1-8B。与传统的问答监督微调(SFT)相比,CPO 在 MMQA 数据集上的绝对平均提升幅度达到 9.7% 至 16.3%,其中最高提升可达 21 个百分点。这一结果充分证明了合成对比推理轨迹的有效性。

关键发现与意义

消融实验进一步揭示,使用异构的正例和负例生成器能够增强对比信号的强度,从而提升微调效果。自动评估和人工评估均表明,生成的推理轨迹在忠实性连贯性对比性方面表现良好,为多表问答的推理监督提供了可靠的数据基础。

这项研究不仅为多表问答任务提供了一种新的训练范式,也为可解释 AI 的发展提供了思路——通过显式的推理轨迹,模型不再只是“黑箱”输出答案,而是能够展示其推理过程。未来,该方法有望推广到更复杂的表格推理场景,如金融分析、数据库查询等。

总结

合成对比推理通过自动生成高质量的正负推理轨迹,结合对比偏好优化,显著提升了多表问答模型的推理能力。对于 AI 行业而言,这一方法打破了以往“只问答案不问过程”的局限,为构建更透明、更可靠的推理系统迈出了重要一步。

延伸阅读

  1. 可解释且可信的AI框架:基于OAI数据的膝骨关节炎结构-疼痛关联大规模纵向研究
  2. SentinelBench:专为长时间监控任务设计的AI智能体基准测试
  3. 不确定性感知的循环工厂功能行为预测与材料疲劳评估
查看原文