合成对比推理：多表问答的推理轨迹增强方法

多表问答（Multi-Table Q&A）要求模型在多个关系型表格之间检索证据、链接模式并进行组合推理，是一项极具挑战性的任务。然而，现有的多表问答数据集通常只提供问题和最终答案，缺乏中间推理过程的监督信号，使得模型难以学习到真正的推理能力。

针对这一痛点，来自摩根大通等机构的研究者提出了一种名为合成对比推理（Synthetic Contrastive Reasoning） 的方法，通过合成对比推理轨迹数据集来增强模型的多表推理能力，相关论文已发表于 arXiv。

核心方法：生成正负推理轨迹

研究团队基于 MMQA 数据集构建了一套合成对比推理轨迹数据集。他们利用多个异构的大语言模型（LLMs）生成两种类型的推理轨迹：

正例轨迹：经过验证的正确推理路径，能够准确得出答案。
负例轨迹：看似合理但实际错误的推理路径，用于提供对比信号。

这些正负轨迹对构成了偏好数据，随后通过对比偏好优化（Contrastive Preference Optimization, CPO） 方法对开源大模型进行微调。CPO 的核心思想是让模型更倾向于生成正确的推理轨迹，同时避免错误的推理方式。

显著效果：性能大幅提升

实验在多个主流开源模型上进行，包括 Qwen3-14B、Mistral-8B 和 Llama-3.1-8B。与传统的问答监督微调（SFT）相比，CPO 在 MMQA 数据集上的绝对平均提升幅度达到 9.7% 至 16.3%，其中最高提升可达 21 个百分点。这一结果充分证明了合成对比推理轨迹的有效性。

关键发现与意义

消融实验进一步揭示，使用异构的正例和负例生成器能够增强对比信号的强度，从而提升微调效果。自动评估和人工评估均表明，生成的推理轨迹在忠实性、连贯性和对比性方面表现良好，为多表问答的推理监督提供了可靠的数据基础。

这项研究不仅为多表问答任务提供了一种新的训练范式，也为可解释 AI 的发展提供了思路——通过显式的推理轨迹，模型不再只是“黑箱”输出答案，而是能够展示其推理过程。未来，该方法有望推广到更复杂的表格推理场景，如金融分析、数据库查询等。

总结

合成对比推理通过自动生成高质量的正负推理轨迹，结合对比偏好优化，显著提升了多表问答模型的推理能力。对于 AI 行业而言，这一方法打破了以往“只问答案不问过程”的局限，为构建更透明、更可靠的推理系统迈出了重要一步。

合成对比推理：为多表问答注入可解释的推理轨迹

核心方法：生成正负推理轨迹

显著效果：性能大幅提升

关键发现与意义

总结

延伸阅读

相关资讯