BayesBench：大模型多轮信念更新评估基准

大语言模型（LLM）越来越多地被部署在多轮对话场景中，每一轮对话都会带来新的证据，理想情况下应逐步降低模型对环境的不确定性。然而，现有评估大多只关注模型在单轮格式下的最终答案，忽略了这一逐步推理的过程。

最新研究论文《BayesBench: Evaluating LLM Belief Trajectories Under Multi-Turn Evidence Accumulation》提出了一个名为 BayesBench 的基准测试套件，专门用于评估 LLM 在多轮证据累积中信念更新的理性程度，并将其与理想的贝叶斯推理者进行对比。

三个渐进任务

BayesBench 包含三个复杂度递增的任务：

贝叶斯估计：模型需要从序列证据中推断一个未知参数。
贝叶斯预测：模型将推断出的关于潜在变量的信念转化为对结果的预测。
潜在框架贝叶斯预测：观测结果通过用户角色的框架进行过滤，模型需要联合推断潜在状态和用户角色。

主要发现

研究者在 7 个 LLM（参数量从 3B 到 70B 不等）上进行了测试，发现：

规模扩展有助于提升潜在推理和证据累积能力，有时信念更新甚至能匹配贝叶斯后验。
然而，这些提升 并未可靠地迁移到下游预测任务 上，揭示出模型在推断潜在结构与利用该结构理性更新对目标结果的信念之间存在 显著差距。

行业意义

这一发现对 LLM 的实际部署具有重要意义。在许多应用场景中（如医疗诊断、客服对话、科学推理），模型不仅需要给出最终答案，还需要在对话过程中动态调整其信念。BayesBench 提供了一种系统化的方法来诊断模型在 多轮推理中的理性程度，并指出了当前模型在信念更新与预测一致性上的短板。

未来，研究者可以借助 BayesBench 设计更有效的训练策略或推理算法，帮助 LLM 在对话中更像一个理性的贝叶斯 agent，从而提升其在复杂交互任务中的可靠性。

BayesBench：评估大模型在多轮证据累积中的信念轨迹

三个渐进任务

主要发现

行业意义

延伸阅读

相关资讯