SheepNav
新上线今天0 投票

可验证奖励助力概率预测校准:7B模型达到市场级别精度

强化学习(RL)在可验证奖励的加持下,理论上能训练出校准良好的概率预测模型——因为像Brier分数这样的适当评分规则仅由真实结果计算而来,其期望值在真实概率处达到最小。然而,实际应用中,这一方法反而导致校准退化。现有补救措施主要针对认知不确定性,即模型对可验证正确或错误的答案给出置信度。

在这篇来自arXiv的论文(编号2607.00164)中,研究者将目光投向了偶然不确定性下的预测问题:预测本身即为输出,标签则是单一随机结果。他们以NFL比赛实时胜率为测试平台,以博彩市场赔率为校准基准。直接奖励模型基于每回合实际结果的做法以失败告终,因为单个结果是一个噪声极大的目标,策略梯度会污染推理链。

为此,论文提出了一个无标签的可验证奖励——基于历史结果估计的状态条件经验胜率。这一指标消除了标签噪声,同时通过直接预测或梯度掩码使梯度远离推理过程,避免其被污染。仅凭这一奖励,无需人工标签或监督微调,一个7B参数模型通过直接预测即可达到博彩市场的校准水平,其校准效果甚至优于零样本前沿模型。

有趣的是,该前沿模型和一种表格估计器取得了与7B模型相同的Brier分数,这揭示出市场剩余的微小优势来源于模型共享输入之外的实时比赛信息。而采用梯度掩码而非丢弃推理链的做法,保留了预测所依赖的推理能力——这是普通思维链训练所破坏的。

这项工作为概率预测的校准提供了一条新路径,尤其在体育博彩、天气预报、金融风控等依赖实时概率估计的领域具有潜在应用价值。它表明,精心设计的可验证奖励可以替代昂贵的人工标注,让中小规模模型也能达到专业水平。

延伸阅读

  1. FRAME:用分数傅里叶专家混合学习适配域
  2. EVOTS:进化Transformer搜索,为时间序列预测定制最优架构
  3. GRPO、Dr. GRPO 和 DAPO 竟是同一回事?论文揭示三者本质:操作的是同一个数
查看原文