SheepNav
新上线今天0 投票

Prediction Arena:在真实预测市场上对AI模型进行基准测试

引言:AI模型在真实金融市场的“实战”检验

近期,一项名为 Prediction Arena 的基准测试研究引起了AI与金融科技领域的广泛关注。这项研究不再依赖传统的模拟数据集或静态测试,而是将前沿的AI模型直接投入真实的预测市场(如Kalshi和Polymarket),让它们使用真实资金进行自主交易,从而评估其预测准确性和决策能力。这种“实战”环境提供了无法被操纵或过拟合的客观事实,为衡量AI模型的真实性能开辟了新路径。

研究设计与核心发现

测试环境与模型分组

研究团队设置了两个实验组:

  • 第一组(Cohort 1):包含六个前沿模型,在57天的纵向评估(2026年1月12日至3月9日)中,每个模型以10,000美元的初始资金在Kalshi和Polymarket上进行实盘交易,每15-45分钟自主决策一次。
  • 第二组(Cohort 2):包含四个下一代模型,仅进行为期3天的模拟交易(paper trading),作为初步评估。

关键性能数据

  • Kalshi平台表现:第一组模型的最终回报率在 -16.0% 至 -30.8% 之间,整体平均为-22.6%,表明在复杂市场环境中,AI模型普遍面临挑战。
  • Polymarket平台对比:同一组模型在Polymarket上的平均回报率为 -1.1%,远高于Kalshi。其中,grok-4-20-checkpoint 模型实现了71.4%的结算胜率,是跨平台或组别中最高的。
  • 最佳表现模型:第二组的 gemini-3.1-pro-preview 模型在Polymarket上3天内获得了 +6.02% 的回报率,是所有模型中最好的,尽管它在Kalshi上未执行任何交易。

深度分析:性能驱动因素与平台影响

性能层级与影响因素

研究分析揭示了一个清晰的性能层级:

  1. 初始预测准确性:模型对市场事件的初始判断是决定其表现的基础。
  2. 正确预测的资本化能力:即使预测正确,能否通过交易策略有效转化为收益是关键。
  3. 研究量无关性:模型在训练或推理过程中的研究量(如数据量)与交易结果没有显著相关性,这挑战了“更多数据必然更好”的假设。

平台设计的深远影响

跨平台的鲜明对比表明,平台设计对模型成功有深远影响。例如,Polymarket可能提供了更友好的交易环境或更清晰的市场信号,使得某些模型(如gemini-3.1-pro-preview)能够脱颖而出。这提示我们,在评估AI模型时,需考虑其与特定市场结构的适配性。

超越回报:行为分析与效率考量

除了财务回报,研究还深入分析了模型的其他维度:

  • 计算效率:包括代币使用量和周期时间,这些指标反映了模型在实时决策中的资源消耗。
  • 结算准确性:模型预测结果与实际市场结算的一致性。
  • 退出模式与市场偏好:模型在何时、如何退出交易,以及它们对不同类型市场的倾向。

这些分析提供了AI模型在真实金融压力下行为的全面视图,有助于理解其决策机制和潜在风险。

行业意义与未来展望

Prediction Arena 的推出,标志着AI基准测试从“实验室”走向“战场”的重要一步。它不仅为模型评估提供了更真实的场景,还可能推动以下发展:

  • 更稳健的AI金融应用:通过暴露模型在真实市场中的弱点,促进更安全、可靠的自动化交易系统。
  • 跨学科融合:结合机器学习、经济学和金融学,深化对市场动态与AI交互的理解。
  • 伦理与监管考量:随着AI自主交易增多,相关风险管理和政策框架需同步完善。

未来,类似基准测试或扩展至更多市场类型和更长周期,为AI模型的持续优化提供宝贵数据。

延伸阅读

  1. 大语言模型情感表征的潜在几何结构研究
  2. 谱边生命周期:从梯度学习到权重衰减压缩的演化
  3. 情绪刺激与强度如何塑造大语言模型行为:一项新研究揭示情感提示的复杂影响
查看原文