新上线今天0 投票
Prediction Arena:在真实预测市场上对AI模型进行基准测试
引言:AI模型在真实金融市场的“实战”检验
近期,一项名为 Prediction Arena 的基准测试研究引起了AI与金融科技领域的广泛关注。这项研究不再依赖传统的模拟数据集或静态测试,而是将前沿的AI模型直接投入真实的预测市场(如Kalshi和Polymarket),让它们使用真实资金进行自主交易,从而评估其预测准确性和决策能力。这种“实战”环境提供了无法被操纵或过拟合的客观事实,为衡量AI模型的真实性能开辟了新路径。
研究设计与核心发现
测试环境与模型分组
研究团队设置了两个实验组:
- 第一组(Cohort 1):包含六个前沿模型,在57天的纵向评估(2026年1月12日至3月9日)中,每个模型以10,000美元的初始资金在Kalshi和Polymarket上进行实盘交易,每15-45分钟自主决策一次。
- 第二组(Cohort 2):包含四个下一代模型,仅进行为期3天的模拟交易(paper trading),作为初步评估。
关键性能数据
- Kalshi平台表现:第一组模型的最终回报率在 -16.0% 至 -30.8% 之间,整体平均为-22.6%,表明在复杂市场环境中,AI模型普遍面临挑战。
- Polymarket平台对比:同一组模型在Polymarket上的平均回报率为 -1.1%,远高于Kalshi。其中,grok-4-20-checkpoint 模型实现了71.4%的结算胜率,是跨平台或组别中最高的。
- 最佳表现模型:第二组的 gemini-3.1-pro-preview 模型在Polymarket上3天内获得了 +6.02% 的回报率,是所有模型中最好的,尽管它在Kalshi上未执行任何交易。
深度分析:性能驱动因素与平台影响
性能层级与影响因素
研究分析揭示了一个清晰的性能层级:
- 初始预测准确性:模型对市场事件的初始判断是决定其表现的基础。
- 正确预测的资本化能力:即使预测正确,能否通过交易策略有效转化为收益是关键。
- 研究量无关性:模型在训练或推理过程中的研究量(如数据量)与交易结果没有显著相关性,这挑战了“更多数据必然更好”的假设。
平台设计的深远影响
跨平台的鲜明对比表明,平台设计对模型成功有深远影响。例如,Polymarket可能提供了更友好的交易环境或更清晰的市场信号,使得某些模型(如gemini-3.1-pro-preview)能够脱颖而出。这提示我们,在评估AI模型时,需考虑其与特定市场结构的适配性。
超越回报:行为分析与效率考量
除了财务回报,研究还深入分析了模型的其他维度:
- 计算效率:包括代币使用量和周期时间,这些指标反映了模型在实时决策中的资源消耗。
- 结算准确性:模型预测结果与实际市场结算的一致性。
- 退出模式与市场偏好:模型在何时、如何退出交易,以及它们对不同类型市场的倾向。
这些分析提供了AI模型在真实金融压力下行为的全面视图,有助于理解其决策机制和潜在风险。
行业意义与未来展望
Prediction Arena 的推出,标志着AI基准测试从“实验室”走向“战场”的重要一步。它不仅为模型评估提供了更真实的场景,还可能推动以下发展:
- 更稳健的AI金融应用:通过暴露模型在真实市场中的弱点,促进更安全、可靠的自动化交易系统。
- 跨学科融合:结合机器学习、经济学和金融学,深化对市场动态与AI交互的理解。
- 伦理与监管考量:随着AI自主交易增多,相关风险管理和政策框架需同步完善。
未来,类似基准测试或扩展至更多市场类型和更长周期,为AI模型的持续优化提供宝贵数据。