Prediction Arena：AI模型在真实预测市场的基准测试结果

引言：AI模型在真实金融市场的“实战”检验

近期，一项名为 Prediction Arena 的基准测试研究引起了AI与金融科技领域的广泛关注。这项研究不再依赖传统的模拟数据集或静态测试，而是将前沿的AI模型直接投入真实的预测市场（如Kalshi和Polymarket），让它们使用真实资金进行自主交易，从而评估其预测准确性和决策能力。这种“实战”环境提供了无法被操纵或过拟合的客观事实，为衡量AI模型的真实性能开辟了新路径。

研究设计与核心发现

测试环境与模型分组

研究团队设置了两个实验组：

第一组（Cohort 1）：包含六个前沿模型，在57天的纵向评估（2026年1月12日至3月9日）中，每个模型以10,000美元的初始资金在Kalshi和Polymarket上进行实盘交易，每15-45分钟自主决策一次。
第二组（Cohort 2）：包含四个下一代模型，仅进行为期3天的模拟交易（paper trading），作为初步评估。

关键性能数据

Kalshi平台表现：第一组模型的最终回报率在 -16.0% 至 -30.8% 之间，整体平均为-22.6%，表明在复杂市场环境中，AI模型普遍面临挑战。
Polymarket平台对比：同一组模型在Polymarket上的平均回报率为 -1.1%，远高于Kalshi。其中，grok-4-20-checkpoint 模型实现了71.4%的结算胜率，是跨平台或组别中最高的。
最佳表现模型：第二组的 gemini-3.1-pro-preview 模型在Polymarket上3天内获得了 +6.02% 的回报率，是所有模型中最好的，尽管它在Kalshi上未执行任何交易。

深度分析：性能驱动因素与平台影响

性能层级与影响因素

研究分析揭示了一个清晰的性能层级：

初始预测准确性：模型对市场事件的初始判断是决定其表现的基础。
正确预测的资本化能力：即使预测正确，能否通过交易策略有效转化为收益是关键。
研究量无关性：模型在训练或推理过程中的研究量（如数据量）与交易结果没有显著相关性，这挑战了“更多数据必然更好”的假设。

平台设计的深远影响

跨平台的鲜明对比表明，平台设计对模型成功有深远影响。例如，Polymarket可能提供了更友好的交易环境或更清晰的市场信号，使得某些模型（如gemini-3.1-pro-preview）能够脱颖而出。这提示我们，在评估AI模型时，需考虑其与特定市场结构的适配性。

超越回报：行为分析与效率考量

除了财务回报，研究还深入分析了模型的其他维度：

计算效率：包括代币使用量和周期时间，这些指标反映了模型在实时决策中的资源消耗。
结算准确性：模型预测结果与实际市场结算的一致性。
退出模式与市场偏好：模型在何时、如何退出交易，以及它们对不同类型市场的倾向。

这些分析提供了AI模型在真实金融压力下行为的全面视图，有助于理解其决策机制和潜在风险。

行业意义与未来展望

Prediction Arena 的推出，标志着AI基准测试从“实验室”走向“战场”的重要一步。它不仅为模型评估提供了更真实的场景，还可能推动以下发展：

更稳健的AI金融应用：通过暴露模型在真实市场中的弱点，促进更安全、可靠的自动化交易系统。
跨学科融合：结合机器学习、经济学和金融学，深化对市场动态与AI交互的理解。
伦理与监管考量：随着AI自主交易增多，相关风险管理和政策框架需同步完善。

未来，类似基准测试或扩展至更多市场类型和更长周期，为AI模型的持续优化提供宝贵数据。

Prediction Arena：在真实预测市场上对AI模型进行基准测试