AI模型英超博彩表现差，xAI Grok亏损最严重

AI模型在英超博彩中全军覆没，揭示现实世界分析的局限性

一项由AI初创公司General Reasoning发布的“KellyBench”报告显示，包括Google、OpenAI、Anthropic和xAI在内的顶级AI模型，在模拟2023-24赛季英超联赛的博彩任务中均未能盈利。这项研究突显了AI在特定任务（如编写软件）上能力迅速提升的同时，在处理其他类型人类问题时的明显短板。

实验设计：模拟英超赛季的虚拟博彩

伦敦的General Reasoning团队测试了八款前沿AI系统，为它们提供了详细的球队历史数据和比赛统计信息。AI“代理”被要求构建模型，以最大化回报并管理风险，随后对比赛结果和进球数进行投注。实验旨在测试AI如何适应新事件和更新的球员数据，同时禁止它们访问互联网获取实时结果。每个模型都有三次尝试机会，初始虚拟资金为10万英镑。

结果分析：所有模型均亏损，Grok表现最差

根据报告数据，Anthropic的Claude Opus 4.6表现相对最佳，平均亏损11%，其中一次尝试几乎持平（仅亏0.2%）。OpenAI的GPT-5.4平均亏损13.6%，而Google的Gemini 3.1 Pro虽在一次尝试中盈利33.7%，但另一次尝试中破产，导致平均亏损高达43.3%。

最引人注目的是xAI的Grok 4.20，它一次破产且未能完成其他两次尝试，平均亏损100%，最终资金为零。同样，Acree Trinity也以100%亏损告终。其他模型如Z.AI GLM-5和Moonshot Kimi K2.5同样表现不佳，平均亏损在58%至68%之间。

行业启示：AI在复杂现实任务中的挑战

报告作者总结道：“我们评估的每一个前沿模型在整个赛季中都亏损了，许多甚至遭遇了毁灭性损失。” 这表明AI在此类场景中“系统性地表现不如人类”。这一结果可能为那些担心AI会取代白领工作的专业人士和企业带来一些安慰，尤其是在金融和营销等行业。

深层思考：AI能力的边界与未来方向

尽管AI在语言生成和代码编写等领域取得了显著进展，但这项研究揭示了其在处理长期、动态的现实世界问题时的局限性。足球博彩涉及大量不确定性、实时数据变化和人类行为因素，AI模型目前难以有效模拟或预测这些复杂变量。

这提醒我们，AI的发展并非一蹴而就，其在特定领域的优势并不意味着能全面替代人类决策。未来，AI可能需要更精细的模型设计、更好的数据整合能力以及更深入的情境理解，才能在这些挑战性任务中取得突破。

AI模型在足球博彩中表现糟糕——尤其是xAI的Grok

AI模型在英超博彩中全军覆没，揭示现实世界分析的局限性

实验设计：模拟英超赛季的虚拟博彩

结果分析：所有模型均亏损，Grok表现最差

行业启示：AI在复杂现实任务中的挑战

深层思考：AI能力的边界与未来方向

延伸阅读

相关资讯