
AI模型在足球博彩中表现糟糕——尤其是xAI的Grok
AI模型在英超博彩中全军覆没,揭示现实世界分析的局限性
一项由AI初创公司General Reasoning发布的“KellyBench”报告显示,包括Google、OpenAI、Anthropic和xAI在内的顶级AI模型,在模拟2023-24赛季英超联赛的博彩任务中均未能盈利。这项研究突显了AI在特定任务(如编写软件)上能力迅速提升的同时,在处理其他类型人类问题时的明显短板。
实验设计:模拟英超赛季的虚拟博彩
伦敦的General Reasoning团队测试了八款前沿AI系统,为它们提供了详细的球队历史数据和比赛统计信息。AI“代理”被要求构建模型,以最大化回报并管理风险,随后对比赛结果和进球数进行投注。实验旨在测试AI如何适应新事件和更新的球员数据,同时禁止它们访问互联网获取实时结果。每个模型都有三次尝试机会,初始虚拟资金为10万英镑。
结果分析:所有模型均亏损,Grok表现最差
根据报告数据,Anthropic的Claude Opus 4.6表现相对最佳,平均亏损11%,其中一次尝试几乎持平(仅亏0.2%)。OpenAI的GPT-5.4平均亏损13.6%,而Google的Gemini 3.1 Pro虽在一次尝试中盈利33.7%,但另一次尝试中破产,导致平均亏损高达43.3%。
最引人注目的是xAI的Grok 4.20,它一次破产且未能完成其他两次尝试,平均亏损100%,最终资金为零。同样,Acree Trinity也以100%亏损告终。其他模型如Z.AI GLM-5和Moonshot Kimi K2.5同样表现不佳,平均亏损在58%至68%之间。
行业启示:AI在复杂现实任务中的挑战
报告作者总结道:“我们评估的每一个前沿模型在整个赛季中都亏损了,许多甚至遭遇了毁灭性损失。” 这表明AI在此类场景中“系统性地表现不如人类”。这一结果可能为那些担心AI会取代白领工作的专业人士和企业带来一些安慰,尤其是在金融和营销等行业。
深层思考:AI能力的边界与未来方向
尽管AI在语言生成和代码编写等领域取得了显著进展,但这项研究揭示了其在处理长期、动态的现实世界问题时的局限性。足球博彩涉及大量不确定性、实时数据变化和人类行为因素,AI模型目前难以有效模拟或预测这些复杂变量。
这提醒我们,AI的发展并非一蹴而就,其在特定领域的优势并不意味着能全面替代人类决策。未来,AI可能需要更精细的模型设计、更好的数据整合能力以及更深入的情境理解,才能在这些挑战性任务中取得突破。
