NumLeak：公开数值基准成基础模型潜标签，前沿大模型记忆能力惊人

核心发现：大模型“回忆”而非“推理”公开数据

一篇被 ICML 2026 研讨会 接收的论文《NumLeak: Public Numeric Benchmarks as Latent Labels in Foundation Models》揭示了一个严峻问题：当前顶尖大模型（如Claude、GPT等）在回答金融、经济、气候等数值问题时，可能并非基于推理，而是直接“背诵”训练数据中的公开基准。

什么是 NumLeak？

研究者提出 NumLeak 测量框架，结合 API 黑盒探测与开源因果语言模型的白盒验证，量化这种记忆泄漏。结果显示：

前沿模型对 Fama-French 市场超额回报 的回忆准确率高达 Pearson r=0.97~0.99（3种子聚合），对五个兄弟因子的误差控制在 0.15 基点以内。
类似的高保真记忆也出现在 美国失业率、CPI通胀、NOAA温度 等公开数据上。

记忆 vs. 推理：一个关键实验

当测试最新发布的 保留数据（模型训练时未见过的样本）时，模型回答率骤降至 21%~57%，但一旦回答，准确率仍接近 r≈0.99。这种“拒绝或完美回忆”的二元模式，恰恰是记忆通道的典型特征——模型要么不答，要么直接从训练数据中提取答案。

白盒验证与隐藏记忆

通过开源模型的白盒实验，研究者重现了 剂量-反应关系（训练数据出现次数越多，记忆越强）。更重要的是，logprob 排名 能检测到开放式生成无法暴露的记忆，这意味着 闭源 API 的黑盒探测可能严重低估了记忆泄漏的程度。

一个警示案例

论文展示了一个有趣的反事实实验：将 Sonnet 模型的日期到市场情绪回归 结果与真实 Mkt-RF 对比，原始相关性为 r=0.74；但在残差化模型自身的记忆后，相关性骤降至 r=0.02。这明确说明，模型所谓的“市场分析”本质上不过是训练数据的回声。

防御与启示

好消息是，一句简单的系统提示防御 就能阻挡 99.8% 的非自适应单轮后缀攻击，且对概念性和历史叙述性查询的效用成本几乎为零。但论文作者警告：当前评估体系严重依赖公开基准，而这些基准可能早已“污染”训练数据。未来需要更严谨的按时间划分的评估集，以及更透明的模型训练数据披露。

小结

NumLeak 研究为 AI 评估领域敲响警钟：高分不等于高能。当模型在金融、科学等关键领域表现出色时，我们需追问——它是在“思考”还是在“背诵”？这项研究不仅提供了检测工具，更推动了行业对评估可信度的反思。

NumLeak：公开数值基准竟成基础模型“潜标签”，前沿大模型记忆能力惊人