SheepNav
新上线今天0 投票

NumLeak:公开数值基准竟成基础模型“潜标签”,前沿大模型记忆能力惊人

核心发现:大模型“回忆”而非“推理”公开数据

一篇被 ICML 2026 研讨会 接收的论文《NumLeak: Public Numeric Benchmarks as Latent Labels in Foundation Models》揭示了一个严峻问题:当前顶尖大模型(如Claude、GPT等)在回答金融、经济、气候等数值问题时,可能并非基于推理,而是直接“背诵”训练数据中的公开基准

什么是 NumLeak?

研究者提出 NumLeak 测量框架,结合 API 黑盒探测与开源因果语言模型的白盒验证,量化这种记忆泄漏。结果显示:

  • 前沿模型对 Fama-French 市场超额回报 的回忆准确率高达 Pearson r=0.97~0.99(3种子聚合),对五个兄弟因子的误差控制在 0.15 基点以内
  • 类似的高保真记忆也出现在 美国失业率、CPI通胀、NOAA温度 等公开数据上。

记忆 vs. 推理:一个关键实验

当测试最新发布的 保留数据(模型训练时未见过的样本)时,模型回答率骤降至 21%~57%,但一旦回答,准确率仍接近 r≈0.99。这种“拒绝或完美回忆”的二元模式,恰恰是记忆通道的典型特征——模型要么不答,要么直接从训练数据中提取答案。

白盒验证与隐藏记忆

通过开源模型的白盒实验,研究者重现了 剂量-反应关系(训练数据出现次数越多,记忆越强)。更重要的是,logprob 排名 能检测到开放式生成无法暴露的记忆,这意味着 闭源 API 的黑盒探测可能严重低估了记忆泄漏的程度

一个警示案例

论文展示了一个有趣的反事实实验:将 Sonnet 模型的日期到市场情绪回归 结果与真实 Mkt-RF 对比,原始相关性为 r=0.74;但在残差化模型自身的记忆后,相关性骤降至 r=0.02。这明确说明,模型所谓的“市场分析”本质上不过是训练数据的回声。

防御与启示

好消息是,一句简单的系统提示防御 就能阻挡 99.8% 的非自适应单轮后缀攻击,且对概念性和历史叙述性查询的效用成本几乎为零。但论文作者警告:当前评估体系严重依赖公开基准,而这些基准可能早已“污染”训练数据。未来需要更严谨的按时间划分的评估集,以及更透明的模型训练数据披露。

小结

NumLeak 研究为 AI 评估领域敲响警钟:高分不等于高能。当模型在金融、科学等关键领域表现出色时,我们需追问——它是在“思考”还是在“背诵”?这项研究不仅提供了检测工具,更推动了行业对评估可信度的反思。

延伸阅读

  1. MADQI:面向AIS船舶异常检测的无监督学习新评估指标
  2. 突破 fMRI 数据瓶颈:双谱流匹配模型生成高保真脑功能时序数据
  3. 告别深度神经网络?新架构让LLM训练一步到位,全局最优解无需迭代
查看原文