数据与评估闭环：大模型能力提升新方法论

概述

大语言模型（LLM）的预训练中，模型能力是核心变量，却从未被直接观测。数据塑造能力（前瞻），评估揭示能力（回顾），但两者之间缺乏可操作的桥梁。传统优化流程是“先看到失败，再推断数据修复”，工程师依赖直觉而非方法。近日，一篇 arXiv 论文提出 “能力切片”（capability slice） 概念，构建了从评估到数据的闭环，使推断变得可审计、可实验验证。

核心问题：评估与数据的“语言鸿沟”

评估侧使用基准名称和样本正确性，数据侧使用数据来源、领域、质量标签，两者词汇不兼容。一个基准分数是多个因素（样本、提示、解码、评分规则）的嘈杂聚合，难以定位具体弱点；而单个样本噪声太大。工程师只能凭经验猜测：哪个数据环节出了问题？

解决方案：能力切片 + 分类体系 + 映射规则

论文提出 “能力切片”——一组共享背景条件、任务类型、求解操作和输出约束的评估样本。它足够精细以定位单一弱点，又足够稳定以承受聚合。围绕这一单元，作者构建了：

评估分类法：按能力维度组织评估样本
非指令数据分类法：按数据来源、领域、质量等标签组织预训练数据
映射规则：连接评估失败与数据干预的对应关系

形成闭环：基准失败 → 能力切片诊断 → 数据干预 → 再评估验证。

实验验证：两个相反方向的案例

案例一：闭环“排除”数据问题

持续预训练导致 BBH 基准下降 46.82%。传统思路会怀疑数据质量。但闭环诊断发现：问题不在于数据内容，而在于训练中单个掩码损失设置不当，削弱了推理能力。修复该损失后，BBH 回升至 66.44，甚至超过原始检查点。数据本身无需改变。

案例二：闭环“定位”数据干预

数学推理能力持续薄弱。通过求解操作分解，发现是特定组合的失败模式。基于此构建的弱点定向采样策略，使 AIME2025/AIME2026 Pass@128 从 6.67/0.00 提升至各 26.67。

同一套闭环在两个案例中得出了相反但正确的结论：第一个排除了数据问题，第二个精准定位了数据改进方向。

意义与展望

这项工作将评估到数据的推断从直觉驱动转变为方法驱动，使能力增强过程更加可审计、可重复。对于追求高效优化的大模型团队，这种闭环方法论有望成为标准实践。未来可进一步自动化映射规则，并扩展到指令微调与强化学习场景。

论文标题：Data and Evaluation Closed-Loop for Model Capability Enhancement
作者：Zhixuan Li, Jiangan Yuan, Han Xu
链接：arXiv:2606.28471

数据与评估闭环：大模型能力提升的新方法论

概述