SheepNav
精选今天0 投票

数据与评估闭环:大模型能力提升的新方法论

概述

大语言模型(LLM)的预训练中,模型能力是核心变量,却从未被直接观测。数据塑造能力(前瞻),评估揭示能力(回顾),但两者之间缺乏可操作的桥梁。传统优化流程是“先看到失败,再推断数据修复”,工程师依赖直觉而非方法。近日,一篇 arXiv 论文提出 “能力切片”(capability slice) 概念,构建了从评估到数据的闭环,使推断变得可审计、可实验验证。

核心问题:评估与数据的“语言鸿沟”

评估侧使用基准名称样本正确性,数据侧使用数据来源、领域、质量标签,两者词汇不兼容。一个基准分数是多个因素(样本、提示、解码、评分规则)的嘈杂聚合,难以定位具体弱点;而单个样本噪声太大。工程师只能凭经验猜测:哪个数据环节出了问题?

解决方案:能力切片 + 分类体系 + 映射规则

论文提出 “能力切片”——一组共享背景条件、任务类型、求解操作和输出约束的评估样本。它足够精细以定位单一弱点,又足够稳定以承受聚合。围绕这一单元,作者构建了:

  • 评估分类法:按能力维度组织评估样本
  • 非指令数据分类法:按数据来源、领域、质量等标签组织预训练数据
  • 映射规则:连接评估失败与数据干预的对应关系

形成闭环:基准失败 → 能力切片诊断 → 数据干预 → 再评估验证。

实验验证:两个相反方向的案例

案例一:闭环“排除”数据问题

持续预训练导致 BBH 基准下降 46.82%。传统思路会怀疑数据质量。但闭环诊断发现:问题不在于数据内容,而在于训练中单个掩码 损失设置不当,削弱了推理能力。修复该损失后,BBH 回升至 66.44,甚至超过原始检查点。数据本身无需改变。

案例二:闭环“定位”数据干预

数学推理能力持续薄弱。通过求解操作分解,发现是特定组合的失败模式。基于此构建的弱点定向采样策略,使 AIME2025/AIME2026 Pass@128 从 6.67/0.00 提升至各 26.67。

同一套闭环在两个案例中得出了相反但正确的结论:第一个排除了数据问题,第二个精准定位了数据改进方向。

意义与展望

这项工作将评估到数据的推断从直觉驱动转变为方法驱动,使能力增强过程更加可审计、可重复。对于追求高效优化的大模型团队,这种闭环方法论有望成为标准实践。未来可进一步自动化映射规则,并扩展到指令微调与强化学习场景。

论文标题:Data and Evaluation Closed-Loop for Model Capability Enhancement
作者:Zhixuan Li, Jiangan Yuan, Han Xu
链接:arXiv:2606.28471

延伸阅读

  1. COMPASS:统一多模态模型中的构图意图引导与落地
  2. 用亚里士多德美德伦理学为LLM“画像”:VirtueMap框架解读
  3. 从推理中寻找真相:动态表征编辑框架如何引导大模型走向真实
查看原文