别只想着“后期修复”：AI科学必须研究训练动态

AI模型不是静态的成品，而是由数据、目标、架构和优化动态共同塑造的时间演化过程的瞬间快照。然而，当前大部分AI研究仍将模型视为固定产物，仅分析训练后的行为，却很少追问这些行为为何在训练过程中涌现。近日，一篇被 ICML 2026 接收为口头报告的立场论文（arXiv:2606.06533）尖锐指出：AI科学必须超越“后期修复”思维，系统性地研究训练动态。

从“事后分析”到“过程理解”

论文由 Stella Biderman、Mohammad Aflah Khan 等六位学者联合撰写。他们主张，真正的AI科学应当支持三种渐进的认知层次：

预测：从早期训练信号预判最终模型行为；
干预：在训练轨迹偏离时及时调整；
设计：可靠地设计训练流程以产生期望属性。

目前，规模定律已能准确预测损失函数的变化趋势，但模型的能力、偏见、鲁棒性和安全相关行为仍难以预测。论文认为，这正是训练动态研究的核心挑战——将预测能力从损失延伸到更复杂的泛化属性。

关键领域与开放问题

论文梳理了机械可解释性、公平性、记忆化、简单性偏好等领域的进展，并指出这些领域目前仍多依赖“事后解释”，缺乏对训练过程中行为成因的因果理解。例如，公平性研究常检测到模型偏见，却很少追问偏见在训练哪一阶段、由哪些数据分布或优化步骤触发。

作者们基于科学史与科学哲学，提出了构建训练动态理论所需的原则，并列出若干具体的开放问题：

能否从早期梯度信号预测模型最终的能力边界？
如何识别并修正训练中的“危险轨迹”？
设计怎样的训练目标与数据配比能抑制记忆化、增强泛化？

对AI安全与治理的意义

该论文的发表时机正值AI安全讨论升温。如果研究者能像预测损失一样预测模型的安全行为，就能在训练早期发现风险，而不是在模型部署后再“打补丁”。这种主动式安全思路可能改变行业惯例：从“训练后对齐”转向“训练中引导”。

小结

这篇立场论文并非提供现成答案，而是为AI研究树立一面镜子——提醒社区：模型行为不是偶然，而是训练动态的必然结果。 唯有将训练过程本身作为研究对象，AI才能从“炼金术”走向真正的科学。

别只想着“后期修复”：AI科学必须研究训练动态

从“事后分析”到“过程理解”

关键领域与开放问题

对AI安全与治理的意义

小结

延伸阅读

相关资讯