架构驱动偏移：轻量级选择器捕捉对数偏移趋势

在持续学习（CL）领域，如何从海量预训练模型中挑选出能更好平衡“可塑性-稳定性”的模型，一直是个关键难题。对数偏移（logit shift）天然适合作为评估指标，因为它直接反映了CL场景中的模型输出变化。然而，计算对数偏移需要巨大的计算开销，阻碍了大规模模型选择。现有理论分析因假设隐藏层宽度均匀，忽略了实际架构的异质性（变宽度和深度），无法提供高效替代方案。

针对这一挑战，来自研究团队的最新论文《Architecture-driven Shift: towards a lightweight selector for capturing the trends of logit shift》提出了一种名为**架构驱动偏移（ADS）**的轻量级指标。论文核心在于：将对数偏移解耦为架构依赖和数据依赖两部分，并证明两者组合成的ADS能够仅用少量数据样本即可有效捕捉对数偏移趋势。

理论机制：三大组件

ADS的推导基于三个机械组件：

权重矩阵梯度的谱范数与层宽度的缩放关系：揭示了架构如何影响梯度传播。
新任务的优化路径长度：反映了学习新任务时模型需要调整的程度。
宽网络中的渐近任务冲突：当网络宽度增加时，不同任务之间的冲突趋于稳定。

理论表明，对于在先前任务上优化良好的模型，ADS值越高，意味着在当前任务训练后对数偏移越大。

实证验证：强单调相关性

研究团队在超过175种不同架构上进行了广泛实验，结果显示ADS与对数偏移之间存在强单调相关性（最弱斯皮尔曼相关系数 $r_s=0.731$）。这意味着ADS可以作为对数偏移的可靠代理，而计算成本却极低。

实际应用：轻量级校准误差代理

进一步，论文展示了ADS可作为预期校准误差（ECE）的轻量级代理——ECE是可靠CL模型选择中广泛使用的指标。在三个数据集、六个场景下的实验表明，ADS能有效替代ECE，大幅降低计算负担。

意义与展望

这项研究为持续学习中的模型选择提供了一种理论驱动、计算高效的实用工具。它摆脱了对均匀宽度假设的依赖，直接应对真实世界架构的异质性。未来，ADS有望被集成到自动化模型搜索或在线学习系统中，帮助开发者快速筛选出最适合的预训练模型，从而提升CL系统在动态环境下的鲁棒性与适应性。

架构驱动偏移：一种轻量级选择器，用于捕捉对数偏移趋势

理论机制：三大组件

实证验证：强单调相关性

实际应用：轻量级校准误差代理

意义与展望

延伸阅读

相关资讯