小模型行为蒸馏失败：三阶段实验揭示系统性挑战

研究背景与目标

在大型语言模型（LLM）领域，模型规模与能力通常呈正相关。然而，小规模语言模型（参数在0.6B到2.3B之间）因其部署成本低、推理速度快，在边缘计算和资源受限场景中具有重要应用价值。一个关键挑战是：如何让这些“小模型”不仅生成内容，还能表现出更可靠、更人性化的行为倾向，如自我验证、不确定性承认和反馈整合。

来自Tinman Lab的研究者Hari Sadasivan近期在arXiv上发布了一篇题为《Disposition Distillation at Small Scale: A Three-Arc Negative Result》的论文，系统性地探索了将上述行为倾向“蒸馏”到小模型中的可能性。研究采用了一个四阶段全MIT蒸馏流程，并进行了后续的推理时干预实验。

核心发现：从“虚假阳性”到系统性失败

研究过程颇具戏剧性。最初，内部草案报告了令人振奋的结果：在Qwen3-0.6B学生模型上，MCAS（一个评估指标）提升了33.9分，HumanEval（代码生成基准）提升了15.3分。然而，在发表前的二次核查中，这两个数字均被证伪。

HumanEval的提升被发现是截断伪影：当生成长度限制（n_predict）从512调整到1024时，原本的+15.3分增益反而变成了**-8.0分**的下降。
MCAS的增益在采用公平的“苹果对苹果”评分标准后也完全消失。

这次证伪促使研究者展开了更深入、更系统的三阶段后续研究，但结果却指向了统一的负面结论。

三阶段实验的详细探索与失败

研究者在三个不同方向上进行了尝试，均未找到有效提升小模型行为倾向而不损害其核心能力的“操作符”。

1. 微调与对齐方法

尝试了监督微调（SFT） 和直接偏好优化（DPO） 结合LoRA（低秩适应）技术，在三个模型系列（Qwen3、Qwen3.5、Gemma 4、SmolLM2）和两个任务领域上进行实验。结果发现，这些方法要么无法显著改变评估者（judge）测量的行为倾向，要么在改变的同时严重损害了生成内容的质量，或者模型只是简单地模仿了特定风格而非真正内化了行为逻辑。

2. 推理时干预

研究者尝试在推理时对注意力头（特别是o_proj，即输出投影层）进行调节干预，以期动态影响模型输出。然而，这种方法同样未能产生稳定、有益的行为倾向改变。

3. 训练无关的“旁路”架构

设计了一个无需训练、基于冻结基础模型的“旁路”模块。该模块通过一个置信度门控机制，读取模型最后一个令牌的隐藏状态（h_last），试图辅助或修正主模型的输出。但研究发现，基于h_last的线性探针分类器存在两种主要的失败模式，无法可靠地识别或引导期望的行为。

失败的一致性与泛化性挑战

这项研究的负面结果具有惊人的一致性。实验覆盖了五款不同的小模型：Qwen3-0.6B、Qwen3-1.7B、Qwen3.5-0.8B、Gemma 4 E2B 和 SmolLM2-1.7B-Instruct。在所有模型上，上述方法均告失败。

更令人深思的是泛化性问题。研究者在分布内数据上进行交叉验证时，探针分类器取得了尚可的AUC分数（0.683）。然而，当面对全新的提示时，其性能骤降至随机水平（AUC=0.516）。这表明，即使在小规模、受控的设定下，学到的“行为”模式也极难推广到未见过的场景。

独立发现与贡献

除了核心的负面结果，研究还有一个独立发现：Gemma 4 E2B模型在特定领域（Chef）表现出近乎完全的“置信度-正确性”解耦。其断言不对称性指数低至-0.009，意味着无论答案正确与否，模型都以约91%的高置信度进行断言。这揭示了小模型在自我认知校准上的潜在缺陷。

本研究的贡献在于：

提供了一个带有机制分析的三阶段系统性负面结果。
提出了针对线性h_last探针的双失败模式分类法。
展示了一个诚实的证伪流程，能够将研究者自身最初产生的“虚假阳性”结果，转化为可发表的、有价值的负面发现，这对科学研究的严谨性具有示范意义。

对AI行业与研究的启示

这项研究为当前火热的“小模型”和“行为对齐”领域泼了一盆必要的冷水。它表明，将复杂的行为倾向（如诚实、谦逊、反思）蒸馏到参数有限的小模型中，可能比预想的要困难得多。简单的微调、即时的架构修补或浅层的特征读取，似乎难以触及问题的核心。

这提示业界和学术界可能需要重新思考方向：

更根本的架构创新：或许需要超越现有Transformer框架的某些设计，来原生地支持这些元认知能力。
评估基准的完善：研究暴露了现有评估方法（如特定设置下的HumanEval）可能产生误导性结果的风险，强调了对评估进行鲁棒性检验的重要性。
对“小模型智能”的理性预期：在追求模型小型化的同时，需要对小模型的能力边界，特别是高阶认知和社交智能相关的能力，抱有更现实的期待。

这项“负面结果”的价值，恰恰在于它清晰地标定了一条看似有希望但实际走不通的道路，为后续研究节省了资源，并指明了需要更深层突破的方向。

小规模模型行为蒸馏实验：一项三阶段负面结果研究