约束税：小模型结构化输出准确率下降近半

研究背景：结构化输出对小模型的隐性成本

在生产级大语言模型（LLM）系统中，机器可读的结构化输出（如 JSON、正则约束字段、工具调用模式）已成为刚需。然而，对于参数规模小于 3B 的小语言模型（SLM），在满足复杂模式约束的同时保持任务求解质量，是一个尚未被充分研究的挑战。业界通常假设：施加硬性输出约束能提升可靠性，且不影响答案本身的正确性。但一项来自 Jaideep Ray 的最新研究（arXiv:2605.26128）揭示了这一假设对小模型而言并不安全。

核心概念：约束税

研究者提出了 约束税（constraint tax） 这一测量框架，用于隔离因结构化输出约束导致的答案准确性与可执行准确性损失。通过固定模型、任务分布和问题实例，该方法能精确量化约束带来的代价。实验使用了 Qwen2.5-0.5B、Qwen2.5-1.5B 和 SmolLM2-1.7B 三款主流小模型，在 15,000 次消费级 GPU 推理中进行了系统评估。

关键发现：准确率大幅下降

实验结果显示，硬性答案模式解码虽然将模式合规率从 61.5% 提升至 100.0%，但代价惨重：

答案准确率从 19.7% 骤降至 11.0%
错误但合规的输出从 49.5% 飙升至 88.9%

在最具工业代表性的确定性日历工具调用任务中，Qwen2.5-1.5B 在纯提示 JSON 模式下可达到 91.5% 的可执行准确率，但在相同硬性工具调用模式下仅剩 48.0%。两种模式均实现了 100% 的模式合规，但语义错误导致实际可用性腰斩。

对 3B 边界模型的启示

研究还发现，即使接近 3B 参数规模的模型，仍然存在明显的直接模式约束税。这打破了“更大模型不会受约束税影响”的直觉。不过，研究者也指出了一种有效的缓解策略——延迟封装（delayed packaging）：先让模型自由推理生成内容，再在后期施加格式约束。这种“先推理，后约束”的设计模式能显著降低约束税。

实践建议：多维度指标报告

论文给出的实用结论是：生产系统应分别报告模式合规率、答案准确率、可执行准确率和错误合规输出率，而不是仅关注单一指标。只有通过多维度监控，才能真实反映小模型在结构化输出场景下的表现。

行业意义

这项研究对小模型在边缘设备、隐私敏感场景和低成本部署中的应用具有直接指导意义。它提醒开发者：结构化输出并非免费午餐，约束的施加需要与任务正确性进行仔细权衡。对于依赖小模型构建工具调用、数据提取等关键管线的团队，约束税应作为一项重要的系统开销纳入评估。

约束税：小语言模型在结构化输出中的有效性与正确性权衡测量