UCCI：成本最优的LLM级联路由新方法，推理成本降低31%

大型语言模型（LLM）的推理成本一直是实际部署中的核心挑战。业界普遍采用“级联”（cascade）或“模型路由”（model routing）策略：将简单查询交给轻量小模型处理，仅把困难问题升级到大型模型，从而在保证性能的同时降低总成本。然而，现有路由方法大多依赖未校准的置信度分数，且需要针对不同工作负载手动调整阈值，缺乏通用性和稳定性。

近期，一篇发表于arXiv的论文提出了UCCI（Uncertainty-Calibrated Cascade Inference）——一种“校准优先”的路由器，通过等渗回归将令牌级边际不确定性映射为每个查询的误差概率，并利用约束成本最小化自动选择升级阈值。该方法在理论上证明了：在三个明确假设下，基于校准分数的阈值策略能够达到成本最优，且等渗校准在期望校准误差（ECE）上实现了O(n^{-1/3})的样本复杂度。

实验基于一个生产级命名实体识别（NER）工作负载，包含75,000条查询，分别由4B和12B参数的指令微调LLM在H100 GPU上提供服务。结果显示：在微F1分数保持0.91的前提下，UCCI将推理成本降低了31%（95%置信区间：[27%, 35%]），同时将ECE从0.12降至0.03。在同一运行点上，UCCI全面超越了熵阈值法、分裂共形路由以及FrugalGPT风格的学习阈值方法。

值得注意的是，所有级联结果均基于实际模型输出的端到端路由和实测H100延迟，而非模拟路由或名义API价格。这使结论更具工程参考价值。

UCCI的核心贡献在于：

校准驱动：将路由决策建立在经过不确定性校准的分数上，而非原始logits或熵，从而更可靠地反映模型对答案的把握程度。
自动阈值选择：通过约束成本最小化自动确定升级阈值，消除了人工调参的负担。
理论保证：证明了在合理假设下策略的成本最优性，并给出了校准误差的收敛速率。

这一工作为LLM部署中的成本-质量权衡提供了新思路。未来，UCCI有望被集成到推理框架中，使开发者无需手动权衡即可获得接近最优的路由策略。对于追求高性价比AI服务的企业而言，这无疑是一个值得关注的进展。

UCCI：校准不确定性实现成本最优的LLM级联路由

延伸阅读

相关资讯