SPSD：边缘端提示压缩降低云端LLM推理能耗

概述

大型语言模型（LLM）推理中的预填充阶段正成为云端能耗的日益增长的贡献者。许多用户提示包含社交性内容——如礼貌用语、道歉式开场白、重复表达和建立关系的话术——这些对人类交流重要，但对机器推理却信息量低。这种差异被称为社交-语义鸿沟。最新研究提出SPSD（情感保留语义蒸馏），一种在边缘设备上运行的提示压缩管道，旨在减少发送到云端LLM的输入长度，从而降低能耗，同时保持响应质量。

方法

SPSD 在用户终端（如手机或物联网设备）上部署一个 4-bit 量化的小型语言模型（SLM），在将提示传输到云端之前对其进行压缩。SLM 负责过滤掉社交性填充内容，仅保留核心语义信息，并保留情感基调。压缩后的提示再发送给云端的大型语言模型（如 Llama-3.1-8B-Instruct）进行推理。对于安全关键领域（如医疗或法律咨询），系统通过规则门控自动将提示原样透传，避免风险。

关键结果

研究团队使用 Gemma-2-2B-Instruct (Q4_K_M) 作为 SLM，Llama-3.1-8B-Instruct 作为云端评估模型，在 248 条提示的语料库上进行了评估。主要结果包括：

输入 token 节省：每次蒸馏调用平均节省 99.9 个 token，所有 146 次蒸馏调用均实现正节省。
响应质量：通过盲法 LLM-as-judge 评分（121 对对比），蒸馏路径的响应质量在 15 分制下与原始路径相比非劣效（预设 1 分边界）。评判结果中 43% 平局，28% 蒸馏胜出，29% 原始胜出。
余弦相似度：平均 0.682，中位数 0.712，54.1% 的对超过 0.70 参考阈值。
能耗节省：每次调用净节能估计为 70-270 μWh（基于假设）。

意义与展望

SPSD 证明了在设备端进行提示蒸馏可以有效降低云端 LLM 的输入 token 成本，同时在实际非劣效性边界内保持响应质量。该工作对边缘计算与云推理的协同具有重要启示：通过将轻量级处理卸载到边缘，可以显著减少云端负载和能源消耗，而无需牺牲用户体验。未来方向包括扩展 SLM 的压缩能力、优化安全路由策略，以及在更广泛的提示类型上验证鲁棒性。

SPSD：边缘端提示压缩缩小社交-语义鸿沟，降低云端LLM推理能耗

概述

方法

关键结果

意义与展望

延伸阅读

相关资讯