SheepNav
新上线今天0 投票

SPSD:边缘端提示压缩缩小社交-语义鸿沟,降低云端LLM推理能耗

概述

大型语言模型(LLM)推理中的预填充阶段正成为云端能耗的日益增长的贡献者。许多用户提示包含社交性内容——如礼貌用语、道歉式开场白、重复表达和建立关系的话术——这些对人类交流重要,但对机器推理却信息量低。这种差异被称为社交-语义鸿沟。最新研究提出SPSD(情感保留语义蒸馏),一种在边缘设备上运行的提示压缩管道,旨在减少发送到云端LLM的输入长度,从而降低能耗,同时保持响应质量。

方法

SPSD 在用户终端(如手机或物联网设备)上部署一个 4-bit 量化的小型语言模型(SLM),在将提示传输到云端之前对其进行压缩。SLM 负责过滤掉社交性填充内容,仅保留核心语义信息,并保留情感基调。压缩后的提示再发送给云端的大型语言模型(如 Llama-3.1-8B-Instruct)进行推理。对于安全关键领域(如医疗或法律咨询),系统通过规则门控自动将提示原样透传,避免风险。

关键结果

研究团队使用 Gemma-2-2B-Instruct (Q4_K_M) 作为 SLM,Llama-3.1-8B-Instruct 作为云端评估模型,在 248 条提示的语料库上进行了评估。主要结果包括:

  • 输入 token 节省:每次蒸馏调用平均节省 99.9 个 token,所有 146 次蒸馏调用均实现正节省。
  • 响应质量:通过盲法 LLM-as-judge 评分(121 对对比),蒸馏路径的响应质量在 15 分制下与原始路径相比非劣效(预设 1 分边界)。评判结果中 43% 平局,28% 蒸馏胜出,29% 原始胜出。
  • 余弦相似度:平均 0.682,中位数 0.712,54.1% 的对超过 0.70 参考阈值。
  • 能耗节省:每次调用净节能估计为 70-270 μWh(基于假设)。

意义与展望

SPSD 证明了在设备端进行提示蒸馏可以有效降低云端 LLM 的输入 token 成本,同时在实际非劣效性边界内保持响应质量。该工作对边缘计算与云推理的协同具有重要启示:通过将轻量级处理卸载到边缘,可以显著减少云端负载和能源消耗,而无需牺牲用户体验。未来方向包括扩展 SLM 的压缩能力、优化安全路由策略,以及在更广泛的提示类型上验证鲁棒性。

延伸阅读

  1. 自博弈加少量人类数据,自动驾驶习得类人行为
  2. 零膨胀高斯分布:为分布估计算法开辟参数空间稀疏性新路径
  3. AdamW训练中权重尺度参数为何先升后降?Weibull框架给出三力分解
查看原文