精选今天0 投票
OmniMem:面向流式音视频大模型的扰动感知内存压缩框架
背景:音视频大模型的长视频推理瓶颈
随着多模态大模型在视频理解领域的深入应用,音视频大模型(Audio-Visual LLMs) 在处理长视频时面临严峻的内存挑战。视频帧和音频片段会转化为大量 token,同时自注意力机制所需的 键值缓存(KV cache) 随序列长度线性增长,导致显存爆炸和推理延迟。现有压缩方法通常对所有 token 一视同仁,忽略了视觉与音频模态之间天然的 token 数量不均衡——视频帧通常比音频片段产生更多 token,这导致内存分配不合理,关键信息容易被稀释。
OmniMem 的核心创新
针对上述问题,来自多所机构的研究者提出了 OmniMem,一种专为流式音视频大模型设计的内存高效框架。其核心创新包括:
- 模态感知内存分配(Modality-aware Memory Allocation):不再将视觉和音频 token 混为一谈,而是分别为视觉和音频上下文独立管理内存。这种策略直接解决了模态间 token 数量严重失衡的问题,确保每种模态的关键信息都能获得合理的存储空间。
- 扰动感知内存选择(Perturbation-aware Memory Selection):通过评估移除某个 KV 状态对模型输出的“扰动”程度,优先保留那些对最终预测影响最大的信息性、非冗余状态。这使得压缩后的内存仍然能够维持长距离依赖的建模能力。
- 预算感知微调(Budget-aware Fine-tuning):在真实部署的有限内存预算约束下,通过微调让模型主动学会将有用信息整合到保留的内存中,进一步提升压缩效率。
实验结果与行业意义
OmniMem 在 VideoMME Long、LVBench 和 LVOmniBench 三个长视频理解基准上,基于 video-SALMONN 2+ 和 Qwen-2.5-Omni 两个主流模型进行了测试。结果显示:
- 在相同内存预算下,无需微调的 OmniMem 比现有强训练无关压缩方法 绝对准确率提升 2-4%;
- 结合预算感知微调后,额外获得 1-2% 的增益。
这一成果对于 流式视频处理、智能监控、长视频内容分析 等现实场景具有重要价值。它表明,通过精细化的模态感知和扰动引导的压缩策略,可以在不显著牺牲性能的前提下,大幅降低大模型在长视频推理中的内存占用。未来,OmniMem 的思路可能被推广至更多模态组合(如图文、视频-文本),并推动实时多模态 AI 系统的落地。