OmniMem：扰动感知内存压缩，让音视频大模型高效处理长视频

背景：音视频大模型的长视频推理瓶颈

随着多模态大模型在视频理解领域的深入应用，音视频大模型（Audio-Visual LLMs） 在处理长视频时面临严峻的内存挑战。视频帧和音频片段会转化为大量 token，同时自注意力机制所需的 键值缓存（KV cache） 随序列长度线性增长，导致显存爆炸和推理延迟。现有压缩方法通常对所有 token 一视同仁，忽略了视觉与音频模态之间天然的 token 数量不均衡——视频帧通常比音频片段产生更多 token，这导致内存分配不合理，关键信息容易被稀释。

OmniMem 的核心创新

针对上述问题，来自多所机构的研究者提出了 OmniMem，一种专为流式音视频大模型设计的内存高效框架。其核心创新包括：

模态感知内存分配（Modality-aware Memory Allocation）：不再将视觉和音频 token 混为一谈，而是分别为视觉和音频上下文独立管理内存。这种策略直接解决了模态间 token 数量严重失衡的问题，确保每种模态的关键信息都能获得合理的存储空间。
扰动感知内存选择（Perturbation-aware Memory Selection）：通过评估移除某个 KV 状态对模型输出的“扰动”程度，优先保留那些对最终预测影响最大的信息性、非冗余状态。这使得压缩后的内存仍然能够维持长距离依赖的建模能力。
预算感知微调（Budget-aware Fine-tuning）：在真实部署的有限内存预算约束下，通过微调让模型主动学会将有用信息整合到保留的内存中，进一步提升压缩效率。

实验结果与行业意义

OmniMem 在 VideoMME Long、LVBench 和 LVOmniBench 三个长视频理解基准上，基于 video-SALMONN 2+ 和 Qwen-2.5-Omni 两个主流模型进行了测试。结果显示：

在相同内存预算下，无需微调的 OmniMem 比现有强训练无关压缩方法 绝对准确率提升 2-4%；
结合预算感知微调后，额外获得 1-2% 的增益。

这一成果对于 流式视频处理、智能监控、长视频内容分析 等现实场景具有重要价值。它表明，通过精细化的模态感知和扰动引导的压缩策略，可以在不显著牺牲性能的前提下，大幅降低大模型在长视频推理中的内存占用。未来，OmniMem 的思路可能被推广至更多模态组合（如图文、视频-文本），并推动实时多模态 AI 系统的落地。

OmniMem：面向流式音视频大模型的扰动感知内存压缩框架

背景：音视频大模型的长视频推理瓶颈

OmniMem 的核心创新

实验结果与行业意义

延伸阅读

相关资讯