精选今天0 投票
从感知到决策:多模态大模型中听觉与视觉的信息流动路径揭秘
多模态大语言模型(MLLM)能够同时处理音频和视觉信息,但这两类信号在模型内部究竟如何流动、整合并最终影响输出?一项来自 arXiv 的最新研究(论文编号:2606.10147)首次系统揭示了音频-视觉大语言模型(AVLLM)内部的信息路由机制,为理解多模态模型的“黑箱”提供了关键线索。
研究核心发现
该研究由 Wish Suharitdamrong 等学者完成,聚焦于 AVLLM 在两种典型输入配置下的信息流:
- 音视频片段:模型遵循与视觉语言模型(VLM)相似的顺序信息流路径,音频和视觉贡献沿该路径按任务对模态的依赖程度动态分配。
- 交错多模态项:当输入包含多个交替出现的音频和视觉项目时,信息路由切换为并行流模式,不同模态的信息在独立通道中处理后再融合。
关键洞察:信息可丢弃性
一个令人惊讶的发现是,一旦音频或视觉令牌的信息被传递至语言模型(LLM)核心层,这些原始令牌即可被丢弃,而不会影响预测精度,甚至可能带来轻微提升。这一现象在多个任务和数据集上得到验证,表明模型内部存在高效的“信息蒸馏”机制——只保留必要语义,而非原始信号。
实验验证与模型规模
研究在 Qwen2.5-Omni 和 Video-SALMONN2 Plus 两款模型上进行了验证,覆盖 3B 和 7B 两种参数规模。结果显示,上述信息流模式具有跨模型和规模的泛化性,暗示其背后可能存在更普遍的神经网络设计原理。
行业意义与未来方向
这项研究首次为 AVLLM 如何协调“听觉”与“视觉”提供了完整图景,其价值体现在:
- 可解释性:为多模态模型的内部决策过程提供量化分析工具。
- 效率优化:通过丢弃冗余令牌,可显著降低推理计算成本,对部署在边缘设备上的模型尤其重要。
- 模型设计:揭示了顺序流与并行流两种路由模式的适用场景,未来可据此设计更高效的混合架构。
论文还提出了关于这些信息流结构为何涌现的假设,为后续研究指明了方向。随着多模态 AI 在自动驾驶、辅助医疗、智能助手等领域的普及,理解其内部运作机制将不仅是学术问题,更是安全与可靠性的关键保障。