精选今天0 投票

从感知到决策：多模态大模型中听觉与视觉的信息流动路径揭秘

多模态大语言模型（MLLM）能够同时处理音频和视觉信息，但这两类信号在模型内部究竟如何流动、整合并最终影响输出？一项来自 arXiv 的最新研究（论文编号：2606.10147）首次系统揭示了音频-视觉大语言模型（AVLLM）内部的信息路由机制，为理解多模态模型的“黑箱”提供了关键线索。

研究核心发现

该研究由 Wish Suharitdamrong 等学者完成，聚焦于 AVLLM 在两种典型输入配置下的信息流：

音视频片段：模型遵循与视觉语言模型（VLM）相似的顺序信息流路径，音频和视觉贡献沿该路径按任务对模态的依赖程度动态分配。
交错多模态项：当输入包含多个交替出现的音频和视觉项目时，信息路由切换为并行流模式，不同模态的信息在独立通道中处理后再融合。

关键洞察：信息可丢弃性

一个令人惊讶的发现是，一旦音频或视觉令牌的信息被传递至语言模型（LLM）核心层，这些原始令牌即可被丢弃，而不会影响预测精度，甚至可能带来轻微提升。这一现象在多个任务和数据集上得到验证，表明模型内部存在高效的“信息蒸馏”机制——只保留必要语义，而非原始信号。

实验验证与模型规模

研究在 Qwen2.5-Omni 和 Video-SALMONN2 Plus 两款模型上进行了验证，覆盖 3B 和 7B 两种参数规模。结果显示，上述信息流模式具有跨模型和规模的泛化性，暗示其背后可能存在更普遍的神经网络设计原理。

行业意义与未来方向

这项研究首次为 AVLLM 如何协调“听觉”与“视觉”提供了完整图景，其价值体现在：

可解释性：为多模态模型的内部决策过程提供量化分析工具。
效率优化：通过丢弃冗余令牌，可显著降低推理计算成本，对部署在边缘设备上的模型尤其重要。
模型设计：揭示了顺序流与并行流两种路由模式的适用场景，未来可据此设计更高效的混合架构。

论文还提出了关于这些信息流结构为何涌现的假设，为后续研究指明了方向。随着多模态 AI 在自动驾驶、辅助医疗、智能助手等领域的普及，理解其内部运作机制将不仅是学术问题，更是安全与可靠性的关键保障。

延伸阅读

相关资讯

AI辅助优化下的探索响应性与适应性僵化

更少上下文，更优智能体：面向长周期工具调用 LLM 的高效上下文工程

Regimes：一种可审计、留出验证的自主改进循环——在LongMemEval上以ActiveGraph验证

最小化遗传编程：从进化到句法推导的范式转变