SynIB：多模态学习协同信息最大化新方法

多模态学习的核心挑战之一在于捕捉“协同效应”——即只有联合使用多种模态才能获得的、单一模态无法提供的任务相关信息。现有方法大多聚焦于架构层面，通过设计更大或更复杂的融合模型来提升性能，而来自 KU Leuven 和 MIT 的研究团队则另辟蹊径，从训练目标本身入手，提出了 Synergistic Information Bottleneck（SynIB），一种直接针对协同信息进行优化的可扩展目标函数。

为何需要重新设计训练目标？

传统多模态训练往往隐式地鼓励模型依赖单模态或模态间冗余信息，导致在面对真正需要跨模态推理的样本时表现不佳。例如，在情感识别任务中，模型可能仅通过音频语调就做出判断，而忽略了视觉表情与音频信号的互补关系。SynIB 的核心思想是：让模型在缺失任一模态时不能保持高置信度，从而迫使模型学习模态间的交互信息。

具体实现上，SynIB 在标准任务损失之外，额外引入一个惩罚项：在每次训练中，模型会依次遮蔽一个模态并执行前向传播，若模型在缺失某模态时仍然给出高置信度预测，则受到惩罚。这一机制鼓励模型只在所有模态都存在时才做出可靠预测，从而优先学习协同信息。

实验结果：协同样本准确率提升 7.8%

研究团队在两种场景下验证了 SynIB 的有效性：

合成 XOR 任务：该任务中，协同信息是唯一能正确预测的线索（单模态数据独立且随机），标准训练完全无法学习，而 SynIB 成功恢复了协同信息。
真实世界基准：涵盖 MultiBench 情感任务、Hateful Memes（使用 CLIP-ViT 和 DeBERTa 骨干网络）以及 CREMA-D 的讽刺扩展。在依赖协同信息的样本上，SynIB 准确率提升最高达 7.8%；整体准确率提升最高达 3.8%。

意义与展望

SynIB 提供了一种正交于架构改进的优化思路：通过信息论约束，从目标层面引导模型关注多模态交互。这种方法无需修改模型结构，可方便地与现有融合架构结合。未来工作可能进一步探索其在更多模态（如视频+文本+传感器）及更复杂的交互模式（如时序依赖）中的应用。

SynIB：多模态学习中最大化协同信息的信息瓶颈方法

为何需要重新设计训练目标？

实验结果：协同样本准确率提升 7.8%

意义与展望

延伸阅读

相关资讯