SheepNav
精选今天0 投票

COMPASS:统一多模态模型中的构图意图引导与落地

引言

在图像生成与理解领域,“构图”一直是一个棘手的高阶视觉意图。它决定了主体放在哪里、场景如何组织,但当前的主流统一多模态模型在细粒度构图识别上仍不可靠,更难以将这种意图转化为可控的生成。近日,来自多家机构的研究团队提出了 COMPASS,号称首个将构图意图控制落地到单一系统的统一多模态框架,同时覆盖构图感知与构图引导生成两个环节。

核心设计:共享专家令牌 τ_c

COMPASS 的核心创新在于引入了一个共享专家令牌 τ_c,作为构图意图的中央锚点。在感知侧,COMPASS 以最小侵入方式将构图专家知识注入 MoE(混合专家)骨干网络,并将推断出的意图蒸馏到 τ_c 中。在生成侧,COMPASS 复用同一个 τ_c 作为全局条件信号,引导去噪轨迹,从而将被动的构图分析转化为显式的布局控制。这种设计让感知与生成共享同一个意图表示,避免了传统两阶段方法中信息丢失的问题。

数据集 Comp-11:大规模构图指令数据集

为了支持系统性的指令跟随构图学习与评估,研究团队构建了 Comp-11 数据集。该数据集包含 11 类构图分类体系(如居中、三分法、对角线、前景-背景等),并配有推理增强的标注。这为模型学习从自然语言描述到具体布局的映射提供了大规模训练资源。

实验表现

大量实验表明,COMPASS 在类别级构图理解上显著优于现有方法,生成的图像在构图一致性和提示忠实度方面均超过强基线模型。例如,在 Comp-11 的零样本评估中,COMPASS 的构图分类准确率比当前最好的统一多模态模型高出 15 个百分点以上,而生成图像的布局与提示描述的匹配度也提升了 20% 以上。

行业意义

COMPASS 的出现,标志着多模态模型从“能看懂构图”向“能按构图意图生成”迈出了关键一步。对于 AI 内容创作、广告设计、虚拟场景构建等应用,构图控制一直是难以绕过的基础能力。过去,用户只能通过反复调整提示词(prompt)来间接影响布局,而 COMPASS 提供了一条直接、可解释的路径:你用自然语言描述构图意图,模型就能忠实执行。

局限与展望

尽管 COMPASS 在 11 类构图分类上表现优秀,但真实世界的构图远不止这 11 种。此外,当前框架仍依赖 MoE 架构的特定设计,通用性有待验证。不过,共享意图令牌的思路为后续研究打开了一扇门——或许未来,其他高阶视觉属性(如光照、材质、动作)也能通过类似方式被“锚定”并控制生成。

小结

COMPASS 通过共享专家令牌 τ_c 和 Comp-11 数据集,首次实现了统一的构图感知与生成,在多个指标上达到新 SOTA。对于关注可控图像生成的研究者和开发者来说,这是一篇值得深入阅读的工作。论文已发布于 arXiv,代码和数据预计后续开源。

延伸阅读

  1. 用亚里士多德美德伦理学为LLM“画像”:VirtueMap框架解读
  2. 从推理中寻找真相:动态表征编辑框架如何引导大模型走向真实
  3. IMCBench:多模态大模型在图像医疗对话中的新基准
查看原文