SheepNav
精选2天前0 投票

TTE-Flash:用“先思考再嵌入”令牌加速推理型多模态表示

多模态嵌入(Universal Multimodal Embedding, UME)在结合思维链(Chain-of-Thought, CoT)推理后性能显著提升,但显式生成推理文本的计算开销往往令人望而却步。最新研究 TTE-Flash 提出用**隐式思考令牌(latent think tokens)**替代显式 CoT,在保持推理感知能力的同时,将推理成本压至恒定水平。

核心思路:从显式推理到隐式思考

传统 CoT 范式下,模型会为多模态查询生成一段显式的推理文本,然后从 <eos> 嵌入令牌中提取最终表示——该令牌需同时关注查询和推理文本。虽然效果好,但每一步都需要完整生成推理文本,计算量巨大。

TTE-Flash 的核心创新在于:将显式 CoT 替换为隐式思考令牌,这些令牌被视作潜在变量,而显式 CoT 则是它们的观测变量。训练时,思考令牌通过 CoT 生成损失进行优化,嵌入令牌则通过对比损失学习,最终得到高性能、推理感知的表示,且推理成本恒定。

两大架构设计问题

研究团队重点探索了两个关键设计:

  • 令牌提取方式:思考令牌和嵌入令牌如何从同一个 LLM 主干中提取?
  • 训练策略:如何将两个任务作为依赖任务进行联合训练?

性能与可解释性兼得

提出的 TTE-Flash-2B 模型在 MMEB-v2 基准上超越了使用显式 CoT 的对应版本,同时产生的隐式思考令牌在文本和视觉上都具有可解释性。这意味着模型不仅能“思考”,还能让我们理解它在“想什么”。

零样本视频评估与自适应思考预算

在 15 个视频数据集上的零样本评估显示,随着思考令牌数量的增加,模型表现出缩放行为(scaling behavior)——更多思考带来更好表现。这启发了研究者探索自适应思考预算分配:根据任务需求动态调整思考令牌数量,在效率与效果间取得平衡。

意义与展望

TTE-Flash 为多模态推理嵌入提供了一条低成本、高性能的路径。隐式推理不仅省去了生成完整文本的时间,还保留了推理的可解释性,为视频理解、视觉问答等场景带来了更实用的解决方案。未来,自适应思考预算机制有望进一步优化计算资源分配,使模型在简单问题上快速响应,在复杂问题上深入推理。

该研究由多位学者共同完成,论文已提交 arXiv(2605.16638),模型代码尚未公开,但方法细节值得关注。

延伸阅读

  1. 立场:开发“数据探针”以根本理解数据如何影响大模型性能
  2. 文档AI落地实战:面向OCR与大模型管线的微服务架构
  3. 个人健康记录能否让AI更懂你?谷歌Gemini 3.0实测揭示潜力与短板
查看原文