Mochi: 元学习对齐预训练与推理的图基础模型

不止是预训练：Mochi 如何让图基础模型“知行合一”

在 AI 领域，预训练-微调范式已成为基础模型的标配。然而，当这一范式迁移到图数据时，一个关键矛盾逐渐浮出水面：预训练目标（如链路预测）与下游任务（如节点分类）之间存在语义鸿沟。现有方法通常依赖后处理步骤（如类原型）来弥合差距，但这种“先学后对齐”的方式并不总能带来最优效果。

来自莱斯大学的研究团队近日在 arXiv 上发表了论文 Mochi，提出了一种基于元学习的图基础模型训练框架，旨在从根本上对齐预训练与推理过程。实验表明，Mochi 在 25 个真实图数据集上取得与现有最强模型相当或更优的性能，同时训练时间仅为其 1/8 至 1/27。

问题：预训练与下游任务的“错位”

传统的图基础模型（如 GraphMAE、GPT-GNN）通常采用自监督重建目标进行预训练，例如预测缺失边（链路预测）或掩码节点属性。研究者假设学到的表示能够通过一个统一的步骤（如类原型分类器）适配到下游任务。但论文通过合成实验和真实数据证明，这种假设存在局限：预训练时模型关注的是图结构重建，而下游任务往往需要区分不同类别的节点，两者的优化方向并不完全一致。这种错位会导致下游性能受损，尤其在少样本场景下更为明显。

解法：用元学习模拟推理场景

Mochi 的核心思想是让预训练过程直接模拟下游推理的协议。具体而言，它采用基于少样本元学习的训练框架：在预训练阶段，模型反复经历一系列“任务”，每个任务包含支持集（少量带标签样本）和查询集（待预测样本），模型需要从支持集中快速学习并泛化到查询集。

这样做的好处是：训练目标从“重建图结构”变为“从少量样本中学习分类/预测能力”，与下游推理的流程高度一致。因此，模型不再需要额外的后处理对齐步骤，预训练和推理之间的鸿沟被自然弥合。

论文还提出了增强版 Mochi++，进一步优化了元学习架构，在更大规模数据集上表现更佳。

效率与效果的双重突破

在 25 个涵盖节点分类、链路预测、图分类的基准数据集上，Mochi 和 Mochi++ 均展现出极具竞争力的性能。尤其值得关注的是训练效率：Mochi 的训练时间仅为最强基线模型的 8 到 27 分之一。这一效率提升来源于元学习框架天然支持小样本任务采样，避免了传统预训练中需要全图计算的高昂代价。

图基础模型的新方向

Mochi 的工作揭示了当前图基础模型设计中一个常被忽视的问题：预训练与下游任务的目标对齐至关重要。它并非简单堆砌更大的模型或更多数据，而是从训练范式层面进行创新。对于工业界的图应用（如推荐系统、药物发现、社交网络分析），Mochi 提供了一种兼顾效果与效率的可行路径。

未来，研究者可以进一步探索如何将元学习与更丰富的图结构先验（如动态图、异构图）结合，以及如何将 Mochi 扩展到更大规模的训练数据上。

Mochi：用元学习对齐预训练与推理，打造高效的图基础模型

不止是预训练：Mochi 如何让图基础模型“知行合一”

问题：预训练与下游任务的“错位”

解法：用元学习模拟推理场景

效率与效果的双重突破

图基础模型的新方向

延伸阅读

相关资讯