Mochi:用元学习对齐预训练与推理,打造高效的图基础模型
不止是预训练:Mochi 如何让图基础模型“知行合一”
在 AI 领域,预训练-微调范式已成为基础模型的标配。然而,当这一范式迁移到图数据时,一个关键矛盾逐渐浮出水面:预训练目标(如链路预测)与下游任务(如节点分类)之间存在语义鸿沟。现有方法通常依赖后处理步骤(如类原型)来弥合差距,但这种“先学后对齐”的方式并不总能带来最优效果。
来自莱斯大学的研究团队近日在 arXiv 上发表了论文 Mochi,提出了一种基于元学习的图基础模型训练框架,旨在从根本上对齐预训练与推理过程。实验表明,Mochi 在 25 个真实图数据集上取得与现有最强模型相当或更优的性能,同时训练时间仅为其 1/8 至 1/27。
问题:预训练与下游任务的“错位”
传统的图基础模型(如 GraphMAE、GPT-GNN)通常采用自监督重建目标进行预训练,例如预测缺失边(链路预测)或掩码节点属性。研究者假设学到的表示能够通过一个统一的步骤(如类原型分类器)适配到下游任务。但论文通过合成实验和真实数据证明,这种假设存在局限:预训练时模型关注的是图结构重建,而下游任务往往需要区分不同类别的节点,两者的优化方向并不完全一致。这种错位会导致下游性能受损,尤其在少样本场景下更为明显。
解法:用元学习模拟推理场景
Mochi 的核心思想是让预训练过程直接模拟下游推理的协议。具体而言,它采用基于少样本元学习的训练框架:在预训练阶段,模型反复经历一系列“任务”,每个任务包含支持集(少量带标签样本)和查询集(待预测样本),模型需要从支持集中快速学习并泛化到查询集。
这样做的好处是:训练目标从“重建图结构”变为“从少量样本中学习分类/预测能力”,与下游推理的流程高度一致。因此,模型不再需要额外的后处理对齐步骤,预训练和推理之间的鸿沟被自然弥合。
论文还提出了增强版 Mochi++,进一步优化了元学习架构,在更大规模数据集上表现更佳。
效率与效果的双重突破
在 25 个涵盖节点分类、链路预测、图分类的基准数据集上,Mochi 和 Mochi++ 均展现出极具竞争力的性能。尤其值得关注的是训练效率:Mochi 的训练时间仅为最强基线模型的 8 到 27 分之一。这一效率提升来源于元学习框架天然支持小样本任务采样,避免了传统预训练中需要全图计算的高昂代价。
图基础模型的新方向
Mochi 的工作揭示了当前图基础模型设计中一个常被忽视的问题:预训练与下游任务的目标对齐至关重要。它并非简单堆砌更大的模型或更多数据,而是从训练范式层面进行创新。对于工业界的图应用(如推荐系统、药物发现、社交网络分析),Mochi 提供了一种兼顾效果与效率的可行路径。
未来,研究者可以进一步探索如何将元学习与更丰富的图结构先验(如动态图、异构图)结合,以及如何将 Mochi 扩展到更大规模的训练数据上。