MONET:用网络建模任务空间,多任务优化新范式
多任务优化(MTO)旨在同时高效求解大量相关任务,但现有方法在可扩展性与任务空间拓扑利用上存在明显短板。近日,来自德国科隆应用技术大学、阿姆斯特丹自由大学等机构的研究者在 arXiv 上提交了一篇论文,提出名为 MONET(Multi-Task Optimization over Networks of Tasks) 的新算法,将任务空间建模为图结构,让知识在任务间像“社交网络”一样流动,从而在数千个任务规模上实现高效优化。
现有方法的瓶颈
传统多任务优化算法大致可分为两类:
- 基于种群的方法:如多任务进化算法,通常维护一个共享种群,利用隐式或显式的知识迁移。这类方法在任务数较少时效果不错,但当任务数量达到数千甚至上万时,计算开销急剧膨胀,难以扩展。
- MAP-Elites 变体:这类方法通过将任务空间离散化到固定网格(档案)来达到较好扩展性,但网格是预先定义的、固定的,忽略了任务空间的连续拓扑结构。换言之,它无法感知哪些任务“更接近”、哪些“更远”,因此知识迁移可能不够精准。
MONET 的核心思路:任务网络
MONET 的关键创新在于将任务空间显式建模为图(Graph)。图中的每个节点代表一个任务,边连接的是在任务参数空间中相邻的任务。这种表示方式天然捕获了任务之间的相似性与拓扑关系,使得知识迁移可以沿着边进行,既保留了拓扑信息,又避免了高维离散化带来的维数灾难。
在优化过程中,MONET 融合了两种学习机制:
- 社会学习(Social Learning):从当前节点的邻居节点中通过交叉操作生成候选解,实现任务间的信息共享。
- 个体学习(Individual Learning):对节点自身的解独立进行变异,以保持局部搜索能力。
这种双机制设计平衡了探索与利用,让每个任务既能从相似任务中借鉴优秀基因,又能针对自身特性进行微调。
实验表现:匹配或超越基线
研究者在四个具有挑战性的连续控制域上评估了 MONET:
- Archery(射箭)、Arm(机械臂)、Cartpole(平衡杆):各包含 5,000 个任务
- Hexapod(六足机器人):包含 2,000 个任务
与当前主流的 MAP-Elites 变体(如 CMA-ME 等)相比,MONET 在所有四个领域上均取得了匹配或更优的性能。尤其值得注意的是,在任务数高达 5000 时,MONET 仍能保持稳定优化,而传统基于种群的方法早已不堪重负。
意义与展望
MONET 的提出为大规模多任务优化开辟了新路径。将任务空间视为图而非固定网格,不仅提升了扩展性,还让算法能够自适应地利用任务间的相似性结构。这一思路与当前 AI 领域兴起的 图神经网络(GNN) 和 元学习 有着天然的亲和性——未来或许可以结合 GNN 来动态学习边的权重或任务表示,进一步提升迁移效率。
对于机器人技能学习、神经架构搜索、超参数优化等需要同时处理大量相似问题的场景,MONET 提供了一种兼具理论优雅性与实际效率的解决方案。