SheepNav
新上线今天0 投票

SPARK:用大模型驱动神经网络架构搜索,实现28倍效率提升

神经网络架构搜索(NAS)长期面临一个核心矛盾:如何在昂贵的评估成本下,既利用已有架构知识,又探索新设计。大语言模型(LLM)凭借其丰富的架构与编码先验知识,成为NAS的得力助手——它能将先验知识转化为可执行的代码修改。然而,实践中一个看似局部的修改往往引发非局部的行为与性能变化,因为单次编辑可能无意中耦合多个相互影响的功能因素,研究者称之为功能纠缠

为解决这一问题,来自中国的研究团队提出SPARK(Structured Progressive Knowledge Activation),一种结构化渐进知识激活方法。其核心思路是:明确选择要修改的功能因素,并让编辑操作以该因素为条件,从而减少纠缠带来的副作用,实现更精准、更可靠的架构修改。

方法亮点

SPARK并非盲目依赖LLM的直觉,而是通过结构化流程逐步激活相关知识。它首先识别架构中可独立调整的功能因素(如卷积核大小、层数、跳跃连接等),然后针对选定因素生成条件化编辑。这种“因素条件化”设计使得每次修改都目标明确,避免了牵一发而动全身的困境。

实验结果

CLRS-DFS基准测试上,SPARK展现出惊人效果:

  • 样本效率提升28.1倍:架构进化速度大幅加快,意味着用更少的评估次数找到更优架构。
  • OOD准确率相对提升22.9%:在分布外数据上泛化能力显著增强,说明搜索到的架构更具鲁棒性。

行业意义

这项研究为LLM驱动的自动化机器学习(AutoML)提供了新范式。传统NAS方法如强化学习或进化算法通常需要数千次评估,而SPARK通过精准激活LLM的先验知识,大幅降低了搜索成本。尤其对于资源受限的团队,这意味着能用更少的算力获得高性能模型。

此外,SPARK提出的“功能纠缠”概念揭示了LLM在代码修改中的常见陷阱,对AI辅助编程、模型压缩等下游任务也有借鉴意义。未来,团队计划将SPARK扩展到更多NAS搜索空间和图像分类任务中,探索其通用性。

小结

SPARK通过结构化知识激活与因素条件化编辑,有效解决了LLM在NAS中的功能纠缠问题,实现了效率与性能的双重提升。这不仅推动了NAS技术的发展,也为LLM在工程优化领域的应用提供了新思路。

延伸阅读

  1. 内生机制切换:标量不可约学习动力学驱动自主智能新范式
  2. MetaAdamW:自注意力元优化器实现分组自适应学习率与权重衰减
  3. 基于群分解理论与参数划分的变换分类方法
查看原文