SPARK：LLM驱动神经网络架构搜索，效率提升28倍

神经网络架构搜索（NAS）长期面临一个核心矛盾：如何在昂贵的评估成本下，既利用已有架构知识，又探索新设计。大语言模型（LLM）凭借其丰富的架构与编码先验知识，成为NAS的得力助手——它能将先验知识转化为可执行的代码修改。然而，实践中一个看似局部的修改往往引发非局部的行为与性能变化，因为单次编辑可能无意中耦合多个相互影响的功能因素，研究者称之为功能纠缠。

为解决这一问题，来自中国的研究团队提出SPARK（Structured Progressive Knowledge Activation），一种结构化渐进知识激活方法。其核心思路是：明确选择要修改的功能因素，并让编辑操作以该因素为条件，从而减少纠缠带来的副作用，实现更精准、更可靠的架构修改。

方法亮点

SPARK并非盲目依赖LLM的直觉，而是通过结构化流程逐步激活相关知识。它首先识别架构中可独立调整的功能因素（如卷积核大小、层数、跳跃连接等），然后针对选定因素生成条件化编辑。这种“因素条件化”设计使得每次修改都目标明确，避免了牵一发而动全身的困境。

实验结果

在CLRS-DFS基准测试上，SPARK展现出惊人效果：

样本效率提升28.1倍：架构进化速度大幅加快，意味着用更少的评估次数找到更优架构。
OOD准确率相对提升22.9%：在分布外数据上泛化能力显著增强，说明搜索到的架构更具鲁棒性。

行业意义

这项研究为LLM驱动的自动化机器学习（AutoML）提供了新范式。传统NAS方法如强化学习或进化算法通常需要数千次评估，而SPARK通过精准激活LLM的先验知识，大幅降低了搜索成本。尤其对于资源受限的团队，这意味着能用更少的算力获得高性能模型。

此外，SPARK提出的“功能纠缠”概念揭示了LLM在代码修改中的常见陷阱，对AI辅助编程、模型压缩等下游任务也有借鉴意义。未来，团队计划将SPARK扩展到更多NAS搜索空间和图像分类任务中，探索其通用性。

小结

SPARK通过结构化知识激活与因素条件化编辑，有效解决了LLM在NAS中的功能纠缠问题，实现了效率与性能的双重提升。这不仅推动了NAS技术的发展，也为LLM在工程优化领域的应用提供了新思路。

SPARK：用大模型驱动神经网络架构搜索，实现28倍效率提升

方法亮点

实验结果

行业意义

小结

延伸阅读

相关资讯