论文信息

  • 论文题目:CoLLM-NAS: Collaborative Large Language Models for Efficient Knowledge-Guided Neural Architecture Search
  • 论文作者:Zhe Li Zhiwei Lin Yongtao Wang
  • 发表单位:Wangxuan Institute of Computer Technology, Peking University, China

论文主要贡献

  • 本文提出了全新的基于协作式大语言模型的神经架构搜索框架CoLLM-NAS,是首个将大语言模型与两阶段神经架构搜索相结合的研究。

  • 设计了三大核心组件:提供自适应搜索策略的导航器大语言模型、合成高质量架构的生成器大语言模型,以及完成信息交互和工作管理的协调器模块。

  • 实验验证,该方法能在不同搜索空间中提升各类两阶段神经架构搜索方法的性能与效率。在 ImageNet 数据集上取得了全新的最优结果,在 NAS-Bench-201 基准测试中性能优于现有基于大语言模型的神经架构搜索方法和传统搜索算法。

论文创新点

  1. 用大语言模型的推理能力代替在传统的两阶段神经架构搜索中的搜索算法,优化两阶段神经架构搜索的搜索阶段,实现对搜索空间的智能导航。
  2. 提出了全新的基于协作式大语言模型的神经架构搜索框架,利用两个互补的大语言模型
    间的协同交互设计了三大核心组件。
  3. 设计了更精细的使大模型优化改进的两步生成过程,配合双重知识源的相互作用进一步加强。
  4. 提出了记忆保留机制,进一步保证了探索与利用的有效平衡。

方法

两阶段神经架构搜索

两阶段神经架构搜索,核心是通过权重共享机制解决传统NAS计算效率低下的问题。

将架构搜索的完整过程解耦成超网训练和架构搜索的两个独立且有序的阶段,实现架构参数优化与网络权重训练的分离。先训练出通用的超网权重再在该权重下在搜索空间中寻找最优架构。

w A ∗ = argmin w A   E α ∼ Ω ( A ) L ( w A ( α ) , D train ) , α ∗ = argmax α ∈ A   P ( w A ∗ ( α ) , D val ) s.t. Cost ( α ) ≤ Λ , \begin{aligned} w_A^* &= \underset{w_A}{\text{argmin}} \ \mathbb{E}_{\alpha \sim \Omega(A)} \mathcal{L}\big(w_A(\alpha), D_{\text{train}}\big), \\ \alpha^* &= \underset{\alpha \in A}{\text{argmax}} \ \mathcal{P}\big(w_A^*(\alpha), D_{\text{val}}\big) \quad \text{s.t.} \ \text{Cost}(\alpha) \leq \Lambda, \end{aligned} wAα=wAargmin EαΩ(A)L(wA(α),Dtrain),=αAargmax P(wA(α),Dval)s.t. Cost(α)Λ,

两阶段的具体任务及特点:
一、超网训练
核心目标:训练一个权重共享的超网 包含搜索空间中所有可能的候选架构,所有子网络共享超网的权重参数 ,无需单独训练,平摊训练成。
关键实现:通过各样采样策略从超网中采样不同的子网络进行训练,优化共享权重,消除不同子网络权重更新的冲突
二、架构搜索
核心目标:在资源约束(浮点数。、参数量、推理速度下)从训练完成的超网中搜索出性能最优的子网络。
核心优势:直接继承超网的预训练权重 无需从零开始训练,加快速度减少成本。
三、核心优势
降低极端成本、灵活性强(针对不同资源约束多次搜索)、资源约束可控

本文用一种基于大语言模型的指示引导搜索范式代替传统的第二部分。

验证能力

首先验证大语言模型在人工设计的搜索空间中理解结构化神经架构的能力。
大语言模型的最新研究证明,通过海量技术文献的预训练,已具备理解复杂技术领域的能力
推测大语言模型已内化了神经架构设计原则的相关知识,在NAS-Bench-201设计集设计了相关实验。
在隐藏真实准确率的前提下,我们向通义千问 3-30B-A3B 大语言模型 [31] 发送提示,使其基于对神经网络设计原则的理解对这些架构进行排序。
图 1:NAS-Bench-201 搜索空间中,大语言模型对 CIFAR-10 和 CIFAR-100 数据集架构的预测排名与真实排名的一致性热力图

CoLLM-NAS 框架

由三大核心组件构成:导航器大语言模型、生成器大语言模型、协调器。

从导航器大语言模型开始启动,根据目标准确率和资源约束,生成初始化搜索策略。
通过协调器发送给生成器,生成器生成一系列候选架构,再返还给协调器,验证其合法性 评估性能,并跟踪最优架构、避免重复评估。把评估结果返还导航器,用于策略优化。
该循环不断迭代,直至达到目标准确率或迭代上限。
在这里插入图片描述
导航器:在迭代过程中保持持续记忆 对已评估架构的性能规律进行迭代分析,动态制动并优化搜索策略。
在前期,导航器根据提示指定促进架构多样性的搜索策略 借助对神经架构的隐形理解提升初始候选架构集的质量 迭代进行,基于积累的反馈持续优化策略 从大范围的探索转向高性能区的针对性利用

生成器:无状态 在迭代过程中不保留任何李诗怡 负责将搜索策略转化为具体的候选架构

协调器:负责两个模块的信息流转、验证架构的合法性、评估架构性能 维护已访问架构的档案,避免重复评估,并跟踪当前性能最优的架构。
采用预训练超网络的继承权重评估性能,无需重训练,加快速度、减少成本。

算法

在这里插入图片描述
通过系统提示设计,我们为每个大语言模型分配了明确的角色和职责,告知其协作流程,传递不同搜索空间和架构表征的相关知识,并规范输出格式。同时,为避免先验知识污染,提示中不会传递任何关于搜索空间的显性信息。本文的完整算法见算法 1。

精细化生成

与以往研究(通常采用单个大语言模型将优化轨迹直接映射为解决方案)不同,本文框架设计了更精细的两步生成过程:
S t ← NAVIGATORLLM ( H t ) , C t + 1 ← GeneratorLLM ( S t ) S_t \leftarrow \text{NAVIGATORLLM}(H_t), \quad C_{t+1} \leftarrow \text{GeneratorLLM}(S_t) StNAVIGATORLLM(Ht),Ct+1GeneratorLLM(St)
导航器大语言模型首先将优化轨迹映射为抽象的自然语言策略,随后由独立的生成器大语言模型将该策略转化为具体的候选架构。这一 “轨迹→策略→解决方案” 的流程通过在更高的抽象层次进行推理,实现了更结构化的探索,既缓解了对特定架构语法的过拟合,又提升了搜索的鲁棒性。

这种引导式搜索还通过双重知识源的相互作用得到进一步强化:第一,大语言模型对有效架构设计的固有知识提升了生成候选架构的质量,并在有潜力的区域实现了高效的 “热启动”;第二,从优化轨迹中积累的渐进式知识,使导航器大语言模型能逐步学习到性能空间的隐性模型,进而引导生成器大语言模型不断向更具潜力的区域探索。

记忆保留机制

本文独有的记忆保留机制(有状态的导航器大语言模型与无状态的生成器大语言模型相结合)进一步保证了探索与利用的有效平衡。

在这里插入图片描述

实验分析

主机制消融

在这里插入图片描述
这张图是 CoLLM-NAS 的核心消融实验结果,用来验证「双 LLM 协同机制」和「记忆保留机制」的有效性,分为迭代性能曲线和记忆设置对比两部分。

第一张图:
对比 CoLLM-NAS(双 LLM 协同) 和 SiLLM-NAS(单 LLM 变体,将导航 + 生成功能整合到一个模型) 在三个数据集上的收敛过程。
收敛速度:在所有数据集上,CoLLM-NAS 都比 SiLLM-NAS 更快达到较高准确率,初始阶段的性能提升更陡峭。
最终性能:CoLLM-NAS 在所有数据集上的最终准确率都持续高于 SiLLM-NAS

第二张图:
对比四种「导航 LLM(N)/ 生成 LLM(G)是否保留记忆」的组合,在四个数据集上的最终准确率。
复杂任务中,导航 LLM 保留记忆(利用历史轨迹优化策略)+ 生成 LLM 无记忆(避免噪声累积) 是最优设计,这正是 CoLLM-NAS 的核心创新点。
生成 LLM 的记忆会损害性能,因此必须保持无状态。

提示词消融

Prompt CIFAR-10 CIFAR-100 ImageNet-16-120
Base (Ours) 94.37 ± 0.01 73.44 ± 0.15 46.79 ± 0.28
Variant 1 94.36 ± 0.02 73.35 ± 0.52 46.52 ± 0.36
Variant 2 94.35 ± 0.03 73.36 ± 0.18 46.89 ± 0.35
Variant 3 94.16 ± 0.23 73.19 ± 0.11 46.60 ± 0.29

为验证性能提升是否依赖手工设计的提示词措辞,使用 Claude Sonnet 4、GPT-5、DeepSeek-R1 三款主流 LLM 对原始提示词进行重述,得到 3 个变体,结论:

所有提示词变体在 NAS-Bench-201 的 CIFAR-10、CIFAR-100、ImageNet-16-120 数据集上的性能与原始基线基本相当,变体 2 甚至在 ImageNet-16-120 上表现更优;性能差异极小,证明 CoLLM-NAS 的性能提升来自协作框架设计,而非手工提示词,框架对语言重构具有强鲁棒性。

不同LLM消融

LLM CIFAR-10 CIFAR-100 ImageNet-16-120
Qwen3-30B-A3B ∗ 94.37 ± 0.01 73.44 ± 0.15 46.79 ± 0.28
Qwen3-32B ∗ 94.31 ± 0.14 73.29 ± 0.29 46.64 ± 0.52
DeepSeek-R1-Distill-Qwen-32B ‡ 94.36 ± 0.04 73.37 ± 0.19 46.53 ± 0.32
DeepSeek-R1-Distill-Llama-70B ‡ 94.37 ± 0.00 73.41 ± 0.22 46.74 ± 0.31

CoLLM-NAS 在不同 LLM 上均保持稳定且优异的性能,无明显性能衰减,验证了框架的强通用性,其效果不依赖特定 LLM 的实现,可适配不同开源大模型。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐