LLM-ENAS-PKB:基于种群知识库增强的大语言模型辅助进化神经架构搜索

论文标题:Large language model assisted evolutionary neural architecture search with population knowledge base enhancement
论文作者:Weilin Fang, YuXue, Lilian Yuan ,Mohammad Kamrul Hasan , Khursheed Aurangzeb
论文代码:https://github.com/baigeixiaowang/LLM-ENAS-PKB.git
期刊:Information Sciences
年份:2026

论文主要贡献

本文介绍了一种基于大型语言模型(LLMs)的新方法,以替代传统的机器学习代理模型,从而减轻专家的负担。尽管LLMs具有强大的零样本能力,但它们往往缺乏神经网络架构评估等任务所需的特定领域专业知识。为克服这一限制,我们提出了一种由群体知识库(PKB)增强的LLM辅助ENAS框架。我们将LLM集成为基于回归和基于分类的代理模型,并在NAS-Bench-101、NAS-Bench201和DARTS搜索空间上进行了实验
我们的实验结果表明,在PKB的辅助下,LLMs能够有效替代传统代理模型来评估神经网络架构的适应度。
(1)我们提出了LLM-ENAS-PKB,这是一个将基于LLM的替代模型整合到进化神经架构搜索(ENAS)流程中用于架构评估的框架。该框架用LLM推理替代了传统的替代模型,降低了传统ENAS的计算开销。
(2)我们开发了两个基于大语言模型的代理模型——一个基于回归的代理模型和一个基于分类的代理模型,并通过对照实验比较它们的性能,分析它们在架构评估中的各自行为。
(3)我们受检索增强生成(RAG)的启发,提出了一种群体知识库(PKB)机制,该机制采用平衡性能和多样性的双目标精英选择策略,为大语言模型(LLM)提供高质量、相关的历史架构上下文,从而显著降低模型“幻觉”风险,并提高神经架构评估的预测准确性。

论文创新点

  1. 提出全新 LLM 辅助 ENAS 框架,替代传统专家设计的代理模型
    首次将 LLM 作为核心性能评估模块融入 ENAS 全流程,构建了LLM-ENAS-PKB 端到端框架,彻底替代了传统 ENAS 中依赖专家知识设计、调参的神经网络类代理模型(如 LSTM、GCN、MLP)。该框架通过 LLM 直接推理完成候选架构的性能评估,无需人工设计代理模型结构、调试超参数,大幅降低了 NAS 对领域专家的依赖,同时通过 LLM 的快速推理特性,显著减少了架构评估的计算开销,实现了 ENAS 的轻量化和自动化升级。
  2. 设计双模式 LLM 代理模型,探索 NAS 中 LLM 的最优应用范式
    创新性地将 LLM 分别设计为回归型和分类型两种代理模型,适配 NAS 中架构性能评估的不同需求:
    回归型 LLM 直接预测架构的连续性能值,捕捉架构间细粒度的性能差异;
    分类型 LLM 将架构性能二值化为 “高 / 低” 类别,完成快速的架构筛选。
    通过对比实验首次验证了回归型 LLM 是 NAS 中更优的代理范式(连续值预测提供更丰富的反馈信息,远超分类型的二值标签),打破了传统机器学习中 “分类任务比回归简单” 的固有认知,为 LLM 在 NAS 中的应用提供了关键的范式参考。
  3. 融合 RAG 思想提出 PKB 种群知识库,解决 LLM 领域知识匮乏与幻觉问题
    针对 LLM 缺乏 NAS 领域专用知识、易产生推理 “幻觉” 的核心缺陷,受检索增强生成(RAG)启发,结合进化算法的种群特性提出PKB(Population Knowledge Base)种群知识库机制,为 LLM 提供高质量的领域上下文
    设计性能 - 多样性双目标精英选择策略,从历史进化种群中筛选出性能优异且结构多样的架构,避免 PKB 内容冗余或单一;
    引入拥挤距离计算,保证筛选出的架构覆盖搜索空间的关键区域,为 LLM 提供全面的架构 - 性能关联知识;
    将 PKB 内容嵌入 LLM 提示词,让 LLM 在推理时获得结构化的 NAS 领域知识,有效抑制了幻觉现象,大幅提升了 LLM 对架构性能预测的准确性和稳定性。

检索增强生成 (RAG) 是一种将检索机制与生成模型结合的架构,旨在提升大语言模型的知识利用能力和推理能力。与仅依赖模型内部存储的参数化知识的传统生成方法不同,检索增强生成在生成过程中融入外部知识库,实时检索相关文档并与生成模块结合生成结果,从而解决大语言模型在专业知识、动态信息获取和复杂推理方面的局限性。
与有监督微调相比,检索增强生成的优势在于,无需依赖大规模标注数据集即可完成任务特定的适配,而是在推理过程中通过实时检索的外部知识补充模型,使其在处理未见过的任务或跨领域场景时,具备更强的灵活性和泛化能力。

  1. 设计专用架构信息编码器,实现神经架构向 LLM 可读形式的高效转换
    为让 LLM 有效理解和解析神经架构的结构化信息,设计了面向 LLM 的神经架构信息编码器,完成从 “有向无环图架构” 到 “LLM 可解析的标准化向量表示” 的转换:
    将架构的边操作、节点拓扑分别进行编码和邻域聚合,捕捉架构的局部和全局结构特征;
    通过拓扑排序和扁平化处理,生成固定长度的向量表示,适配 LLM 的输入格式;
    保证编码结果能完整保留架构的关键特征(如层数、参数规模、操作类型),让 LLM 能准确建立 “架构结构 - 性能” 的关联关系。

方法

在这里插入图片描述

算法结构

如图 1 所示,所提出的框架将大语言模型作为代理模型,辅助进化神经架构搜索。图的上半部分为传统进化神经架构搜索算法的执行流程:首先初始化种群生成第一代父代架构,并将其存储至历史档案;随后,父代种群通过交叉、变异等遗传操作生成大量子代架构;在传统方法中,接下来会进入代价高昂的评估阶段,对所有子代架构进行评估并筛选出最优架构,组成下一代种群。
提升选择效率、降低计算成本,本文方法引入大语言模型参与架构评估和选择过程(图 1 下半部分)。具体而言,如图左下部分所示,在每一代的子代选择阶段,首先根据预设的采样策略从历史档案中选取具有代表性和多样性的架构子集,构建种群知识库;随后,将种群知识库中的架构和新生成的子代架构一同输入架构信息编码器,生成适合大语言模型处理的标准化结构表示。
如框架右下部分所示,将种群知识库和子代架构的编码信息整合为统一提示,根据任务类型(回归 / 分类)构建回归型提示或分类型提示,约束大语言模型的推理行为 —— 在回归任务中输出预测性能值,在分类任务中划分性能类别。最终,在构建的提示引导下,大语言模型对所有子代候选架构进行快速推理和筛选,通过预测结果能在有限计算资源下高效识别最具潜力的子代架构。

大语言模型引导的进化神经架构搜索

大语言模型能够理解并评估神经网络架构,主要得益于其预训练阶段习得的领域知识。大语言模型通常在大规模多模态语料上完成训练,这些语料包含大量编程代码、学术论文和技术文档,覆盖了神经网络的核心概念(如卷积层、注意力机制)、架构设计模式(如 ResNet、Transformer)和性能评估指标(如精度、浮点运算量)。这些预训练知识与架构评估任务直接相关,该任务可视为从结构特征(如层数、连接方式、操作类型)到性能指标(如分类精度)的非线性映射。大语言模型基于 Transformer 架构的注意力机制,具备模式识别和关系推理能力,能够对这类复杂关系进行建模。尽管大语言模型在一定程度上可完成神经网络架构评估,但在提示中融入领域特定信息后,其预测的可靠性会进一步提升。
在本研究中,我们将大语言模型视为代理模型,作为黑箱优化器替代研究人员精心设计的传统机器学习模型或代理神经网络。在传统神经架构搜索中,代理模型通常分为两种预测模式:一种是直接回归架构的性能指标,另一种是通过二分类或多分类评估架构的优劣,两种方式分别对应不同的任务目标和应用场景。与传统方法相比,利用在大规模数据集上预训练的大语言模型作为代理模型,可大幅减少网络结构设计、模型训练和超参数调优的工作量。本文遵循传统代理模型的预测范式,进一步探究将大语言模型同时作为基于回归和基于分类的代理模型的可行性和有效性。

基于回归的代理模型

在这里插入图片描述
在这里插入图片描述

如算法 1 所示,LLM-ENAS-PKB 框架遵循传统进化神经架构搜索的核心搜索机制,同时在关键阶段进行针对性改进:第 1-5 行通过交叉和变异生成候选子代架构集;第 6-11 行对大语言模型的输入进行数据预处理;第 12-22 行利用基于大语言模型的直接性能推理机制,替代基于训练的代理评估模块。在每一代进化开始时,调用算法 2 从历史档案 A hist A_{\text{hist}} Ahist中选取兼具高信息价值和丰富结构多样性的架构集,构建种群知识库。这一过程能保证性能分布的广泛覆盖,同时减少冗余信息,为大语言模型提供高质量的上下文输入,显著提升预测的可靠性。选取的历史架构与新生成的候选架构一同,经无训练的架构信息编码器(标准化)处理,将网络拓扑和算子级细节(即神经网络的结构和操作)整合为统一的序列化表示,便于大语言模型高效解析和推理。
在这里插入图片描述

如图 2 所示,将这些编码表示嵌入精心设计的提示模板中,该模板包含明确的任务描述、严格的推理过程约束、带真实性能标签的参考示例、待预测候选架构的编码信息,以及对输出格式和推理过程的完整约束。其中,任务描述明确预测目标和性能指标;推理约束保证大语言模型在多次调用中推理行为的一致性;参考示例利用上下文信息提升领域特定预测的稳定性;候选架构信息隐去性能标签,引导模型独立推理;输出约束定义数值的可接受范围、精度要求和解析规则,保证不同代际间结果的语义和数值可比性。
为进一步降低无效输出或格式错误的风险,本文在提示设计中融入多种回退策略,并在推理完成后执行自动化验证和异常处理机制
回退策略:给模型多套 “备用指令 / 格式”,一种不行就换另一种,避免崩掉。
自动化验证:用代码校验模型输出(比如数值范围、格式、关键词)。
异常处理:输出不对时自动修正、重跑或丢弃,不影响整体流程。
最终,将构建的提示输入大语言模型,模型为每个候选架构直接输出预测性能值,该值作为适应度分数用于排序,选取排名前 P 的架构作为下一代子代种群,无需训练代理模型即可实现高效的架构性能评估。

基于分类的代理模型

将大语言模型作为基于分类的代理模型时,核心工作流程与回归任务基本一致。为保证一致性,回归和分类设置均使用相同的大语言模型骨干网络,二者的差异仅体现在少数任务特定阶段。如算法 1 所示,差异主要集中在第 13-22 行,即提示构建、大语言模型预测输出和后处理步骤。
在这里插入图片描述

如图 3 所示,分类任务的提示遵循回归提示的结构,由五个部分组成:任务描述、推理步骤约束、带标签的参考示例、待预测候选架构信息,以及带推理限制的输出内容。但在具体内容上,分类提示在任务描述和推理步骤说明中均明确,当前任务为二分类问题,目标是判断架构性能属于 “高性能” 或 “低性能” 类别,而非预测具体的连续性能值
在参考示例中,分类任务的标签不再是精确的性能值,而是取值为 {1,0} 的二值标签 ——1 代表高性能架构,0 代表低性能架构。分类阈值根据种群知识库中的性能中位数确定:性能高于中位数的架构标记为 1,低于中位数的标记为 0。在输出规范方面,分类任务约束大语言模型的预测目标,仅输出类别标签 1 或 0。算法 1 的第 14 行通过条件判断逻辑,区分回归和分类的后处理策略:回归任务需根据预测性能值进行全局排序,筛选出适应度最高的候选架构;分类任务的后处理则直接过滤出大语言模型预测标签为 1(高性能)的架构,并将其保留为下一代子代种群。
从传统机器学习的角度来看,二分类任务通常被认为比回归任务更易学习,因为其任务目标更明确,标签空间更小。但当代理模型为大语言模型时,这一假设并不一定成立。尽管大语言模型能从上下文示例中学习分类边界,对多样化的回归数据依赖较低,但二值标签的信息含量较低,可能限制模型捕捉架构间细粒度的性能差异,这一局限性会降低最优架构选择的准确性。因此,有必要通过实验验证大语言模型在分类任务中的预测性能,并分析其与回归任务在搜索效率、稳定性和最终最优架构性能方面的差异。

种群知识库的设计

基于检索增强生成框架的现有研究 [24] 可知,大语言模型虽具备丰富的通用知识,但在垂直领域仍难以达到最优表现。因此,要提升进化神经架构搜索任务中架构评估的准确性,关键是在提示中为大语言模型提供高质量的历史架构信息。然而,直接将所有历史架构信息纳入提示,可能导致信息冗余和上下文过载:当大量相似或无关的架构信息输入大语言模型时,过长的上下文会引发模型行为不稳定,如产生幻觉、信息干扰等问题。若仅基于性能排名选择历史架构样本,可能会损害搜索空间的多样性,限制全局最优架构的发现;反之,若过度强调多样性,可能会引入低性能架构,对大语言模型产生误导 —— 因为进化神经架构搜索在后期阶段主要生成高性能架构。
为解决这些问题,本研究的核心目标是:在大语言模型有限的上下文长度内(大语言模型一次能 “记住并处理” 的文字长度是固定的),平衡架构性能的代表性和种群的结构多样性,同时提供最具价值的架构信息。为此,本文设计了种群知识库,并提出相应的选择策略,确保在受限的上下文中传递最有效的信息
种群知识库的具体选择策略如下:
将每个候选架构表示为 35 维实值特征向量,对网络拓扑、参数规模、层数等关键属性进行编码,记为 x i ∈ R 1 × 35 \boldsymbol{x}_i \in \mathbb{R}^{1 \times 35} xiR1×35,其中 i i i为当前种群中的个体索引。每个架构对应一个由特定任务评估指标(如分类精度、F1 分数、推理延迟)确定的真实性能值 V i V_i Vi,即 V i ∈ R V_i \in \mathbb{R} ViR架构及其性能值的历史档案在种群知识库中存储为:
P = { ( x 1 , V 1 ) , ( x 2 , V 2 ) , … , ( x N , V N ) } \mathcal{P} = \{(\boldsymbol{x}_1,V_1),(\boldsymbol{x}_2,V_2),\dots,(\boldsymbol{x}_N,V_N)\} P={(x1,V1),(x2,V2),,(xN,VN)}
其中 N N N为存储的个体数量。

衡量架构间的结构差异性,首先通过架构信息编码器将每个 x i \boldsymbol{x}_i xi映射至 d d d维嵌入空间,得到 z i = Encoder ( x i ) \boldsymbol{z}_i = \text{Encoder}(\boldsymbol{x}_i) zi=Encoder(xi) z i ∈ R d \boldsymbol{z}_i \in \mathbb{R}^d ziRd z i \boldsymbol{z}_i zi为架构 i i i的嵌入向量, d d d为嵌入维度)。随后计算任意两个架构间的余弦相似度
S sim ( x i , x j ) = z i ⋅ z j ∥ z i ∥ ⋅ ∥ z j ∥ (2) \text{S}_{\text{sim}}(\boldsymbol{x}_i,\boldsymbol{x}_j) = \frac{\boldsymbol{z}_i \cdot \boldsymbol{z}_j}{\|\boldsymbol{z}_i\| \cdot \|\boldsymbol{z}_j\|} \tag{2} Ssim(xi,xj)=zizjzizj(2)
与其他架构的平均相似度越低的架构,其结构独特性越强,对多样性的贡献越大
本文选择余弦相似度的原因是,它能捕捉高维架构嵌入中的方向差异,且对尺度变化具有鲁棒性;而欧氏距离会因测度集中效应变得区分度较低,因此余弦相似度是衡量结构多样性更可靠的指标。

由于不同任务的性能范围存在差异,将所有性能值归一化至 [ 0 , 1 ] [0,1] [0,1] 区间:
S perf , i = V i − V min V max − V min (3) \text{S}_{\text{perf},i} = \frac{V_i - V_{\text{min}}}{V_{\text{max}} - V_{\text{min}}} \tag{3} Sperf,i=VmaxVminViVmin(3)
其中, V max V_{\text{max}} Vmax V min V_{\text{min}} Vmin为当前种群知识库中的最大和最小性能值。

为综合评估每个架构的性能和结构多样性,为每个个体计算加权综合分数:
Score i = α ⋅ S perf , i + ( 1 − α ) ⋅ ( 1 − S sim , i ‾ ) (4) \text{Score}_i = \alpha \cdot \text{S}_{\text{perf},i} + (1-\alpha) \cdot \left(1-\overline{\text{S}_{\text{sim},i}}\right) \tag{4} Scorei=αSperf,i+(1α)(1Ssim,i)(4)
其中, S sim , i ‾ \overline{\text{S}_{\text{sim},i}} Ssim,i表示架构 i i i与当前种群中所有其他架构的平均余弦相似度, α ∈ [ 0 , 1 ] \alpha \in [0,1] α[0,1]为权衡系数。归一化性能分数 S perf , i \text{S}_{\text{perf},i} Sperf,i反映架构的真实性能,而多样性项 1 − S sim , i ‾ 1-\overline{\text{S}_{\text{sim},i}} 1Ssim,i衡量该架构与种群中其他架构的平均结构差异。系数 α \alpha α控制性能和多样性的相对重要性: α \alpha α越大,选择越偏向高性能架构; α \alpha α越小,越注重结构多样性。

为避免选中的个体在性能 - 多样性空间中过度聚集,计算拥挤距离以量化每个解的稀疏度:
D i = ∑ m ∈ { Perf , Div } f m ( P i + 1 m ) − f m ( P i − 1 m ) f m max − f m min (5) D_i = \sum_{m \in \{\text{Perf},\text{Div}\}} \frac{f_m(P_{i+1}^m) - f_m(P_{i-1}^m)}{f_m^{\text{max}} - f_m^{\text{min}}} \tag{5} Di=m{Perf,Div}fmmaxfmminfm(Pi+1m)fm(Pi1m)(5)
其中, P i + 1 m P_{i+1}^m Pi+1m P i − 1 m P_{i-1}^m Pi1m表示种群按目标 m m m排序后,与个体 i i i相邻的两个个体; f m max f_m^{\text{max}} fmmax f m min f_m^{\text{min}} fmmin分别为当前种群中目标 m m m的最大和最小值。本文中, Perf \text{Perf} Perf 由归一化性能分数 S perf , i \text{S}_{\text{perf},i} Sperf,i表示, Div \text{Div} Div 由平均相似度的倒数 1 − S sim , i ‾ 1-\overline{\text{S}_{\text{sim},i}} 1Ssim,i表示。

D i D_i Di值越高,表明该个体位于搜索空间的更稀疏区域,能提升探索的覆盖范围
本文中,拥挤距离基于归一化性能分数和嵌入相似度的倒数联合计算,确保在性能维度和结构表示维度均能促进多样性。拥挤距离值越高,对应个体处于搜索空间的稀疏区域,有助于提升全局探索能力。

基于上述指标,精英选择过程分为三个阶段

  1. 根据 Score i \text{Score}_i Scorei选取排名前 K perf K_{\text{perf}} Kperf的个体;
  2. 根据 D i D_i Di选取排名前 K div K_{\text{div}} Kdiv的个体;
  3. 合并两个集合并去除重复个体,若仍有剩余空位,按全局 Score \text{Score} Score排名补充,直至达到选定规模 selected_size \text{selected\_size} selected_size

最终得到的集合 P selected \mathcal{P}_{\text{selected}} Pselected存储于种群知识库,可作为紧凑、具代表性且多样化的知识子集提供给大语言模型。该方法具有多重优势:实现了性能与结构多样性的动态平衡,避免了仅选择相似的高性能模型或多样化的低性能模型的问题;结合分数和拥挤距离指标,确保选中的架构既是优质候选,又能实现广泛的搜索空间覆盖;通过输出精炼的选择结果,充分利用大语言模型有限的上下文长度,在减少冗余的同时保留关键的搜索知识。

架构信息编码器的设计

在本研究中,将神经网络的架构建模为有向无环图 G = ( V , E ) G=(V,E) G=(V,E),其中 V = { v 1 , v 2 , … , v n } V=\{v_1,v_2,\dots,v_n\} V={v1,v2,,vn}为节点集, E = { e 1 , e 2 , … , e m } E=\{e_1,e_2,\dots,e_m\} E={e1,e2,,em}为边集。根据搜索空间的定义,节点可对应计算算子或中间特征图,边则描述数据流或所采用的操作。对 E E E中的每条边关联一种操作类型,首先将其编码为独热矩阵(用只有一个位置是 1、其余全是 0的向量,把不同类别分别表示出来,再把这些向量按行 / 列拼起来,就成了独热矩阵。) O ∈ { 0 , 1 } m × l O\in\{0,1\}^{m\times l} O{0,1}m×l l l l为可能的操作类型数量),为得到稠密的可学习特征,通过线性映射 W ∈ R l × d W\in\mathbb{R}^{l\times d} WRl×d将该矩阵投影至 d d d维特征空间:
E o p = O W (6) E_{op} = OW \tag{6} Eop=OW(6)
其中, E o p ∈ R m × d E_{op}\in\mathbb{R}^{m\times d} EopRm×d为嵌入后的边特征

节点的初始表示由独热编码得到,为融入拓扑信息(即结构信息),采用迭代邻域聚合机制,每个节点通过融合自身特征和邻居特征(按度归一化)更新其表示,传播规则为:
h v ( k + 1 ) = h v ( k ) + ∑ u ∈ N ( v ) h u ( k ) d u (7) h_v^{(k+1)} = h_v^{(k)} + \sum_{u\in \mathcal{N}(v)} \frac{h_u^{(k)}}{d_u} \tag{7} hv(k+1)=hv(k)+uN(v)duhu(k)(7)
其中, h v ( k ) h_v^{(k)} hv(k)为节点 v v v在第 k k k次迭代的特征表示, d u d_u du为节点 u u u的度(入度和出度之和)。在实验中,设置 k = 3 k=3 k=3,使每个节点能捕捉高阶邻居的信息。
入度:指向节点 u 的边的数量。
出度:从节点 u 指向其他节点的边的数量。
最终迭代完成后,按 G G G的有效拓扑顺序排列节点,确保依赖关系的一致性,随后将有序的节点特征 { h v ( K ) } v ∈ V \{h_v^{(K)}\}_{v\in V} {hv(K)}vV拼接并展平,得到定长向量表示:
x = Flatten ( TopoSort ( { h v ( K ) } v ∈ V ) ) x = \text{Flatten}\left(\text{TopoSort}\left(\{h_v^{(K)}\}_{v\in V}\right)\right) x=Flatten(TopoSort({hv(K)}vV))

实验分析

数据集与实验设置

本研究采用两个具有代表性的神经架构搜索基准数据集(NAS-Bench-101 [25]、NAS-Bench-201 [26])和大规模的 DARTS 搜索空间 [27],对 LLM-ENAS-PKB 进行系统、可复现的评估。NAS-Bench 系列数据集提供了详尽的搜索空间和预计算的训练结果,无需训练每个候选架构即可开展对照实验;引入 DARTS 搜索空间,可进一步评估该方法在更贴近实际、规模更大的设计空间中的表现。
在这里插入图片描述

表 1 总结了大语言模型、进化搜索和种群知识库筛选过程所采用的超参数配置
如表 1 所示,本研究使用的超参数在稳定大语言模型推理、引导进化算法的全局探索行为、保证种群知识库的质量和代表性方面发挥关键作用。
对于大语言模型模块,输入维度保证架构编码的统一性;温度系数和 Top-p 参数调节生成的随机性和多样性,从而提升预测稳定性;重复惩罚项抑制重复模式,减少推理偏差。在进化模块中,种群规模、最大迭代次数、交叉 / 变异概率决定了搜索过程中探索与利用的平衡。在种群知识库模块中,性能分数权重、性能 - 多样性综合分数范围和拥挤距离协同作用,在大语言模型有限的上下文窗口内保留具代表性的历史架构,提升预测精度并缓解幻觉问题。
此外,表 1 中的多个超参数与公式(7)定义的结构编码过程存在内在关联:输入维度 d d d(如 35 或 30)由 NAS-Bench-101 和 NAS-Bench-201 不同的算子放置规则和特征构成方式决定;聚合深度 k = 3 k=3 k=3 则参考了图神经网络领域的已有研究结论 ——2-3 次消息传递迭代足以捕捉关键的结构依赖关系,同时不会引发过平滑问题。这些设计确保了用于大语言模型推理的架构表示,在不同基准数据集设置下保持一致和稳定。

NAS-Bench-101 实验结果

在这里插入图片描述

如表 2 所示,在 NAS-Bench-101 搜索空间中,将本文提出的 LLM-ENAS-PKB 方法与多种当前最优的神经架构搜索算法进行对比.
对比指标包括搜索过程中执行的架构评估次数(#Queries)、测试集的平均分类精度(Accuracy)和在整个搜索空间中的百分位排名(Ranking)—— 排名值越小,表明得到的架构越接近全局最优。表中的 “Oracle” 行提供了最优架构对应的理论性能上限。为降低随机方差的影响,所有实验均独立重复 20 次。
在本研究中,一次 “查询(Query)” 指对一个候选架构进行一次真实性能评估,即从基准数据集中检索该架构在固定训练配置下预记录的精度,其语义对应实际神经架构搜索场景中的一次完整 “训练 + 验证” 过程。因此,查询次数衡量的是搜索过程中实际评估的候选架构数量,反映算法的样本效率,而非大语言模型的内部推理调用次数。
在四种对比变体中,Reg-PKB(基于种群知识库的回归模型)性能最优,平均精度达 94.19%,优于所有其他基于进化神经架构搜索的算法;Reg-NoPKB(无种群知识库的回归模型)和 Cls-PKB(基于种群知识库的分类模型)的表现均具有竞争力,在查询效率和精度方面均可与当前最优方法媲美;而 Cls-NoPKB(无种群知识库的分类模型)则未达到当前最优水平。详细分析表明,将大语言模型作为分类器应用于进化神经架构搜索框架时难度更高,尤其是在无种群知识库增强的情况下,易产生幻觉现象(相关进一步讨论见 4.5.1 节和 4.5.2 节)。
在这里插入图片描述

如图 4 (a) 所示,在 NAS-Bench-101 数据集上,将大语言模型作为基于回归的代理模型的表现总体优于分类模型,其中经种群知识库增强的基于回归的代理模型能实现最准确的性能估计。
在这里插入图片描述

从表 3 的结果可看出,所有两两对比在 0.05 的显著性水平下均具有统计显著性,t 检验表明这些差异并非由随机变异导致,而是具有统计学意义。这一发现证明,在 NAS-Bench-101 实验中,种群知识库的引入带来了稳定、可复现的性能提升;此外,基于回归的代理模型始终优于基于分类的代理模型,这一优势也得到了统计显著性证据的支持。总体而言,显著性分析进一步证实,大语言模型的预测范式和种群知识库的引导机制,均对进化神经架构搜索框架的最终搜索质量产生重要影响。

NAS-Bench-201 实验结果

在这里插入图片描述

如表 4 所示,在 NAS-Bench-201 搜索空间中,进一步将 LLM-ENAS-PKB 与多种代表性的神经架构搜索算法对比,并在 CIFAR-10 和 CIFAR-100 数据集上开展实验。每个实验重复 20 次以降低随机性,整个搜索过程仅基于验证集的架构信息。表中报告了方法名称、查询次数,以及搜索过程中识别的最优架构在验证集和测试集上的平均精度及标准差。
结果表明,本文提出的 Reg-PKB 和 Cls-PKB 方法实现了最优或接近最优的性能;相比之下,Reg-NoPKB 和 Cls-NoPKB 的性能方差更大,这主要是由于 100 次查询的严格限制 —— 当查询预算增加至 200 次及以上时,两种方法的性能均可稳定达到与当前最优算法相当的水平。如图 4 (b) 和 4 © 所示,在稳定性和精度方面,Reg-PKB 始终优于其他三种方法;此外可发现,无种群知识库增强的大语言模型方法,实验结果存在显著波动。
与 LLMatic、RZ-NAS 等近期的大语言模型驱动的神经架构搜索方法相比,本文方法在稳定性和效率方面均表现出明显优势。LLMatic 主要依赖大语言模型生成的变异规则更新候选操作,但其架构优化过程仍具有较强的随机性,且对提示变化敏感,导致精度存在明显波动;相比之下,RZ-NAS 通过反射推理增强零成本代理,但其依赖人工设计的变异模板和多阶段代理评估,引入了额外的复杂度,性能高度依赖零成本指标的质量。
而 LLM-ENAS-PKB 框架提供了更可靠的架构评估机制:种群知识库为大语言模型提供高质量的历史知识,有效抑制幻觉并减少方差;同时,基于回归和基于分类的代理模型,即使在严格的查询预算下也能支持稳定的性能估计。如表 4 所示,这些设计使本文的 Reg-PKB 变体在 CIFAR-10 和 CIFAR-100 数据集上的性能均达到或超越 LLMatic 和 RZ-NAS,仅需更少的查询次数即可实现优异的精度,且搜索稳定性显著提升。

DARTS 实验结果

在大规模的 DARTS [27] 搜索空间中,本文构建了超网并采用单路径采样策略进行预训练,以缓解不同路径间的共适应问题。在进化神经架构搜索框架中,将基于大语言模型的回归代理模型融入候选评估流程:在每一代进化中,LLM-ENAS-PKB 首先利用大语言模型快速筛选出潜力架构,随后这些候选架构继承预训练超网的权重进行快速推理。该过程为大语言模型生成高质量的辅助监督信号,同时提升了种群知识库中存储的架构精度的可靠性。
在这里插入图片描述

如表 5 所示,在 DARTS 搜索空间的 CIFAR-10 数据集上,LLM-ENAS-PKB 的错误率为 2.57%,与 BANANAS 等性能最优的基线方法相当,且显著优于 DARTS、ENAS、GDAS 等经典神经架构搜索方法。值得注意的是,本文方法的总搜索成本仅为 0.3 个 GPU 天,远低于大多数基于强化学习或贝叶斯优化的神经架构搜索方法,证明了所提出框架在大规模搜索空间中的高效性。
与现有的基于大语言模型的神经架构搜索方法相比,LLM-ENAS-PKB 也表现出明显优势。例如,LAPT-REA 利用大语言模型迁移设计原则,引导架构进化,报告的错误率为 2.65%、搜索成本为 0.1 个 GPU 天;而 LLM-ENAS-PKB 在保持相近轻量级搜索预算的同时,实现了更低的错误率。这表明,经种群知识库增强的大语言模型回归代理模型,能更准确地捕捉架构间细粒度的结构差异,具有更好的预测稳定性和泛化能力,尤其在大规模搜索空间中表现突出。
与 LAPT-REA(从大语言模型迁移高层设计原则以指导变异步骤)相比,本文方法得益于更细粒度、数据驱动的评估机制:LAPT-REA 主要依赖从文本知识中推导的启发式架构优化策略,而 LLM-ENAS-PKB 则利用经种群知识库增强的回归代理捕捉架构的细微结构差异,实现了更稳定、精确的性能估计。因此,在相近的轻量级搜索成本下,本文方法在 CIFAR-10 数据集上实现了更低的错误率,证明其在大规模搜索空间中具有更优的预测可靠性和更强的泛化能力。
综上,在高度复杂、规模极大的 DARTS 搜索空间中,LLM-ENAS-PKB 不仅实现了具有竞争力的精度,还大幅降低了搜索成本。这些结果凸显了所提出方法的可扩展性和实用价值,为未来在更大规模数据集上开展神经架构搜索研究奠定了坚实基础。

消融实验

种群知识库的作用

种群知识库的设计目标,是提升大语言模型在神经架构评估阶段利用相关历史知识的能力,其核心思想是从历史种群中选取兼具性能分布均衡和遗传多样性的代表性架构子集
引入该机制的原因在于:大语言模型的上下文窗口通常存在限制,当历史信息过长时,模型易产生幻觉、遗忘关键信息并引发推理混乱,从而降低预测精度和稳定性。
为验证种群知识库在降低预测误差方面的有效性,本文开展了如图 5 所示的消融实验。在该实验中,将大语言模型作为进化神经架构搜索的代理模型,对比使用种群知识库和不使用种群知识库两种设置,分析两种情况下代理模型选中的架构,其种群平均性能随进化代际的变化规律。
在这里插入图片描述

图 5 (a) 为大语言模型作为基于回归的代理模型时的对比结果:启用种群知识库后,种群在进化初期快速达到更高的性能水平,且在后期保持稳定性能,波动较小。图 5 (b) 为大语言模型作为基于分类的代理模型时的对比结果:无种群知识库时,种群的平均性能在进化过程中出现频繁、大幅的振荡。

这种显著的振荡表明,大语言模型做出错误选择的概率更高,从而将低质量架构引入种群。对大语言模型输出的分析发现,过多的历史架构信息会导致模型遗忘核心提示内容,甚至产生幻觉。在进化神经架构搜索中,这一问题具有高风险 —— 低质量架构可能携带劣质遗传信息,干扰后续代际的进化方向。相比之下,经种群知识库增强的大语言模型,能在更短的上下文中浓缩最相关的信息,有效降低错误选择的概率,实现更好的稳定性和鲁棒性。这一结果证明,种群知识库机制能显著提升大语言模型作为代理模型在神经架构搜索中的适应性和可靠性。

大语言模型的回归任务与分类任务对比

从表 2-4 可明显看出,大语言模型在回归任务中的性能显著优于分类任务。为进一步验证这一观察结果,本文设计并开展了如图 6 所示的消融实验。结果表明,无论是否使用种群知识库增强大语言模型,其在回归任务中选中的种群质量,始终高于作为基于分类的代理模型时的表现。
在这里插入图片描述

具体而言,在该实验中,大语言模型作为进化神经架构搜索架构评估阶段的代理模型,记录每一代种群迭代中代理模型选中的子代架构的平均性能。图 6 (a) 和 6 (b) 均显示,在所有进化代际中,回归任务选中的子代架构平均性能始终高于分类任务。

大语言模型在回归任务中表现更优的原因,主要源于回归任务与分类任务的内在差异:回归任务要求大语言模型预测连续的性能值,能让模型对架构进行更细粒度的区分。在回归任务中,连续的预测值包含更丰富的信息,可反映架构间微小的性能差异,这种更细粒度的反馈使大语言模型能更高效地学习,助力其在架构选择中做出更精准的决策。相比之下,分类任务要求大语言模型预测离散的标签(如 1 或 0),限制了可用信息的复杂度,从而降低了模型感知架构间细微差异的能力。

不同大语言模型的选择

在这里插入图片描述

为进一步探究提示模板对模型性能的影响,本文使用通用提示模板(主要基于 DeepSeek-R1 优化,如图 2 和 3 所示)和为各模型单独调优的模板,对四种大语言模型进行评估,结果总结于表 6。如表 6 所示,在所有大语言模型上,通用模板与单独调优模板的精度差异均极小(不超过 0.03%),这表明通用模板已具备较强的鲁棒性,其有效性并非局限于特定大语言模型。

尽管 DeepSeek-R1 在通用模板下取得了最高分数,但这并不代表其具有内在优势;相反,由于本研究的提示工程主要基于 DeepSeek-R1 开展,将该模板直接迁移至其他大语言模型时,会引入调优偏差。而单独调优的模板则缓解了这一偏差:调优后,所有大语言模型的表现几乎一致,DeepSeek-R1 与其他模型的差距进一步缩小。

这些观察结果表明:① 本文方法对提示变化具有高度鲁棒性;② 针对各模型进行轻度的提示调优,可小幅提升性能;③ 本研究的整体结论不依赖于特定的大语言模型骨干网络。本文认为,针对每个模型进行进一步的任务特定提示精化,有望实现额外的性能提升。

大语言模型预测的鲁棒性分析

为超越平均预测精度,进一步评估大语言模型代理的可靠性,本文引入失败率作为额外的评估指标,分析其预测鲁棒性。在本研究中,失败率定义为:大语言模型预测排名前 20 的候选架构中,其真实验证精度处于同代际后 50% 的架构占比。该指标聚焦于模型高置信度的误判情况 —— 这类误判在进化神经架构搜索中具有显著风险,可能引导进化过程向劣质架构区域发展。
在这里插入图片描述

图 7 展示了四种实验配置下的失败率分布,即基于回归和基于分类的代理模型分别在有 / 无种群知识库增强时的表现。结果表明,与基于分类的代理模型相比,基于回归的代理模型始终表现出更低的中位失败率和更小的方差,证明其预测行为更稳定;而种群知识库的融入,进一步降低了中位失败率和四分位距,说明种群知识库为模型提供了有信息价值、多样化的历史上下文,缓解了推理漂移,减少了由幻觉引发的误排序概率。无种群知识库的配置(尤其是分类设置)表现出更大的方差和更多的极端异常值,表明在上下文信息不足时,模型的预测易出现不稳定。

总体而言,分析结果显示:基于回归的代理模型本质上比基于分类的代理模型具有更强的鲁棒性;且种群知识库能提升两种任务类型下预测的稳定性。这些观察结果与前文报告的性能趋势一致,进一步证实:经种群知识库增强的基于回归的大语言模型代理,在进化神经架构搜索框架中能提供最可靠的评估行为。

超参数分析

评估算法 2 中种群知识库选择策略的鲁棒性,本文对超参数 α \alpha α K perf K_{\text{perf}} Kperf K div K_{\text{div}} Kdiv selected_size \text{selected\_size} selected_size 开展敏感性研究。总体而言,该方法在广泛的配置范围内均表现出稳定的行为。
在这里插入图片描述

本文首先分析权衡系数 α \alpha α,如表 7 所示,当 α \alpha α { 0.2 , 0.4 , 0.6 , 0.8 } \{0.2,0.4,0.6,0.8\} {0.2,0.4,0.6,0.8} 范围内变化时,最终精度仅产生微小差异,其中 α = 0.6 \alpha=0.6 α=0.6 时性能最优。这表明,性能 - 多样性综合分数对 α \alpha α 的具体取值并不敏感,且适度偏向性能的权重能带来稍好的稳定性。

参数 selected_size \text{selected\_size} selected_size 控制种群知识库中包含的历史架构数量,在大语言模型的有效上下文容量内,更大的取值能提供更丰富的结构 - 性能模式,提升预测稳定性。但由于 DeepSeek-R1 的实际上下文长度限制为 128K 个 token,包含种群知识库条目、候选架构和指令文本的总提示,必须控制在该可用窗口内。由于每个种群知识库条目会占用数百个 token,过大的 selected_size \text{selected\_size} selected_size 可能导致提示超出该限制,引发预测质量的突然下降。因此,当 selected_size \text{selected\_size} selected_size 超过模型的有效上下文容量时,预测行为会急剧恶化,这表明该参数存在一个硬性上限,而非平滑的敏感性趋势。
在这里插入图片描述

本文进一步通过对比四种种群知识库配置,分析 K perf K_{\text{perf}} Kperf K div K_{\text{div}} Kdiv 的贡献,包括:Reg-PKB(组合选择)、Reg-PerfPKB(仅性能)、Reg-DivPKB(仅多样性)和 Reg-NoPKB(禁用种群知识库)。如图 8 所示,组合选择的 Reg-PKB 策略在整个进化过程中,始终实现最高的子代平均性能;仅性能和仅多样性的变体虽有部分性能提升,但仍逊于完整策略;而禁用种群知识库则会导致性能显著波动,且收敛速度变慢。这些结果证实,性能和多样性能提供互补的信息,二者的联合使用对于构建能有效支持大语言模型代理预测的、有信息价值且稳定的种群知识库至关重要。

个人声明

本文为作者对原论文的学习笔记与心得分享,受个人学识与理解所限,文中对论文内容的解读或有不够周全之处,一切以原论文正式表述为准。本文仅用于学术交流与传播,内容均由作者独立整理完成,不代表本公众号立场。
如文中所涉文字、图片等内容存在版权争议,请及时与作者联系,作者将在第一时间核实并妥善处理

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐