PEL-NAS：搜索空间分区+提示协同进化，彻底解决LLM-NAS模式崩溃

kianakathlana

399人浏览 · 2026-03-22 13:12:01

kianakathlana · 2026-03-22 13:12:01 发布

ICLR 2026 | PEL-NAS：搜索空间分区+提示协同进化，彻底解决LLM-NAS模式崩溃

会议：ICLR 2026（International Conference on Learning Representations）
状态：Under review（在审会议论文）
年份：2026 年
arXiv 版本：2025 年 10 月公开（arXiv:2510.01472）

摘要

硬件感知神经网络架构搜索（HW-NAS）需要在端侧设备约束下同时优化精度与推理延迟。
传统超网方法（如FairNAS、OFA）需要数GPU天才能完成搜索；
基于大语言模型（LLM）的NAS虽然无需训练超网、反馈更快，但存在严重的探索偏置（模式崩溃）——LLM只会在极小的搜索空间内重复生成相似结构，无法覆盖全延迟区间的最优架构。

为此，本文提出 PEL-NAS：
Partitioned（搜索空间分区）+ Evolutionary（架构-提示协同进化）+ LLM-driven（LLM驱动）的硬件感知NAS框架。
核心包含三大模块：

复杂度驱动搜索空间分区：强制多样性，从根源解决探索偏置；
LLM架构-提示协同进化：知识库迭代+进化生成，越搜越强；
零成本代理预测：无需训练大量候选网络，搜索从天级降到分钟级。

实验结果：在HW-NAS-Bench上，PEL-NAS实现更高HV、更低IGD，同等精度下延迟最高降低 54%，搜索成本从GPU天 → 3分钟。

一、引言：LLM做NAS到底卡在哪？

1.1 传统HW-NAS的痛点

超网方法：精度高，但成本爆炸（FairNAS需10 GPU天）；
免训练NAS：速度快，但搜索引导能力弱；
LLM-NAS：不用训超网，但模式崩溃、探索偏置、静态提示无记忆。

1.2 本文要解决的两个核心问题

LLM探索偏置：只生成熟悉结构，覆盖不全，类似GAN模式崩溃；
静态提示无进化：不会从历史结果学习，无法逼近真实帕累托前沿。

二、相关工作

HW-NAS：多目标优化问题，目标是精度↑、延迟↓，常用基准HW-NAS-Bench；
零成本NAS：用SynFlow、JacobCov等代理指标免训练评估；
LLM-NAS：直接生成结构，但多样性差、易无效；
进化算法+小生境：保持种群多样性，防止早熟收敛。

三、PEL-NAS 方法详解

3.1 整体总览：三大部分

PEL-NAS =
复杂度驱动搜索空间分区 +
LLM架构-提示协同进化 +
零成本目标评估

3.2 图片解读

图1：三种生成策略在HW-NAS-Bench的覆盖对比

在这里插入图片描述

橙色（Normal Prompt）：普通提示，LLM严重扎堆，只覆盖极小区域；
蓝色（Latency-optimized Prompt）：加了延迟提示，稍微好一点，但依然不均匀，低延迟结构极少；
绿色（PEL-NAS）：全延迟区间近乎完美覆盖，无空白、无聚集。

结论：只有分区策略能真正解决LLM的探索偏置，单纯优化提示词无效。

图2：PEL-NAS 整体框架图

在这里插入图片描述

1. 左侧：复杂度驱动分区（Complexity-Driven Partitioning）

这是解决 LLM-NAS 模式崩溃的核心入口：

输入：完整搜索空间（Full Search Space）
输出：6 个互不重叠的子空间（Niche 0~Niche 5，记为 S₀~S₅）
分区依据：
基于架构复杂度分析（图中柱状图），以 3×3 卷积数量 为核心指标，结合延迟、FLOPs、参数量、层数、吞吐量、MACs 等硬件相关指标，将巨大的无序搜索空间切分为 6 个复杂度梯度明确的子空间。
作用：强制 LLM 必须在每个复杂度区间独立搜索，从结构上杜绝「扎堆生成相似结构」的模式崩溃。

2. 顶部：子空间采样（Random Sampling from each Niche）

从每个 Niche（子空间）中随机采样初始架构，保证每个复杂度区间都有初始种群。
右侧给出了架构编码方式：
- 用元组 (a,b,c,d,e,f) 表示网络结构
- 每个位置对应一种操作：
  - 0: zeroize（零操作）
  - 1: skip-connect（跳连）
  - 2: 1×1 conv（1×1卷积）
  - 3: 3×3 conv（3×3卷积）
  - 4: 3×3 avg pool（3×3平均池化）
- 例：(3,2,3,1,2,2) 代表一个由 3×3卷积、1×1卷积、跳连等组合而成的网络。

3. 中间偏右：免训练评估（Training-Free Evaluation）

这是 PEL-NAS 实现分钟级搜索的效率核心：

精度预测：用 13 个零成本代理（ZC-Proxies） 集成 XGBoost 预测模型精度，无需训练网络，直接从初始化状态评估性能。
延迟测量：直接查询 HW-NAS-Bench 硬件延迟表，秒级获取真实硬件延迟，无噪声、无额外计算开销。
输出：将每个架构的 Acc.(%) 和 Lat.(ms) 存入 帕累托归档库（Pareto Archive, P₃）。

4. 中间偏左：帕累托归档库（Pareto Archive, P₃）

存储所有被评估过的架构及其精度、延迟。

表中示例：

架构编码	Acc.(%)	Lat.(ms)
(2,2,3,1,0,3)	71.77	5.42
(1,2,3,1,0,3)	70.91	4.39
(3,1,3,1,2,0)	69.59	3.34
(1,3,3,1,2,0)	64.17	2.56
(2,3,3,2,0,0)	61.73	1.77

这些数据会作为 LLM Agent 的历史经验，用于后续协同进化。

5. 右侧：LLM Agent（核心大脑）

这是 PEL-NAS 的智能进化模块，实现「架构-提示词协同进化」：

知识更新：
- 从帕累托归档库中读取精度、延迟数据，更新协同进化知识库（Co-evolve Knowledge Base）。
- LLM 会总结设计规律，例如「3×3卷积多则延迟高、精度高」「skip-connect 能显著降低延迟」。
父代选择：
- 从帕累托归档库中随机选择优秀架构作为父代。
进化操作：
- 交叉（Crossover）：融合两个父代架构的组件，生成新结构。
- 变异（Mutation）：对单个架构进行局部修改（如将 3×3卷积替换为 skip-connect），探索新结构。
输出新架构：
- 生成一批新架构编码（如 (3,2,3,1,2,2)），送回「免训练评估」模块，完成一轮进化闭环。

6. 底部：聚合与最终帕累托前沿（Aggregation & Final Pareto Front）

每个 Niche 独立进化完成后，聚合所有子空间的帕累托最优架构。
最终生成完整精度-延迟帕累托前沿（左下角曲线）：
- 横轴：延迟（Latency）
- 纵轴：精度（Accuracy）
- 曲线上的每个点代表「无法再找到一个同时更准、更快」的架构，即硬件约束下的最优解。

图3：搜索空间复杂度分析（分区的科学依据）

在这里插入图片描述

作者统计发现：
模型参数量、延迟与 3×3卷积数量呈极强的阶梯式相关。
因为3×3卷积参数量是1×1的9倍，是决定硬件开销的核心因素。

所以按3×3卷积数量分区，科学且有效。

表1：6个niche分区规则（核心设计）

Niche	3×3卷积数	1×1卷积数	定位
S0	0	0	无卷积架构
S1	0	≥1	超低延迟轻量模型
S2	1	任意	入门复杂度
S3	2	任意	中等复杂度
S4	3	任意	高复杂度
S5	≥4	任意	最高复杂度

作用：强制LLM在6个难度区间都搜索，杜绝模式崩溃。

图4：LLM提示-架构协同进化（论文大脑）

分为两个强耦合阶段，形成闭环进化：
在这里插入图片描述

阶段1：知识库更新

LLM当“分析师”，复盘上一轮精度、延迟、结构，更新设计启发式知识库。
例如：

“avg_pool3x3延迟高、精度提升小”
“skip_connect能有效降延迟”

阶段2：理性化生成

LLM当“架构师”，用更新后的知识库做：

Crossover（交叉）：融合两个父结构；
Mutation（变异）：局部修改（如avg_pool→skip）。

关键：提示词和架构一起进化，LLM从“瞎猜机”变成“有记忆专家”。

图9：LLM原生模式崩溃现象

无分区时，LLM生成结构高度聚集；
帕累托前沿残缺、稀疏；
即便提示“追求多样性”也没用。

结论：必须用结构性分区，单纯提示工程无效。

3.3 零成本评估（速度的关键）

延迟：直接查表HW-NAS-Bench；
精度：13个零成本代理集成XGBoost，相关系数≈0.9；
完全免训练 → 搜索从几天变几分钟。

3.4 实验算法解析

核心符号/术语

符号/函数	通俗解释（NAS场景）
输入
$G$	进化迭代的总轮数（比如设为50/100轮）
$L$	LLM大模型引擎（如GPT/LLaMA等）
${S_0,...,S_5\}$	6个复杂度子空间（按3×3卷积数量划分，核心防崩溃设计）
输出
$P_{final}$	最终的全局帕累托前沿（所有「又准又快」的最优架构集合）
其他关键项
$M_{pred}$	零成本（ZC）集成预测器：用13个免训练指标+XGBoost预测精度
$z_{pred}$	$M_{pred}$ 预测的架构精度（%）
$l$	架构的真实硬件延迟（ms），直接查表HW-NAS-Bench得到
$P_k$	第 $k$ 个分区的帕累托归档库（只存该分区的最优架构）
$HardwareLookup(A)\text{HardwareLookup}(A)$	延迟查表函数：输入架构 $A$ ，输出对应硬件的延迟
$Non-Dominated-Sort()\text{Non-Dominated-Sort}()$	非支配排序：筛选出「没有更优解能支配它」的帕累托解

完整伪代码逐行解读（按阶段拆分）

第一步：输入输出定义（1-2行）

1: Input: Number of generations G, LLM engine L, niche definitions {S0, . . . , S5}
2: Output: Final Pareto front Pfinal

第1行（输入）：算法需要3个核心输入：
- $G$ ：进化迭代次数（控制搜索轮数，越多越优但耗时稍长）；
- $L$ ：LLM引擎（负责生成/优化网络架构）；
- ${S_0,...,S_5\}$ ：6个分区的定义规则（比如 $S_1$ =「3×3卷积数=0」）。
第2行（输出）：最终返回全局最优的帕累托前沿 $P_{final}$ （所有精度-延迟权衡最优的架构）。

阶段1：初始化（3-12行）—— 给每个分区搭好「初始最优库」

3: # Phase 1: Initialization
4: Train ZC ensemble predictor Mpred on a sample of architectures // Offline, one-time step
5: for k ∈{0, 1, . . . , 5} do
6:   Initialize Pareto archive Pk ←∅
7:   Sample an initial population Popinit ⊂Sk
8:   for each architecture A ∈Popinit do
9:     (zpred, l) ←(Mpred(A), HardwareLookup(A))
10:    Update Pk with (A, zpred, l) // Add if not dominated
11:  end for
12: end for

逐行拆解：

第4行：离线训练零成本集成预测器 $M_{pred}$ （仅需执行1次）。
→ 核心价值：不用训练网络，直接通过初始化指标预测精度，让搜索从「天级」变「分钟级」。
第5行：遍历6个分区（ $S_0$ 到 $S_5$ ），每个分区独立初始化。
→ 核心价值：保证6个复杂度区间都有起点，避免「一上来就扎堆」。
第6行：初始化第 $k$ 个分区的帕累托归档库 $P_k$ 为空（后续存该分区最优架构）。
第7行：从第 $k$ 个分区随机采样一批初始架构 $Pop_{init}$ 。
→ 核心价值：每个分区的初始架构都符合该分区的复杂度约束（比如 $S_2$ 只能有1个3×3卷积）。
第8-9行：遍历每个初始架构 $A$ ，用 $M_{pred}$ 预测精度、查表得延迟。
第10行：把 $A, z_{pred}, l)$ 加入 $P_k$ （仅保留「非支配解」—— 即没有更优架构能同时比它准、比它快）。
第11-12行：结束内层/外层循环，完成6个分区的初始化。

阶段1核心目标：

为每个分区建立「初始优质架构库」，保证后续进化有「好起点」，且6个分区全覆盖。

阶段2：分区协同进化（13-27行）—— 让每个分区「独立进化+智能优化」

13: # Phase 2: Partitioned Co-evolution
14: for generation g = 1, . . . , G do
15:   # Parallel evolution across all niches
16:   for k ∈{0, 1, . . . , 5} do
17:     Select parent(s) Aparent from Pk
18:     Construct Prompt using Aparent, their scores, and the constraint for niche Sk
19:     Generate a new child architecture Achild ←L(Prompt)
20:     if Achild is valid, is novel, and satisfies constraint of Sk then
21:       (zpred, l) ←(Mpred(Achild), HardwareLookup(Achild))
22:       Let Anew ←(Achild, zpred, l)
23:       // Update archive by adding the new solution and removing any it dominates
24:       Pk ←{A′ ∈Pk | Anew does not dominate A′} ∪{Anew}
25:     end if
26:   end for
27: end for

逐行拆解：

第14行：迭代 $G$ 轮进化（每轮都让架构更优）。
第16行：6个分区并行进化（核心！避免某分区挤占资源）。
第17行：从 $P_k$ 选「父代架构」 $A_{parent}$ （选该分区当前最优的架构）。
→ 核心价值：子代架构的起点是「该分区最优」，进化效率更高。
第18行：构建LLM提示词——包含「父代架构+精度/延迟分数+分区 $S_k$ 的约束」。
→ 核心价值：提示词绑定分区规则（比如 $S_1$ 不能有3×3卷积），LLM不会瞎生成，实现「提示-架构协同进化」。
第19行：LLM根据提示词生成「子代架构」 $A_{child}$ 。
→ 核心价值：LLM利用历史经验+分区约束，生成的架构天然符合复杂度要求。
第20行：校验子代架构：
- valid：架构编码合法（比如操作符是0~4）；
- novel：未生成过（避免重复）；
- satisfies constraint：符合 $S_k$ 的复杂度约束（比如 $S_2$ 必须有1个3×3卷积）。
第21-22行：预测子代精度、查表得延迟，封装为 $A_{new}$ 。
第24行：更新 $P_k$ ：
- 移除被 $A_{new}$ 支配的旧架构（比如 $A_{new}$ 又准又快，旧架构就没用了）；
- 加入 $A_{new}$ ；
  → 核心价值： $P_k$ 永远只存该分区的最优解，无冗余。
第25-27行：结束条件判断/循环，完成 $G$ 轮进化。

阶段2核心目标：

通过「分区并行+LLM智能生成+硬约束校验」，让每个分区都能独立优化，既保证多样性，又根治模式崩溃。

阶段3：最终聚合（28-31行）—— 合并所有分区的最优解

28: # Phase 3: Final Aggregation
29: Punion ←∪₅ₖ=₀ Pk
30: Pfinal ←Non-Dominated-Sort(Punion)
31: return Pfinal

逐行拆解：

第29行：合并6个分区的帕累托归档库 $P_k$ ，得到「全空间候选最优解」。
第30行：对合并后的所有架构做「非支配排序」—— 筛选出全局最优的帕累托解（比如 $S_3$ 的解可能支配 $S_4$ 的解，需重新筛选）。
第31行：返回最终的全局帕累托前沿 $P_{final}$ 。

阶段3核心目标：

从「分区最优」升级为「全局最优」，得到覆盖全延迟区间的最终最优架构集合。

伪代码核心亮点

分区并行进化：6个分区独立迭代，从代码层面强制全空间覆盖，彻底解决LLM-NAS的模式崩溃；
零成本评估：全程无训练、无超网，仅用预测器+查表，搜索效率拉满（3分钟完成）；
LLM提示硬约束：提示词绑定分区规则，生成的架构天然符合复杂度要求，无需事后过滤；
动态更新归档库：每个分区只保留非支配解，进化效率高、无冗余；
全局聚合筛选：合并后重新排序，保证最终前沿是「全局最优」而非「分区最优」。

四、实验结果 + 图表解读

表2：最优架构精度-延迟对比

PEL-NAS找到：

Edge GPU：1.78ms
FPGA：1.65ms
比最强基线快 22%~54%。

表3：HV & IGD 全面领先

HV越高：帕累托覆盖越全；
IGD越低：越接近真实最优前沿；
PEL-NAS在6硬件×3数据集全部SOTA。

表4：搜索成本炸裂对比

方法	搜索成本
LLMatic	17 GPU天
FairNAS	10 GPU天
DARTS	4 GPU天
PEL-NAS	3分钟

表5：消融实验（证明每个组件都必不可少）

无分区：直接崩盘，HV暴跌、IGD暴增；
无LLM算子：性能明显下降；
无零成本集成：预测不准，搜索退化。

图5：ViT搜索空间泛化性

在这里插入图片描述

将分区迁移到Transformer：

复杂度核心：Embed Dim（O(D²)）、Depth Num（O(L)）；
依然实现最优精度-延迟权衡；
延迟最低 4.0ms。

五、结论

PEL-NAS的核心贡献：

复杂度分区从结构上根除LLM模式崩溃；
提示-架构协同进化让LLM具备记忆与推理；
零成本评估实现分钟级搜索；
同时支持CNN与ViT，工业落地性极强。

六、标签

ICLR2026 NAS HW-NAS LLM 神经架构搜索 端侧部署 零成本NAS

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

Coze（扣子）工作流使用攻略 & 操作指南（2026最新版）

AtomGit开源社区

c++智能指针的超详细讲解

从比较简单的层面来看，智能指针是RAII(Resource Acquisition Is Initialization，资源获取即初始化)机制对普通指针进行的一层封装。这样使得智能指针的行为动作像一个指针，本质上却是一个对象，这样可以方便管理一个对象的生命周期。在c++中，智能指针一共定义了4种：auto_ptr、unique_ptr、shared_ptr 和 weak_ptr。其中，auto_p

AtomGit开源社区

【场景生成与研究】考虑时序相关性MC的场景生成与削减研究（Matlab代码实现）

随着风电装机容量的迅猛发展，风电并网规模逐渐增加[1]，风电出力不确定性对电力系统运行调度和控制的影响不可忽视。而现阶段的风电功率预测精度[2]依然不尽如人意，风电大规模并网对电力系统安全运行提出了更高的要求。常规的确定性优化调度模型已经不再适用于大规模风电并网系统，场景法作为随机优化调度模型的一种，能够对风电不确定变量进行抽样产生可能出现的场景，通过多个确定性场景来表征不确定变量。因此，基于场

AtomGit开源社区

所有评论(0)

查看更多评论

kianakathlana

@kianakathlana

已为社区贡献2条内容

PEL-NAS：搜索空间分区+提示协同进化，彻底解决LLM-NAS模式崩溃

kianakathlana

ICLR 2026 | PEL-NAS：搜索空间分区+提示协同进化，彻底解决LLM-NAS模式崩溃

摘要

一、引言：LLM做NAS到底卡在哪？

1.1 传统HW-NAS的痛点

1.2 本文要解决的两个核心问题

二、相关工作

三、PEL-NAS 方法详解

3.1 整体总览：三大部分

3.2 图片解读

图1：三种生成策略在HW-NAS-Bench的覆盖对比

图2：PEL-NAS 整体框架图

1. 左侧：复杂度驱动分区（Complexity-Driven Partitioning）

2. 顶部：子空间采样（Random Sampling from each Niche）

3. 中间偏右：免训练评估（Training-Free Evaluation）

4. 中间偏左：帕累托归档库（Pareto Archive, P₃）

5. 右侧：LLM Agent（核心大脑）

6. 底部：聚合与最终帕累托前沿（Aggregation & Final Pareto Front）

图3：搜索空间复杂度分析（分区的科学依据）

表1：6个niche分区规则（核心设计）

图4：LLM提示-架构协同进化（论文大脑）

阶段1：知识库更新

阶段2：理性化生成

图9：LLM原生模式崩溃现象

3.3 零成本评估（速度的关键）

3.4 实验算法解析

核心符号/术语

完整伪代码逐行解读（按阶段拆分）

第一步：输入输出定义（1-2行）

阶段1：初始化（3-12行）—— 给每个分区搭好「初始最优库」

逐行拆解：

阶段1核心目标：

阶段2：分区协同进化（13-27行）—— 让每个分区「独立进化+智能优化」

逐行拆解：

阶段2核心目标：

阶段3：最终聚合（28-31行）—— 合并所有分区的最优解

逐行拆解：

阶段3核心目标：

伪代码核心亮点

四、实验结果 + 图表解读

表2：最优架构精度-延迟对比

表3：HV & IGD 全面领先

表4：搜索成本炸裂对比

表5：消融实验（证明每个组件都必不可少）

图5：ViT搜索空间泛化性

五、结论

六、标签

所有评论(0)

温馨提示：您尚未绑定手机号

kianakathlana