【机器学习精通】第17章 | AutoML与神经架构搜索：自动化机器学习

所谓伊人，在水一方333

405人浏览 · 2026-03-18 08:14:19

所谓伊人，在水一方333 · 2026-03-18 08:14:19 发布

摘要：本章深入探讨自动化机器学习（AutoML）的核心技术与前沿进展，涵盖超参数优化、神经架构搜索（NAS）、自动化特征工程等关键领域，并通过Optuna实战案例演示如何构建高效的自动化建模流程。

环境声明

Python版本：Python 3.12+（建议使用3.10以上版本）
核心库：Optuna 3.6+、scikit-learn 1.4+、PyTorch 2.0+
可选工具：Auto-sklearn、TPOT、NNI、Ray Tune
操作系统：Windows / macOS / Linux（通用）

学习目标

完成本章学习后，你将能够：

理解AutoML的完整流程与自动化层次
掌握超参数优化的核心算法原理（贝叶斯优化、TPE）
了解神经架构搜索（NAS）的搜索空间设计与评估策略
熟练使用Optuna等工具进行自动化超参数调优
了解2024-2025年AutoML领域的最新研究进展

1. AutoML概述与流程

1.1 什么是AutoML

AutoML（Automated Machine Learning，自动化机器学习）是指利用机器学习算法和技术来自动化机器学习的各个阶段，包括数据预处理、特征工程、模型选择、超参数优化和模型部署等。

传统机器学习流程中，数据科学家需要花费大量时间进行特征工程、模型选择和调参。AutoML的目标是将这些繁琐的手动工作自动化，让机器学习更加民主化。

1.2 机器学习流水线自动化

一个完整的AutoML系统通常包含以下自动化组件：

阶段	自动化内容	典型方法
数据预处理	缺失值填充、异常值处理、数据标准化	基于规则的填充、统计方法
特征工程	特征生成、特征选择、特征转换	遗传算法、强化学习
模型选择	算法选择、集成策略	元学习、多臂老虎机
超参数优化	学习率、正则化系数、网络结构	贝叶斯优化、进化算法
模型评估	交叉验证、性能评估	自动CV策略

1.3 自动化层次

AutoML的自动化程度可分为三个层次：

Level 1：辅助自动化

提供超参数搜索工具
半自动化的特征工程
需要人工参与决策

Level 2：流程自动化

端到端的机器学习流水线
自动模型选择和集成
如Auto-sklearn、TPOT

Level 3：全自动智能化

基于LLM的自动化决策
自动数据理解与分析
如AutoML-GPT、2024-2025年新兴工具

1.4 应用场景

AutoML在以下场景具有显著价值：

快速原型开发：在数小时内构建基线模型
资源受限环境：缺乏专业数据科学家的团队
大规模调参：需要探索海量超参数组合
模型迭代优化：持续改进生产环境模型

2. 超参数优化

2.1 网格搜索（Grid Search）

网格搜索是最基础的超参数优化方法，通过穷举所有可能的参数组合来寻找最优解。

工作原理：

定义每个超参数的候选值列表
生成所有可能的参数组合
对每个组合进行交叉验证评估
选择性能最佳的参数组合

优点：

实现简单，易于理解
保证找到给定搜索空间内的最优解

缺点：

计算成本随参数维度指数增长
无法处理连续参数空间

2.2 随机搜索（Random Search）

随机搜索从参数空间中随机采样进行尝试，相比网格搜索更加高效。

核心思想：

研究表明，超参数的重要性往往不均匀
随机搜索可以探索更多不同的重要参数值

与网格搜索对比：

特性	网格搜索	随机搜索
搜索方式	穷举所有组合	随机采样
计算效率	低（维度灾难）	较高
适用场景	参数空间小	参数空间大
最优性保证	有（有限空间）	无

2.3 贝叶斯优化原理

贝叶斯优化是一种基于概率模型的序列优化方法，特别适用于评估成本高的黑盒函数优化。

核心组件：

代理模型（Surrogate Model）
- 通常使用高斯过程（Gaussian Process）
- 估计目标函数的分布
- 提供预测均值和不确定性
采集函数（Acquisition Function）
- 指导下一个采样点的选择
- 平衡探索（Exploration）与利用（Exploitation）
- 常见策略：EI（Expected Improvement）、UCB、PI

算法流程：

1. 初始化：随机采样几个点，构建初始数据集
2. 拟合代理模型：基于已有数据训练高斯过程
3. 优化采集函数：选择下一个最有潜力的评估点
4. 评估目标函数：获取新点的真实性能
5. 更新数据集：将新结果加入训练集
6. 重复步骤2-5，直到达到停止条件

2.4 TPE算法

TPE（Tree-structured Parzen Estimator）是贝叶斯优化的一种高效实现，被Optuna等工具广泛采用。

核心思想：

不使用高斯过程，而是使用核密度估计（KDE）
将观测分为"好"和"坏"两组
建模p(x|y<y*)和p(x|y>=y*)的分布

数学表达：

TPE定义采集函数为：

EI(x) = E[max(0, y* - y)]

通过非参数密度估计，TPE能够高效处理条件参数空间（某些参数依赖于其他参数取值）。

优势：

支持并行优化
处理条件/分类参数更自然
计算复杂度随观测数线性增长

3. 神经架构搜索NAS

3.1 搜索空间设计

搜索空间定义了NAS可以探索的神经网络架构集合，是NAS成功的关键。

常见搜索空间类型：

类型	描述	示例
链式结构	按顺序堆叠的层	简单的CNN堆叠
多分支结构	包含跳跃连接	ResNet、DenseNet风格
单元/块级	搜索基本构建单元	NASNet、DARTS
宏架构	整体网络拓扑	包含多路径的复杂结构

搜索空间设计原则：

充分性：包含高性能架构
紧凑性：排除明显低效的设计
可迁移性：搜索到的单元可跨数据集使用

3.2 搜索策略

NAS的搜索策略决定了如何探索搜索空间：

基于强化学习（RL）：

使用RNN作为控制器生成架构描述
架构性能作为奖励信号
代表：NASNet、ENAS

基于进化算法（EA）：

通过变异、交叉生成新架构
基于种群的选择机制
代表：AmoebaNet、GeNet

基于梯度（可微分NAS）：

将离散搜索空间松弛为连续
使用梯度下降优化架构参数
代表：DARTS、ProxylessNAS

搜索策略对比：

策略	搜索效率	内存需求	代表性方法
强化学习	低	高	NASNet、ENAS
进化算法	中	中	AmoebaNet
可微分NAS	高	低	DARTS、FBNet

3.3 性能评估策略

评估候选架构的性能是NAS中最耗时的环节，常用加速策略包括：

低精度估计：

减少训练轮数（Early Stopping）
使用小数据集或降采样
减少通道数/层数

权重共享：

不同架构共享部分权重
一次性训练超网络（Supernet）
代表：ENAS、Once-for-All

代理模型预测：

训练性能预测器
基于架构编码快速预测性能
避免完整训练

3.4 可微分NAS详解

DARTS（Differentiable Architecture Search）是可微分NAS的代表性方法。

核心创新：

将离散架构选择松弛为连续的概率分布
使用Softmax加权候选操作
交替优化网络权重和架构参数

搜索单元结构：

输入节点 -> [候选操作集合] -> 输出节点

候选操作通常包括：
- 3x3可分离卷积
- 5x5可分离卷积
- 3x3空洞卷积
- 5x5空洞卷积
- 3x3最大池化
- 3x3平均池化
- 恒等映射
- 无连接（零操作）

双层级优化：

min_alpha L_val(w*(alpha), alpha)
s.t. w*(alpha) = argmin_w L_train(w, alpha)

其中alpha是架构参数，w是网络权重。

DARTS的局限与改进：

问题	解决方案	代表工作
架构退化（偏向skip-connect）	添加正则化、早停	DARTS+、R-DARTS
显存占用大	梯度近似、部分通道训练	PC-DARTS、Single-Path NAS
迁移性能不稳定	改进搜索空间、后处理	DARTS-v2、NAS-Bench-201

4. 自动化特征工程

4.1 特征生成

自动特征生成通过数学变换和组合创建新特征：

变换操作：

数学运算：log、sqrt、square、reciprocal
统计聚合：mean、std、min、max
时间分解：年、月、日、星期、小时

特征组合：

算术组合：加减乘除
交叉特征：类别特征的组合
多项式特征：高阶交互项

4.2 特征选择

自动特征选择方法可分为三类：

过滤法（Filter）：

基于统计检验选择特征
计算速度快，独立于模型
方法：卡方检验、互信息、相关系数

包装法（Wrapper）：

使用模型性能评估特征子集
递归特征消除（RFE）
前向/后向选择

嵌入法（Embedded）：

模型训练过程中自动选择
L1正则化（Lasso）
树模型的特征重要性

4.3 特征转换

自动编码器：

学习特征的压缩表示
可用于降维和去噪

特征学习：

深度学习自动学习层次化特征
迁移学习使用预训练特征

5. AutoML工具对比

5.1 主流工具概览

工具	主要功能	算法支持	特点
Auto-sklearn	全自动化ML	传统机器学习	基于贝叶斯优化和元学习
TPOT	遗传编程	传统ML + 预处理	生成可导出代码
Optuna	超参数优化	通用框架	灵活、高效、支持分布式
Ray Tune	分布式调参	深度学习为主	与Ray生态集成
NNI	神经网络智能	NAS + HPO	微软开源，功能全面
AutoGluon	自动化ML	表格/图像/NLP	亚马逊开源，易用性强

5.2 Auto-sklearn

基于scikit-learn的自动化机器学习工具，核心特点：

使用贝叶斯优化进行超参数搜索
基于元学习选择初始配置
自动集成多个模型（Ensemble Selection）

适用场景：

中小规模表格数据
需要快速获得强基线
传统机器学习任务

5.3 TPOT

基于遗传编程的AutoML工具：

将ML流水线编码为树结构
通过进化操作优化流水线
输出可执行的Python代码

优势：

结果可解释性强
生成的代码可直接部署

5.4 Optuna

专注于超参数优化的框架：

核心特性：

定义-by-run动态搜索空间
支持剪枝（早停）策略
内置多种采样算法（TPE、CMA-ES等）
可视化分析工具

适用场景：

深度学习超参数调优
需要精细控制的优化任务
大规模分布式优化

5.5 NNI

微软开源的神经网络智能工具包：

功能模块：

Hyperparameter Tuning（超参数调优）
Neural Architecture Search（神经架构搜索）
Model Compression（模型压缩）
Feature Engineering（特征工程）

特色：

支持多种训练平台（本地、远程、K8s）
丰富的算法库（进化、贝叶斯、早停等）

6. 前沿进展（2024-2025）

6.1 LLM-based NAS

2024年以来，大语言模型（LLM）开始被应用于神经架构搜索：

核心思想：

利用LLM的代码理解和生成能力
将架构描述为代码或自然语言
通过提示工程指导架构设计

代表性工作：

方法	核心思想	特点
AutoML-GPT	LLM作为控制器调度ML工具	端到端自动化
LLM4NAS	使用LLM生成架构描述	零样本架构推荐
GPT-NAS	基于LLM的架构优化建议	结合人类专家知识

优势：

可以利用预训练知识
支持自然语言交互
能够处理开放式搜索空间

6.2 AutoGPT for ML

AutoML-GPT等系统将LLM与AutoML工具链结合：

工作流程：

1. 用户输入任务描述
2. LLM分析需求，选择合适工具
3. 自动执行数据预处理
4. 调用AutoML进行模型搜索
5. 评估并优化结果
6. 生成完整报告

技术挑战：

工具调用的准确性
长序列决策的稳定性
计算成本控制

6.3 2024-2025年趋势

趋势1：多模态AutoML

统一处理表格、图像、文本、时序数据
跨模态特征自动融合

趋势2：高效NAS

零成本/低成本架构评估
基于权重共享的超网络方法

趋势3：联邦AutoML

隐私保护下的自动化建模
分布式场景下的模型搜索

趋势4：神经符号结合

结合符号推理与神经网络搜索
可解释性更强的自动化模型

7. 实战案例：使用Optuna进行超参数优化

7.1 环境准备

# 安装依赖
# pip install optuna scikit-learn xgboost matplotlib

import optuna
import numpy as np
import pandas as pd
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report
import warnings
warnings.filterwarnings('ignore')

# 设置日志级别
optuna.logging.set_verbosity(optuna.logging.WARNING)

7.2 数据加载与预处理

# 加载乳腺癌数据集
data = load_breast_cancer()
X, y = data.data, data.target
feature_names = data.feature_names

print(f"数据集形状: {X.shape}")
print(f"特征名称: {feature_names[:5]}...")
print(f"类别分布: {np.bincount(y)}")

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

# 标准化特征
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

7.3 定义优化目标函数

def objective(trial):
    """
    Optuna目标函数：定义超参数搜索空间和模型训练流程
    """
    # 选择分类器类型
    classifier_name = trial.suggest_categorical(
        'classifier', ['RandomForest', 'SVM']
    )
    
    if classifier_name == 'RandomForest':
        # RandomForest超参数
        n_estimators = trial.suggest_int('rf_n_estimators', 10, 200)
        max_depth = trial.suggest_int('rf_max_depth', 2, 32, log=True)
        min_samples_split = trial.suggest_int('rf_min_samples_split', 2, 20)
        min_samples_leaf = trial.suggest_int('rf_min_samples_leaf', 1, 10)
        max_features = trial.suggest_categorical(
            'rf_max_features', ['sqrt', 'log2', None]
        )
        
        classifier = RandomForestClassifier(
            n_estimators=n_estimators,
            max_depth=max_depth,
            min_samples_split=min_samples_split,
            min_samples_leaf=min_samples_leaf,
            max_features=max_features,
            random_state=42,
            n_jobs=-1
        )
    else:
        # SVM超参数
        c = trial.suggest_float('svm_c', 1e-3, 1e3, log=True)
        kernel = trial.suggest_categorical('svm_kernel', ['rbf', 'linear', 'poly'])
        gamma = trial.suggest_categorical('svm_gamma', ['scale', 'auto'])
        
        classifier = SVC(
            C=c,
            kernel=kernel,
            gamma=gamma,
            random_state=42
        )
    
    # 使用交叉验证评估模型
    scores = cross_val_score(
        classifier, X_train_scaled, y_train, 
        cv=5, scoring='accuracy', n_jobs=-1
    )
    
    # 返回平均准确率
    return scores.mean()

7.4 执行优化

# 创建Study对象
study = optuna.create_study(
    direction='maximize',  # 最大化准确率
    sampler=optuna.samplers.TPESampler(seed=42),  # 使用TPE采样器
    pruner=optuna.pruners.MedianPruner()  # 使用中位数剪枝策略
)

# 运行优化
print("开始超参数优化...")
study.optimize(objective, n_trials=100, show_progress_bar=True)

# 输出最佳结果
print(f"\n最佳试验编号: {study.best_trial.number}")
print(f"最佳准确率: {study.best_trial.value:.4f}")
print(f"最佳超参数:")
for key, value in study.best_trial.params.items():
    print(f"  {key}: {value}")

7.5 训练最终模型并评估

# 使用最佳超参数训练最终模型
best_params = study.best_trial.params

if best_params['classifier'] == 'RandomForest':
    final_model = RandomForestClassifier(
        n_estimators=best_params['rf_n_estimators'],
        max_depth=best_params['rf_max_depth'],
        min_samples_split=best_params['rf_min_samples_split'],
        min_samples_leaf=best_params['rf_min_samples_leaf'],
        max_features=best_params['rf_max_features'],
        random_state=42,
        n_jobs=-1
    )
else:
    final_model = SVC(
        C=best_params['svm_c'],
        kernel=best_params['svm_kernel'],
        gamma=best_params['svm_gamma'],
        random_state=42
    )

# 训练模型
final_model.fit(X_train_scaled, y_train)

# 在测试集上评估
y_pred = final_model.predict(X_test_scaled)
test_accuracy = accuracy_score(y_test, y_pred)

print(f"\n测试集准确率: {test_accuracy:.4f}")
print("\n分类报告:")
print(classification_report(y_test, y_pred, target_names=data.target_names))

7.6 可视化分析

import matplotlib.pyplot as plt

# 绘制优化历史
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# 1. 优化历史
ax1 = axes[0, 0]
optuna.visualization.matplotlib.plot_optimization_history(study, ax=ax1)
ax1.set_title('Optimization History')

# 2. 超参数重要性
ax2 = axes[0, 1]
optuna.visualization.matplotlib.plot_param_importances(study, ax=ax2)
ax2.set_title('Hyperparameter Importances')

# 3. 平行坐标图
ax3 = axes[1, 0]
optuna.visualization.matplotlib.plot_parallel_coordinate(study, ax=ax3)
ax3.set_title('Parallel Coordinate Plot')

# 4. 等高线图（选择两个重要参数）
ax4 = axes[1, 1]
if best_params['classifier'] == 'RandomForest':
    optuna.visualization.matplotlib.plot_contour(
        study, params=['rf_n_estimators', 'rf_max_depth'], ax=ax4
    )
else:
    optuna.visualization.matplotlib.plot_contour(
        study, params=['svm_c', 'svm_kernel'], ax=ax4
    )
ax4.set_title('Contour Plot')

plt.tight_layout()
plt.savefig('optuna_visualization.png', dpi=150)
plt.show()

print("\n可视化结果已保存至 optuna_visualization.png")

7.7 多目标优化示例

def multi_objective(trial):
    """
    多目标优化：同时优化准确率和模型复杂度
    """
    n_estimators = trial.suggest_int('n_estimators', 10, 200)
    max_depth = trial.suggest_int('max_depth', 2, 32, log=True)
    
    model = RandomForestClassifier(
        n_estimators=n_estimators,
        max_depth=max_depth,
        random_state=42
    )
    
    # 计算准确率
    scores = cross_val_score(model, X_train_scaled, y_train, cv=5)
    accuracy = scores.mean()
    
    # 计算模型复杂度（树的数量 * 平均深度）
    complexity = n_estimators * max_depth
    
    return accuracy, complexity

# 创建多目标优化Study
multi_study = optuna.create_study(
    directions=['maximize', 'minimize'],  # 最大化准确率，最小化复杂度
    sampler=optuna.samplers.TPESampler(seed=42)
)

# 运行优化
multi_study.optimize(multi_objective, n_trials=50)

# 输出Pareto前沿
print("\nPareto前沿解:")
for trial in multi_study.best_trials:
    print(f"  准确率: {trial.values[0]:.4f}, 复杂度: {trial.values[1]}")

8. 避坑小贴士

8.1 超参数优化常见陷阱

陷阱1：搜索空间过大

问题：定义过于宽泛的搜索范围
解决：基于先验知识缩小范围，逐步细化

陷阱2：验证集泄露

问题：在调参过程中多次使用同一验证集
解决：使用嵌套交叉验证，分离调参验证集和最终测试集

陷阱3：过拟合验证集

问题：过度优化导致验证集过拟合
解决：限制搜索轮数，使用早停策略

8.2 NAS实践建议

建议1：从简单开始

先尝试在小搜索空间上运行
逐步扩展搜索范围

建议2：合理设置预算

明确计算资源限制
使用权重共享等加速技术

建议3：关注可迁移性

在小数据集上搜索，在大数据集上验证
使用NAS-Bench等基准测试

8.3 AutoML工具选择指南

场景	推荐工具	理由
快速基线	Auto-sklearn	开箱即用，效果好
深度学习调参	Optuna	灵活，支持剪枝
大规模分布式	Ray Tune	与Ray生态集成
NAS研究	NNI	功能全面，支持多种策略
生产部署	TPOT	生成可解释代码

9. 本章小结

本章系统介绍了AutoML与神经架构搜索的核心概念与技术：

核心知识点回顾：

AutoML流程：从数据预处理到模型部署的全自动化流水线
超参数优化：网格搜索、随机搜索、贝叶斯优化、TPE算法的原理与适用场景
神经架构搜索：搜索空间设计、搜索策略（RL/EA/可微分）、性能评估加速方法
自动化特征工程：特征生成、选择、转换的自动化方法
工具实践：Auto-sklearn、TPOT、Optuna、NNI等工具的特点与选择
前沿进展：LLM-based NAS、AutoGPT for ML等2024-2025年新兴方向

一句话总结：AutoML的目标是让机器学习更加民主化，但理解其底层原理仍是发挥AutoML最大价值的关键。

进一步学习建议：

阅读DARTS、ENAS等经典NAS论文
实践Optuna官方教程中的高级功能
关注NeurIPS、ICML等顶会的AutoML相关研究

如果本文对你有帮助，欢迎点赞、收藏、评论交流。系列文章持续更新中，关注不迷路！

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

Transformer核心：自注意力机制解析

赋予LLM使用工具（搜索、计算器、API）、规划任务、记忆和反思的能力，使其能够自主或半自主地完成复杂工作流。（Self-Attention）来捕捉序列中的长距离依赖关系，为后续LLM的爆发奠定了基石。：如金融分析Agent、法律文书审核Agent、医疗诊断辅助Agent等，深度结合行业知识。：如AutoGPT、Devin（AI程序员），能够理解复杂目标并拆解执行。展开，其演进体现在架构优化、训练

AtomGit开源社区

从全表扫描到覆盖索引：一次SQL调优的完整复盘

AtomGit开源社区

2026年阿里云上Hermes Agent/OpenClaw 配置Token Plan部署的详细流程来了

OpenClaw并非传统的聊天机器人，而是一款本地优先、云端适配的AI自动化代理——它以大语言模型为“大脑”，以Skills插件生态为“手脚”，能理解自然语言指令，自主完成网页操作、邮件管理、文档处理、多平台协同等具象化任务，无需编写复杂的自动化脚本。零代码门槛：通过自然语言下达指令，无需掌握Python/Java等编程技能；多端适配：支持阿里云服务器、本地设备、无影云电脑等多环境部署；生态扩展：

AtomGit开源社区

所有评论(0)

查看更多评论

所谓伊人，在水一方333

@qq_62890351

已为社区贡献47条内容

【机器学习精通】第17章 | AutoML与神经架构搜索：自动化机器学习

所谓伊人，在水一方333

环境声明

学习目标

1. AutoML概述与流程

1.1 什么是AutoML

1.2 机器学习流水线自动化

1.3 自动化层次

1.4 应用场景

2. 超参数优化

2.1 网格搜索（Grid Search）

2.2 随机搜索（Random Search）

2.3 贝叶斯优化原理

2.4 TPE算法

3. 神经架构搜索NAS

3.1 搜索空间设计

3.2 搜索策略

3.3 性能评估策略

3.4 可微分NAS详解

4. 自动化特征工程

4.1 特征生成

4.2 特征选择

4.3 特征转换

5. AutoML工具对比

5.1 主流工具概览

5.2 Auto-sklearn

5.3 TPOT

5.4 Optuna

5.5 NNI

6. 前沿进展（2024-2025）

6.1 LLM-based NAS

6.2 AutoGPT for ML

6.3 2024-2025年趋势

7. 实战案例：使用Optuna进行超参数优化

7.1 环境准备

7.2 数据加载与预处理

7.3 定义优化目标函数

7.4 执行优化

7.5 训练最终模型并评估

7.6 可视化分析

7.7 多目标优化示例

8. 避坑小贴士

8.1 超参数优化常见陷阱

8.2 NAS实践建议

8.3 AutoML工具选择指南

9. 本章小结

所有评论(0)

温馨提示：您尚未绑定手机号

所谓伊人，在水一方333