自训练AlexNet模型完整应用教程（基于PyTorch）

AlexNet作为深度学习革命的里程碑，是2012年ImageNet图像识别竞赛的冠军模型，它的出现直接开启了深度卷积神经网络（CNN）统治计算机视觉的时代[4]。不同于直接调用预训练模型，自训练AlexNet能让我们更深入理解CNN的核心原理——从卷积、池化的特征提取，到ReLU激活、Dropout正则化的优化逻辑，全程亲手实操，既能夯实深度学习基础，也能灵活适配自定义图像分类场景（如猫狗识别、果蔬分类等）。

本教程基于PyTorch框架（最适合新手的深度学习框架之一），全程手把手实操，从环境搭建、数据集准备，到模型构建、训练调优，再到模型测试与应用，每一步都附详细代码和注释，避开新手常见踩坑点。即使是零基础，也能跟着完成整个自训练流程，最终得到一个能实际用于图像分类的AlexNet模型。

核心亮点：无需复杂理论储备，聚焦实操落地；代码可直接复制运行，关键步骤附原理解析；适配Windows/macOS/Linux三大系统；针对新手优化训练策略，降低过拟合风险，提升模型训练成功率。

一、前期准备：环境搭建与工具储备

自训练AlexNet需先搭建基础运行环境，核心依赖PyTorch框架、图像处理工具和数值计算库，全程用Python实现，步骤简单，新手可直接照搬。

1.1 必备环境清单（新手直接照配）

确保电脑安装以下工具/库，版本建议与下文一致，避免版本兼容问题：

Python：3.8~3.10（过高版本可能导致部分库不兼容，推荐3.9）；
PyTorch：1.11.0~2.0.0（本教程用1.12.1，支持CPU/GPU加速，GPU需配置CUDA）；
核心库：torchvision（处理图像数据）、numpy（数值计算）、PIL（图像读取）、tqdm（训练进度显示）、matplotlib（结果可视化）；
开发工具：PyCharm（推荐，新手友好，可直接运行代码）或VS Code。

1.2 环境搭建步骤（全程命令行操作）

打开电脑命令行（Windows用CMD，macOS/Linux用终端），依次执行以下命令，快速完成环境搭建：

安装Python（已安装可跳过）：官网下载对应版本（https://www.python.org/），勾选“Add Python to PATH”，一路下一步即可；
安装PyTorch（关键步骤）： - CPU版本（无独立显卡，新手首选）： pip install torch==1.12.1+cpu torchvision==0.13.1+cpu torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cpu - GPU版本（有独立显卡，训练速度更快）：需先安装对应版本的CUDA，再执行命令（具体可参考PyTorch官网，根据自己的显卡型号选择）；
安装其他核心库： pip install numpy==1.24.3 pillow==9.5.0 tqdm==4.65.0 matplotlib==3.7.1

验证环境：打开Python终端，输入import torch和import torchvision，无报错即说明环境搭建成功。

二、数据集准备：自定义数据集（以猫狗分类为例）

AlexNet的核心应用场景是图像分类，自训练需准备“带标签的图像数据集”。本教程以经典的“猫狗分类”为例（新手易上手），也可替换为自己的数据集（如果蔬、动物、场景分类等），步骤完全通用。

2.1 数据集获取与结构整理

1. 数据集获取：可下载Kaggle猫狗数据集（免费），链接：https://www.kaggle.com/c/dogs-vs-cats/data，提取训练集（train文件夹）即可，包含5000张猫图片和5000张狗图片；

2. 数据集结构：AlexNet要求数据集按“类别分文件夹”存放，这是PyTorch读取数据的标准格式，整理后结构如下（必按此格式，否则无法正常读取）：

data/
├─ train/          # 训练集（占80%数据）
│  ├─ cat/         # 猫类别，存放所有猫图片
│  │  ├─ cat001.jpg
│  │  ├─ cat002.jpg
│  │  └─ ...
│  └─ dog/         # 狗类别，存放所有狗图片
│     ├─ dog001.jpg
│     ├─ dog002.jpg
│     └─ ...
└─ val/            # 验证集（占20%数据）
   ├─ cat/         # 猫类别，从训练集中随机抽取20%
   └─ dog/         # 狗类别，从训练集中随机抽取20%

3. 数据拆分：手动拆分或用代码拆分（推荐代码拆分，高效且避免重复），代码如下（直接复制运行，修改路径即可）：

import os
import shutil
import random

# 1. 设置路径（修改为你自己的数据集路径）
origin_path = "E:/data/train"  # 原始数据集路径（Kaggle下载的train文件夹）
target_path = "E:/data"        # 拆分后的数据存放路径

# 2. 创建训练集、验证集文件夹
os.makedirs(os.path.join(target_path, "train", "cat"), exist_ok=True)
os.makedirs(os.path.join(target_path, "train", "dog"), exist_ok=True)
os.makedirs(os.path.join(target_path, "val", "cat"), exist_ok=True)
os.makedirs(os.path.join(target_path, "val", "dog"), exist_ok=True)

# 3. 拆分比例（训练集80%，验证集20%）
split_rate = 0.8

# 4. 拆分猫图片
cat_files = [f for f in os.listdir(os.path.join(origin_path)) if "cat" in f]
random.shuffle(cat_files)
train_cat = cat_files[:int(len(cat_files)*split_rate)]
val_cat = cat_files[int(len(cat_files)*split_rate):]

for file in train_cat:
    shutil.move(os.path.join(origin_path, file), os.path.join(target_path, "train", "cat", file))
for file in val_cat:
    shutil.move(os.path.join(origin_path, file), os.path.join(target_path, "val", "cat", file))

# 5. 拆分狗图片
dog_files = [f for f in os.listdir(os.path.join(origin_path)) if "dog" in f]
random.shuffle(dog_files)
train_dog = dog_files[:int(len(dog_files)*split_rate)]
val_dog = dog_files[int(len(dog_files)*split_rate):]

for file in train_dog:
    shutil.move(os.path.join(origin_path, file), os.path.join(target_path, "train", "dog", file))
for file in val_dog:
    shutil.move(os.path.join(origin_path, file), os.path.join(target_path, "val", "dog", file))

print("数据集拆分完成！")

2.2 数据预处理（AlexNet必备步骤）

AlexNet对输入图像有明确要求：输入尺寸为227×227×3（RGB彩色图像），同时需要进行数据增强（提升模型泛化能力，避免过拟合）[1][4]。借助torchvision的Transforms工具，可快速完成预处理，代码如下：

import torchvision.transforms as transforms
from torchvision.datasets import ImageFolder
from torch.utils.data import DataLoader

# 1. 定义预处理策略（训练集增强，验证集不增强）
train_transform = transforms.Compose([
    transforms.Resize((227, 227)),  # 缩放为AlexNet要求的227×227
    transforms.RandomHorizontalFlip(p=0.5),  # 随机水平翻转，增强数据多样性
    transforms.RandomRotation(15),  # 随机旋转15度，提升模型对图像偏移的容忍度
    transforms.ColorJitter(brightness=0.2, contrast=0.2, saturation=0.2),  # 颜色抖动
    transforms.ToTensor(),  # 转换为Tensor（PyTorch训练必备格式）
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])  # 标准化，AlexNet常用参数
])

val_transform = transforms.Compose([
    transforms.Resize((227, 227)),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])

# 2. 读取数据集（按之前整理的路径）
data_dir = "E:/data"  # 修改为你自己的数据集根路径
train_dataset = ImageFolder(root=os.path.join(data_dir, "train"), transform=train_transform)
val_dataset = ImageFolder(root=os.path.join(data_dir, "val"), transform=val_transform)

# 3. 创建数据加载器（批量读取数据，提升训练效率）
batch_size = 32  # 批次大小，CPU建议设16，GPU建议设32/64
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True, num_workers=0)
val_loader = DataLoader(val_dataset, batch_size=batch_size, shuffle=False, num_workers=0)

# 验证数据集读取是否成功
print(f"训练集规模：{len(train_dataset)}张图片，类别：{train_dataset.classes}")  # 应输出8000张，类别['cat','dog']
print(f"验证集规模：{len(val_dataset)}张图片")  # 应输出2000张

关键说明：数据增强仅用于训练集，目的是模拟不同场景下的图像（如翻转、旋转后的猫/狗），让模型学习更全面的特征，避免过拟合[1]；标准化能加快模型收敛，是AlexNet训练的关键预处理步骤。

三、核心步骤：构建AlexNet模型（还原论文经典结构）

AlexNet的经典结构包含8层可训练层（5个卷积层+3个全连接层），外加3个最大池化层和2个局部响应归一化层（LRN）[4]。原论文为适配当时的硬件，采用双GPU并行训练，本教程简化为单GPU/CPU版本，结构完全还原论文，同时加入Dropout正则化抑制过拟合[1]。

3.1 AlexNet模型结构解析（新手必懂）

结合论文细节，AlexNet各层结构及核心作用如下[1][4]：

Conv1（卷积层1）：11×11卷积核，步长4，输出通道96，提取图像浅层边缘、纹理特征；
ReLU1：激活函数，公式f(x)=max(0,x)，解决梯度消失问题，加快训练速度[1]；
LRN1（局部响应归一化）：模拟生物神经元“侧抑制”机制，增强泛化能力[1]；
MaxPool1（最大池化）：3×3池化核，步长2，重叠池化（s<z），降低过拟合[1]；
Conv2~Conv5（卷积层2-5）：逐步缩小卷积核尺寸，增加输出通道，提取深层语义特征；
FC6~FC8（全连接层1-3）：将卷积提取的特征图拉平为一维向量，映射到类别概率（本教程为2类）；
Dropout：仅应用在2个全连接层，以0.5概率丢弃神经元，抑制过拟合[1]。

3.2 用PyTorch构建AlexNet模型（完整代码）

代码完全还原论文结构，加入详细注释，新手可直接复制使用，无需修改核心参数：

import torch
import torch.nn as nn

class AlexNet(nn.Module):
    def __init__(self, num_classes=2):  # num_classes=2（猫狗分类），可修改为自己的类别数
        super(AlexNet, self).__init__()
        # 特征提取部分（卷积+池化+激活+归一化）
        self.features = nn.Sequential(
            # 卷积层1：11×11卷积核，步长4，输出通道96
            nn.Conv2d(3, 96, kernel_size=11, stride=4, padding=0),
            nn.ReLU(inplace=True),  # ReLU激活，inplace=True节省内存
            nn.LocalResponseNorm(size=5, alpha=1e-4, beta=0.75, k=2),  # LRN归一化，论文标准参数[1]
            nn.MaxPool2d(kernel_size=3, stride=2),  # 最大池化，重叠池化（3×3，步长2）[1]
            
            # 卷积层2：5×5卷积核，填充2，输出通道256
            nn.Conv2d(96, 256, kernel_size=5, stride=1, padding=2),
            nn.ReLU(inplace=True),
            nn.LocalResponseNorm(size=5, alpha=1e-4, beta=0.75, k=2),
            nn.MaxPool2d(kernel_size=3, stride=2),
            
            # 卷积层3：3×3卷积核，填充1，输出通道384
            nn.Conv2d(256, 384, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),
            
            # 卷积层4：3×3卷积核，填充1，输出通道384
            nn.Conv2d(384, 384, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),
            
            # 卷积层5：3×3卷积核，填充1，输出通道256
            nn.Conv2d(384, 256, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
        )
        
        # 分类部分（全连接层+Dropout）
        self.classifier = nn.Sequential(
            # 全连接层1：输入为6×6×256（最后一个池化层输出尺寸），输出4096
            nn.Linear(256 * 6 * 6, 4096),
            nn.ReLU(inplace=True),
            nn.Dropout(p=0.5),  # Dropout概率0.5，抑制过拟合[1]
            
            # 全连接层2：输入4096，输出4096
            nn.Linear(4096, 4096),
            nn.ReLU(inplace=True),
            nn.Dropout(p=0.5),
            
            # 全连接层3：输入4096，输出类别数（2类）
            nn.Linear(4096, num_classes),
        )
    
    # 前向传播（模型推理/训练的核心逻辑）
    def forward(self, x):
        x = self.features(x)  # 特征提取
        x = x.view(x.size(0), 256 * 6 * 6)  # 拉平特征图（batch_size, 256*6*6）
        x = self.classifier(x)  # 分类预测
        return x

# 验证模型是否构建成功
model = AlexNet(num_classes=2)
print(model)  # 输出模型结构，确认无报错
# 检查输入输出尺寸（输入227×227×3，输出2类概率）
x = torch.randn(1, 3, 227, 227)  # 模拟1张RGB图像
output = model(x)
print(f"输入尺寸：{x.shape}，输出尺寸：{output.shape}")  # 应输出输出尺寸：torch.Size([1, 2])

关键说明：若需适配多类别分类（如3类、10类），只需修改num_classes参数即可；原论文中的双GPU并行逻辑已简化，单GPU/CPU均可正常运行。

四、模型训练：全流程实操（核心步骤）

模型训练是自训练AlexNet的核心，需设置优化器、损失函数、训练轮次等关键参数，同时加入早停机制（避免过拟合）、学习率调度（加快收敛），新手只需按步骤运行代码，无需手动调整过多参数[3]。

4.1 训练参数配置（新手默认即可）

import torch.optim as optim
from tqdm import tqdm
import matplotlib.pyplot as plt

# 1. 设备选择（优先GPU，无GPU自动用CPU）
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
model = model.to(device)  # 将模型转移到对应设备

# 2. 损失函数（交叉熵损失，适合分类任务）
criterion = nn.CrossEntropyLoss()

# 3. 优化器（SGD+动量，论文标准配置[1]）
optimizer = optim.SGD(model.parameters(), lr=0.001, momentum=0.9, weight_decay=0.0005)

# 4. 学习率调度器（训练后期降低学习率，加快收敛）
lr_scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=10, gamma=0.5)

# 5. 训练参数
epochs = 30  # 训练轮次，新手先设30轮，后续可根据效果调整
best_val_acc = 0.0  # 记录最佳验证准确率（用于早停）
early_stopping_patience = 5  # 早停机制：连续5轮验证准确率不提升则停止训练[3]
no_improve_count = 0  # 记录验证准确率未提升的轮次

# 6. 记录训练过程（用于后续可视化）
train_loss_history = []
val_loss_history = []
train_acc_history = []
val_acc_history = []

4.2 训练核心代码（全程自动运行）

代码包含训练、验证、早停、模型保存等逻辑，直接复制运行，训练过程中会显示实时进度和准确率：

for epoch in range(epochs):
    # ---------------------- 训练阶段 ----------------------
    model.train()  # 切换为训练模式（启用Dropout、BN等）
    train_loss = 0.0
    train_correct = 0
    total_train = 0
    
    # 用tqdm显示训练进度
    train_bar = tqdm(train_loader, desc=f"Epoch {epoch+1}/{epochs} (Train)")
    for images, labels in train_bar:
        # 将数据转移到对应设备（CPU/GPU）
        images, labels = images.to(device), labels.to(device)
        
        # 前向传播：计算模型输出
        outputs = model(images)
        # 计算损失
        loss = criterion(outputs, labels)
        
        # 反向传播+参数更新
        optimizer.zero_grad()  # 清空梯度（避免梯度累积）
        loss.backward()  # 反向传播计算梯度
        optimizer.step()  # 更新模型参数
        
        # 统计训练损失和准确率
        train_loss += loss.item() * images.size(0)
        _, predicted = torch.max(outputs.data, 1)  # 取预测概率最大的类别
        total_train += labels.size(0)
        train_correct += (predicted == labels).sum().item()
        
        # 更新进度条显示
        train_bar.set_postfix({"loss": loss.item(), "acc": train_correct/total_train})
    
    # 计算本轮训练的平均损失和准确率
    train_avg_loss = train_loss / len(train_loader.dataset)
    train_acc = train_correct / total_train
    train_loss_history.append(train_avg_loss)
    train_acc_history.append(train_acc)
    
    # ---------------------- 验证阶段 ----------------------
    model.eval()  # 切换为验证模式（禁用Dropout、BN固定）
    val_loss = 0.0
    val_correct = 0
    total_val = 0
    
    with torch.no_grad():  # 禁用梯度计算，节省内存和时间
        val_bar = tqdm(val_loader, desc=f"Epoch {epoch+1}/{epochs} (Val)")
        for images, labels in val_bar:
            images, labels = images.to(device), labels.to(device)
            outputs = model(images)
            loss = criterion(outputs, labels)
            
            val_loss += loss.item() * images.size(0)
            _, predicted = torch.max(outputs.data, 1)
            total_val += labels.size(0)
            val_correct += (predicted == labels).sum().item()
            
            val_bar.set_postfix({"loss": loss.item(), "acc": val_correct/total_val})
    
    # 计算本轮验证的平均损失和准确率
    val_avg_loss = val_loss / len(val_loader.dataset)
    val_acc = val_correct / total_val
    val_loss_history.append(val_avg_loss)
    val_acc_history.append(val_acc)
    
    # 学习率调度（每10轮降低一次学习率）
    lr_scheduler.step()
    
    # ---------------------- 早停机制 ----------------------
    if val_acc > best_val_acc:
        best_val_acc = val_acc
        no_improve_count = 0
        # 保存最佳模型（避免训练完成后找不到最优模型）
        torch.save(model.state_dict(), "alexnet_best.pth")
        print(f"Epoch {epoch+1}: 验证准确率提升至 {best_val_acc:.4f}，保存最佳模型！")
    else:
        no_improve_count += 1
        print(f"Epoch {epoch+1}: 验证准确率未提升，当前最佳准确率：{best_val_acc:.4f}")
        if no_improve_count >= early_stopping_patience:
            print(f"连续{early_stopping_patience}轮验证准确率未提升，触发早停！")
            break
    
    # 打印本轮训练/验证结果
    print(f"Epoch {epoch+1} | 训练损失：{train_avg_loss:.4f}，训练准确率：{train_acc:.4f}")
    print(f"Epoch {epoch+1} | 验证损失：{val_avg_loss:.4f}，验证准确率：{val_acc:.4f}\n")

print("训练完成！")

4.3 训练关键说明（新手必看）

训练时间：CPU（普通电脑）每轮约5~10分钟，30轮约3~5小时；GPU（独立显卡）每轮约1~2分钟，30轮约30~60分钟[3]；
过拟合判断：若训练准确率持续上升，而验证准确率下降，说明出现过拟合，可增加数据增强、提高Dropout概率或提前早停[3]；
模型保存：训练完成后，最佳模型会保存为“alexnet_best.pth”，后续应用直接加载该模型即可，无需重新训练；
参数调整：若训练准确率过低（如低于70%），可增加训练轮次（改为50轮）、调整学习率（改为0.0005），或增加数据增强手段[3]。

五、训练结果可视化与模型测试

训练完成后，通过可视化训练/验证损失、准确率，可直观判断模型训练效果；同时加载最佳模型，对新图像进行测试，验证模型的实际应用能力。

5.1 训练结果可视化（代码自动生成图表）

# 绘制损失曲线和准确率曲线
plt.figure(figsize=(12, 4))

# 1. 损失曲线
plt.subplot(1, 2, 1)
plt.plot(range(len(train_loss_history)), train_loss_history, label="Train Loss", color="red")
plt.plot(range(len(val_loss_history)), val_loss_history, label="Val Loss", color="blue")
plt.xlabel("Epoch")
plt.ylabel("Loss")
plt.title("Training vs Validation Loss")
plt.legend()

# 2. 准确率曲线
plt.subplot(1, 2, 2)
plt.plot(range(len(train_acc_history)), train_acc_history, label="Train Acc", color="red")
plt.plot(range(len(val_acc_history)), val_acc_history, label="Val Acc", color="blue")
plt.xlabel("Epoch")
plt.ylabel("Accuracy")
plt.title("Training vs Validation Accuracy")
plt.legend()

# 保存图表
plt.savefig("alexnet_training_result.png", dpi=300, bbox_inches="tight")
plt.show()

# 打印最佳训练结果
print(f"最佳验证准确率：{best_val_acc:.4f}")

正常效果：训练损失和验证损失逐步下降，最终趋于平稳；训练准确率和验证准确率逐步上升，差距不大（若差距过大，说明过拟合，需调整参数）。对于猫狗分类任务，AlexNet的验证准确率通常能达到80%以上[3]。

5.2 模型测试（用新图像验证）

加载保存的最佳模型，对任意一张猫/狗图片进行预测，验证模型的实际分类能力，代码如下：

from PIL import Image

# 1. 加载最佳模型
model = AlexNet(num_classes=2)
model.load_state_dict(torch.load("alexnet_best.pth"))  # 加载保存的模型参数
model.to(device)
model.eval()  # 切换为验证模式

# 2. 定义图像预处理（与验证集一致）
test_transform = transforms.Compose([
    transforms.Resize((227, 227)),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])

# 3. 测试单张图片（修改为你自己的测试图片路径）
test_image_path = "E:/test_dog.jpg"  # 测试图片路径（猫/狗均可）
image = Image.open(test_image_path).convert("RGB")  # 读取图片并转换为RGB
image_tensor = test_transform(image).unsqueeze(0)  # 增加batch维度（模型要求输入为4维）
image_tensor = image_tensor.to(device)

# 4. 模型预测
with torch.no_grad():
    output = model(image_tensor)
    _, predicted = torch.max(output.data, 1)  # 取预测类别

# 5. 输出预测结果
classes = ["cat", "dog"]  # 与数据集类别顺序一致
predicted_class = classes[predicted.item()]
print(f"测试图片预测结果：{predicted_class}")

# 可选：显示测试图片和预测结果
plt.imshow(image)
plt.title(f"Predicted: {predicted_class}")
plt.axis("off")
plt.show()

测试说明：若预测结果与图片实际类别一致，说明模型训练成功；若预测错误，可检查图片是否清晰、是否属于数据集涵盖的类别，或调整模型参数重新训练。

六、常见问题排查（新手避坑指南）

自训练过程中，新手容易遇到各种报错，以下是最常见的问题及解决方案，快速帮你解决困扰：

6.1 环境类问题

报错“ImportError: No module named 'torch'”：未安装PyTorch，重新执行环境搭建步骤中的PyTorch安装命令；
报错“CUDA out of memory”：GPU显存不足，降低batch_size（改为16或8），或切换为CPU训练；
报错“PIL.UnidentifiedImageError”：图片损坏或格式不支持，删除损坏图片，确保所有图片为JPG/PNG格式。

6.2 训练类问题

训练损失不下降、准确率一直很低（低于50%）：检查数据集路径是否正确、类别文件夹是否命名正确；检查模型输入尺寸是否为227×227；
过拟合（训练准确率高，验证准确率低）：增加数据增强手段、提高Dropout概率、提前早停，或增加数据集规模[3]；
训练过程中报错“RuntimeError: expected scalar type Float but found Double”：确保图像已通过ToTensor()转换为Float类型，无需额外转换。

6.3 测试类问题

加载模型报错“KeyError: 'module.conv1.weight'”：模型保存和加载时的类别数不一致，确保加载模型时的num_classes与训练时一致；
预测结果一直为同一类别：模型未训练充分，增加训练轮次；或数据集类别分布不均衡，调整数据集比例。

七、总结与扩展：自训练AlexNet的应用场景与进阶方向

本教程完成了自训练AlexNet模型的全流程实操，从环境搭建到模型测试，全程贴合新手需求，通过猫狗分类案例，让大家掌握了AlexNet的核心原理和实操技巧。AlexNet作为CNN的经典模型，不仅是深度学习入门的必学内容，其核心设计思想（卷积特征提取、ReLU激活、Dropout正则化等）也为后续学习ResNet、VGG等更复杂模型奠定了基础[4]。

1. 应用场景扩展

自训练的AlexNet模型可灵活适配各类图像分类场景，只需修改数据集和类别数即可：

果蔬分类：数据集替换为苹果、香蕉、橙子等果蔬图片，num_classes设为对应类别数；
场景分类：数据集替换为室内、室外、城市、乡村等场景图片；
工业缺陷检测：数据集替换为产品缺陷、正常产品图片，实现缺陷自动识别。

2. 进阶方向（提升模型性能）

若想进一步提升模型准确率，可尝试以下优化方向[3]：

优化数据增强：增加随机裁剪、随机透视变换等手段，提升模型泛化能力；
调整优化器：将SGD改为Adam优化器，收敛速度更快，适合小数据集；
迁移学习：基于预训练AlexNet模型进行微调，减少训练数据量，提升准确率；
特征图可视化：查看模型各层提取的特征，分析模型学习效果，针对性调整参数[3]。

自训练AlexNet的核心价值，不仅是得到一个可用的模型，更是通过亲手实操，理解深度学习的核心逻辑。跟着本教程一步步操作，相信你能快速入门CNN，为后续学习更复杂的深度学习模型打下坚实基础。如果在实操过程中遇到问题，可对照常见问题排查，或留言交流，祝你训练顺利！

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

基于模型预测算法的混合储能微电网双层能量管理系统研究(Matlab代码实现）

可再生能源（RES）和储能系统（ESS）在微电网中的集成为最终用户和系统运营商提供了潜在的利益。然而，对于微电网的经济运行，需要对可再生能源的间歇性问题和ESS的高成本进行审查。本文提出了一种由电池和超级电容器组成的混合ESS微电网的两层预测能量管理系统（EMS）。考虑到混合ESS在充电深度（DOD）和寿命方面的退化成本，电池和超级电容器的长期成本被建模并转化为与实时操作相关的短期成本。

AtomGit开源社区

发电机故障暂态仿真及电压电流变化特性研究（Simulink仿真实现）

同步发电机作为电力系统的核心发电设备，其运行稳定性直接决定电网供电可靠性。电网运行过程中各类短路、接地故障会引发发电机电磁暂态过程，造成机端电压、定子电流等电气参数剧烈波动，极易导致机组失稳、设备损毁甚至大面积停电事故。为系统探究发电机故障状态下的电气量演化规律，本文搭建标准化发电机电磁暂态仿真模型，模拟单相接地短路、两相短路、三相短路三类典型故障工况，通过仿真观测不同故障发生、发展及恢复全过程中

AtomGit开源社区

三相逆变器模型仿真LCL逆变器(软开关)研究（Simulink仿真实现）

新能源并网、储能变流与电机驱动场景对三相逆变器的转换效率、电能质量与电磁兼容性能提出更高要求。传统两电平硬开关三相逆变器搭配 LCL 滤波器方案存在高频开关损耗大、器件电压电流应力剧烈、高频电磁干扰突出等短板，限制开关频率提升与整机功率密度优化。软开关技术依托谐振辅助支路，令主功率器件在零电压或零电流状态完成开通与关断动作，可大幅削减开关损耗，同时抑制电压、电流变化速率，与 LCL 高阶滤波结构结