项目介绍 MATLAB实现基于DCT-RF离散余弦变换（DCT）结合随机森林（RF）进行故障诊断分类预测（含模型描述及部分示例代码）专栏近期有大量优惠还请多多点一下关注加油谢谢你的鼓励是我前行

xiaoxingkongyuxi

235人浏览 · 2026-06-04 09:48:05

xiaoxingkongyuxi · 2026-06-04 09:48:05 发布

MATLAB实现基于DCT-RF离散余弦变换（DCT）结合随机森林（RF）进行故障诊断分类预测的详细项目实例

请注意此篇内容只是一个项目介绍更多详细内容可直接联系博主本人

或者访问对应标题的完整博客或者文档下载页面（含完整的程序，GUI设计和代码详解）

故障诊断分类预测技术是现代智能制造、状态监测与设备健康管理中的核心支撑能力之一。随着工业设备向高速化、连续化、复杂化方向演进，机械振动、温度、电流、压力、声学信号等多源数据的采集频率不断提升，设备运行过程中隐含的异常特征也变得更加细微、非平稳且具有强噪声背景。传统依赖人工经验的诊断方式，往往只能在故障较为明显时给出判断，面对早期磨损、轻微裂纹、轴承局部剥落、齿轮啮合异常、转子偏心等问题时，容易出现识别滞后、误判率高、维护成本上升等问题。为了提升诊断准确率与响应速度，数据驱动的智能诊断方法逐渐成为研究和工程应用主流。

在信号处理层面，原始故障信号通常同时包含冲击成分、调制成分、周期成分与随机干扰成分，仅依靠时域统计量往往难以稳定刻画故障差异。离散余弦变换 DCT 具备良好的能量压缩能力与频谱集中能力，能够将信号中的主要变化趋势映射到少量系数中，同时削弱高频噪声的影响。相较于部分传统频域方法，DCT 在边界效应控制、运算效率和特征压缩方面具有较高实用价值。将故障信号按固定长度分段后实施 DCT，可将每个样本转化为反映能量分布、局部振荡与结构变化的系数序列，从而为后续分类器提供更具判别力的输入特征。

在分类建模层面，随机森林 RF 属于集成学习方法，由多棵决策树构成，依靠自助采样与随机子特征选择机制构建多样化子模型，再通过投票或平均策略形成最终输出。其优势在于对非线性关系具有较强拟合能力，对噪声和异常点较为稳健，不依赖严格的特征尺度约束，且可输出特征重要性，用于分析哪些 DCT 系数在故障区分中贡献更大。对于故障诊断这类典型的多分类任务，RF 能够较好处理类别边界模糊、样本分布不均衡、特征相关性较强等问题，适合在 MATLAB 环境中快速实现并部署验证。

将 DCT 与 RF 结合，能够形成“信号压缩表示 + 强鲁棒分类”的完整链路。DCT 负责把复杂的原始波形映射成结构清晰、冗余较少的特征空间，RF 负责在该空间中构建稳定的决策边界。该组合的工程意义在于：一方面可以降低高维原始数据直接送入分类器带来的计算负担；另一方面能够提升模型对现场噪声、工况波动以及传感器漂移的适应性。尤其在电机、轴承、齿轮箱、泵站、风机等典型设备场景中，故障演化过程通常具有阶段性，早期信号变化微弱但局部模式变化明显，DCT 对这种细微变化的保留能力与 RF 的非线性区分能力形成互补，使得整个诊断流程兼顾准确率、实时性和可解释性。

MATLAB 作为工程算法实现平台，在数据导入、向量化计算、统计学习、结果可视化、模型验证和 GUI 开发方面具有成熟生态。结合 MATLAB R2025b 的语法和函数兼容性，能够构建从数据预处理、DCT 特征提取、RF 训练、交叉验证、混淆矩阵评估到在线预测展示的一体化项目实例。此类项目不仅适合科研验证，也适合课程设计、工程原型开发以及设备运维中的快速试验。基于 DCT-RF 的故障诊断分类预测项目，正是面向真实工业需求的一种高可落地性方案，能够在较低开发成本下实现对多类故障状态的稳定识别，并为后续扩展到更复杂的深度学习或多模态融合方案奠定基础。

项目目标与意义

目标一：完成故障信号的稳定特征表达

项目首要目标是将原始故障信号转化为适合分类器处理的稳定特征。设备采集到的振动、声学或电流信号通常长度较大、波动复杂、噪声干扰明显，若直接输入模型，容易造成维度过高、训练不稳定、泛化能力下降等问题。DCT 的引入能够把时序波形压缩到少量具有代表性的系数上，保留主要能量分布与频率结构，同时弱化无规律扰动。这样一来，特征空间更加紧凑，分类边界更容易学习，且对不同采样工况具有更好的适应性。对工程应用而言，这一目标的意义在于让复杂信号具备统一、清晰、可比较的表达形式，从而为后续诊断提供可靠输入基础。

目标二：实现多类别故障的高精度识别

故障诊断并不只关心“正常”与“异常”两类，更多场景需要区分轴承内圈故障、外圈故障、滚动体故障、齿轮裂纹、对中不良、松动、偏心等多种状态。随机森林通过多棵树的集成方式，在处理多分类任务时表现出较强稳定性，可以有效降低单棵树过拟合带来的风险。该项目的目标之一是构建一个能够对多类故障状态进行自动识别的分类器，并通过准确率、召回率、F1 值、混淆矩阵等指标评估性能。其意义不仅在于提升识别准确度，更在于帮助运维人员从海量数据中快速筛出关键异常，缩短排查时间，减少非计划停机。

目标三：提高模型鲁棒性与工程可部署性

工业现场数据环境远比实验室复杂，存在工况变化、采样误差、传感器偏移、背景噪声增强等现实问题。随机森林对异常值和噪声具有较高容忍度，配合 DCT 的压缩特征表达，整体方案更容易在复杂环境中保持性能稳定。该目标的意义在于让模型不只在理想数据集上表现良好，还能在真实应用中具备可迁移、可维护和可扩展能力。对于现场系统，鲁棒性直接决定了模型是否能够长期运行而不过度依赖人工调参，也决定了诊断结果是否具备工程信任度。

目标四：形成可复用的 MATLAB 项目范式

该项目不仅关注模型结果，也关注完整实现流程，包括数据读取、特征生成、训练验证、结果可视化、性能评估与分类预测。通过 MATLAB R2025b 可兼容的实现方式，可以形成一套结构清晰、可复用、可扩展的工程模板。其意义在于降低后续同类项目的开发门槛，使故障诊断系统能够快速迁移到不同设备、不同采样方式和不同故障类型中。同时，这种范式也便于与 GUI、批处理脚本或外部系统集成，支撑更完整的智能运维平台建设。

项目挑战及解决方案

挑战一：原始信号噪声强、非平稳性高

故障信号在实际采集过程中通常会混入大量随机噪声与工况扰动，且随着转速、负载、温度的变化，信号统计特性并不固定，导致直接用时域均值、方差、峰值等简单指标时容易丢失关键故障信息。特别是早期故障阶段，异常冲击可能仅占极少部分样本，常常被背景噪声掩盖。针对这一问题，采用 DCT 提取特征能够把主要能量集中到前几个或前几十个系数中，使故障信息更集中、更可分。再通过对 DCT 系数进行统一长度截取、归一化和标准化处理，进一步减弱样本间幅值差异，使模型关注模式本身而不是幅值尺度。这样的处理策略能显著缓解非平稳信号带来的训练困难，提高后续分类的可识别性。

挑战二：特征维度与模型泛化之间存在矛盾

故障诊断领域常面临一种典型矛盾：特征保留越多，理论上信息越丰富，但模型训练越容易陷入高维冗余、计算量上升以及过拟合；特征保留越少，虽然训练更快，却可能损失关键判别信息。DCT 的优势在于通过能量压缩机制，将大部分无效波动过滤掉，只保留具有代表性的系数。然而，截断位置若选择不合理，也可能导致信息损失。对此可采用经验比例、累计能量阈值或交叉验证方式确定保留系数数目，并利用随机森林自身的特征重要性评估机制观察系数贡献度，反向优化特征维度配置。这样既能控制维数，又能维持泛化性能，在训练效率与分类性能之间取得更优平衡。

挑战三：模型在真实工业场景中的稳定性与可解释性要求高

工业运维更关心“为什么判成故障”“哪些信号位置起作用”“是否会误报漏报”，因此不仅要求分类准确，还要求结果稳定、可解释。随机森林本身具有较强的可解释性，可通过特征重要性分析展示各 DCT 系数对分类的影响程度；若配合混淆矩阵、类别召回率和样本预测概率，可进一步定位易混类别和脆弱样本。解决这一挑战时，可在 MATLAB 中增加训练集、验证集和测试集划分，并通过多次重复实验观察模型波动情况。同时，结合袋外误差 OOB 估计可进一步获得较稳健的泛化性能评估。通过这些方法，不仅能提升模型性能，还能使系统结果更便于工程人员理解与接受。

项目模型架构

1. 原始数据采集与样本组织层

模型架构最底层是数据采集与样本组织。故障诊断项目通常从传感器采集连续时间序列数据，例如振动加速度、电机电流、声发射信号等。每条原始信号可按固定窗口切分成若干样本片段，保证每个样本长度一致，便于后续特征提取和分类建模。该层的关键在于统一数据格式、统一采样率、统一样本标签，并尽量保持不同类别样本数量合理，以减少类别不平衡对模型训练的影响。若样本片段过短，可能无法包含完整的故障冲击模式；若过长，则会增加计算量并引入不必要的冗余。因此，样本组织层实际决定了后续算法能够提取到怎样的信息结构，是整个项目的基础入口。

2. DCT 特征提取层

DCT 特征提取层负责将原始信号转换为频谱集中、冗余较少的系数表示。离散余弦变换的核心思想是将离散信号分解为一组余弦基的线性组合，因其具有良好的能量压缩特性，往往少量低频系数即可表达信号主要趋势。对于故障诊断而言，DCT 特别适合保留冲击变化后的整体谱形结构，同时抑制孤立尖峰和高频随机噪声。实现时，一般对每个样本片段做一维 DCT，随后选取前若干个系数组成特征向量，或结合累计能量阈值进行自适应截断。该层输出的是统一长度的数值特征矩阵，为随机森林训练提供输入。其本质是把时域问题转化为更容易分类的特征空间问题。

3. 特征筛选与归一化层

在 DCT 特征基础上，还需要进行特征筛选、尺度统一和训练集一致化处理。虽然随机森林对特征尺度不敏感，但当不同样本之间幅值差异过大时，仍可能影响树分裂阈值的稳定性。通过 zscore 归一化或 min-max 归一化，可减少不同工况带来的量纲差异。若 DCT 系数数量较多，也可通过重要性预筛、方差筛选或基于累计能量的截断方式减少无效维度。该层的作用不是改变算法本体，而是让输入更适合分类器学习。对于 MATLAB 实现而言，该层通常承担数据预处理职责，包括训练集统计量保存、测试集一致变换，以及防止数据泄漏等问题。此层设计越规范，最终模型越稳定。

4. 随机森林分类层

随机森林分类层是整个架构的核心判别模块。它通过自助采样构建多个训练子集，每棵树在随机选择的一部分特征上进行节点分裂，从而形成多个具有差异性的决策树。最终分类结果由多数投票机制决定。由于单棵树容易过拟合，而多棵树的集成可显著降低方差，因此随机森林在故障分类场景中往往具有较好的鲁棒性与泛化能力。该层还能输出特征重要性指标，帮助识别哪些 DCT 系数在区分不同故障类型中最有价值。随机森林还支持 OOB 误差估计，可在不额外划分验证集的情况下提供模型泛化评估。由于训练和预测速度适中，工程部署也较为方便。

5. 结果评估与可视化层

结果评估层负责衡量模型是否达到诊断要求。常用指标包括总体准确率、各类别精确率、召回率、F1 值、混淆矩阵、OOB 误差和特征重要性排序。混淆矩阵能够直观看出哪些类别最容易混淆，哪些故障特征区分度不足；特征重要性曲线能够说明模型主要依赖哪些 DCT 系数进行判断。对于 MATLAB 环境，可利用分类结果绘制混淆图、特征重要性条形图和概率预测图，为工程人员提供直观反馈。该层的意义不仅在于显示结果，更在于帮助发现模型短板、指导重新设计 DCT 保留系数数目、调整树数量和特征子集大小，从而形成闭环优化流程。

项目模型描述及代码示例

1. 构造模拟故障信号数据并保存
clear; % 清空工作区变量，避免历史数据干扰本次实验
clc; % 清空命令行窗口，保证输出显示整洁
close all; % 关闭所有图窗，释放图形资源
rng(42,'twister'); % 固定随机种子，保证结果可复现
numSamples = 600; % 设置样本总数，便于后续分类实验
signalLen = 256; % 设置每段信号长度，统一输入维度
numClasses = 4; % 设置故障类别数，分别代表不同状态
X = zeros(numSamples, signalLen); % 预分配信号矩阵，提高运行效率
Y = categorical(strings(numSamples,1)); % 预分配类别标签，使用分类变量保存标签
for i = 1:numSamples % 遍历每个样本，逐条生成模拟信号
    cls = mod(i-1, numClasses) + 1; % 按顺序分配类别，保证各类样本数量均衡
    t = (0:signalLen-1)/signalLen; % 生成归一化时间轴，便于构造不同波形
    base = sin(2*pi*(3+cls)*t) + 0.4*sin(2*pi*(8+2*cls)*t); % 构造含类别差异的基础波形
    shock = zeros(1,signalLen); % 初始化冲击项，模拟故障脉冲
    pos = randi([20, signalLen-20], 1, 3); % 随机选择三个冲击位置，模拟局部异常
    shock(pos) = 0.8 + 0.2*cls; % 根据类别设置冲击幅值，增强类别可分性
    noise = 0.25*randn(1,signalLen); % 添加高斯噪声，模拟现场采集扰动
    trend = 0.15*cls*sin(2*pi*0.5*t); % 增加缓慢变化趋势，模拟工况漂移
    X(i,:) = base + shock + noise + trend; % 合成最终样本信号
    Y(i) = categorical("Fault" + string(cls)); % 为样本赋予对应故障标签
end % 完成样本生成循环
save('DCT_RF_fault_data.mat','X','Y'); % 保存数据文件，便于后续训练与复现
2. 对单条信号执行 DCT 并提取特征
load('DCT_RF_fault_data.mat','X','Y'); % 载入已保存的数据集，准备特征提取
sampleIdx = 8; % 选择一个样本用于展示 DCT 处理过程
x = X(sampleIdx,:); % 取出单条原始信号
c = dct(x); % 对该信号进行离散余弦变换，获得频域压缩表示
keepK = 32; % 设置保留的 DCT 系数个数，控制特征维度
feat = c(1:keepK); % 取前若干低频系数作为特征向量
feat = feat(:)'; % 转为行向量格式，便于拼接成特征矩阵
disp(feat(1:8)); % 显示前8个系数，观察特征分布情况
3. 批量构建 DCT 特征矩阵
load('DCT_RF_fault_data.mat','X','Y'); % 重新读取原始信号与标签
[numSamples, signalLen] = size(X); % 获取样本数与每段信号长度
keepK = 32; % 设置保留系数数量，确保所有样本特征长度一致
F = zeros(numSamples, keepK); % 预分配特征矩阵，减少动态扩容开销
for i = 1:numSamples % 遍历每个样本，逐个提取 DCT 特征
    ci = dct(X(i,:)); % 对第 i 条信号执行 DCT
    F(i,:) = ci(1:keepK); % 保留前 keepK 个系数作为该样本的特征
end % 完成全部样本的特征构造
F = zscore(F); % 对特征进行标准化，减小数值尺度差异
4. 划分训练集与测试集并训练随机森林
load('DCT_RF_fault_data.mat','Y'); % 载入类别标签，配合特征矩阵使用
load('DCT_RF_fault_data.mat','X'); % 载入原始信号，用于重新提取特征
[numSamples, ~] = size(X); % 获取样本总数
keepK = 32; % 保留的 DCT 系数维数，与前面保持一致
F = zeros(numSamples, keepK); % 创建特征矩阵
for i = 1:numSamples % 遍历样本
    ci = dct(X(i,:)); % 计算该样本的 DCT 系数
    F(i,:) = ci(1:keepK); % 截取低频特征
end % 结束特征提取
cv = cvpartition(Y, 'HoldOut', 0.25); % 按类别分层划分训练集和测试集，测试占25%
idxTrain = training(cv); % 获取训练样本索引
idxTest = test(cv); % 获取测试样本索引
XTrain = F(idxTrain,:); % 提取训练特征
YTrain = Y(idxTrain); % 提取训练标签
XTest = F(idxTest,:); % 提取测试特征
YTest = Y(idxTest); % 提取测试标签
XTrain = zscore(XTrain); % 对训练特征做标准化
mu = mean(XTrain,1); % 保存训练集均值，供测试集一致变换
sigma = std(XTrain,0,1); % 保存训练集标准差，供测试集一致变换
sigma(sigma==0) = 1; % 避免除零错误，保证数值稳定
XTrainN = (XTrain - mu) ./ sigma; % 训练集归一化后的特征
XTestN = (XTest - mu) ./ sigma; % 测试集使用训练集统计量归一化
t = templateTree('NumVariablesToSample', sqrt(size(XTrainN,2))); % 设置随机森林基学习器模板
rfModel = fitcensemble(XTrainN, YTrain, 'Method', 'Bag', 'NumLearningCycles', 200, 'Learners', t); % 训练随机森林分类器
5. 测试集预测与混淆矩阵评估
YPred = predict(rfModel, XTestN); % 对测试集进行类别预测
acc = mean(YPred == YTest); % 计算总体准确率
disp(acc); % 显示准确率结果
figure; % 新建图窗用于绘制混淆矩阵
cm = confusionchart(YTest, YPred); % 绘制分类混淆矩阵
cm.Title = 'DCT-RF Fault Classification Confusion Matrix'; % 设置混淆矩阵标题
cm.RowSummary = 'row-normalized'; % 显示按行归一化统计
cm.ColumnSummary = 'column-normalized'; % 显示按列归一化统计
colormap(gcf, turbo); % 使用 turbo 色图增强可读性，符合 R2025b 兼容方式
6. 查看特征重要性并输出预测结果
imp = oobPermutedPredictorImportance(rfModel); % 计算随机森林的置换重要性，评估特征贡献
figure; % 新建图窗展示特征重要性
bar(imp); % 绘制重要性柱状图
xlabel('DCT Feature Index'); % 设置横轴标签，表示特征编号
ylabel('Importance Score'); % 设置纵轴标签，表示重要性得分
title('DCT Feature Importance in RF Model'); % 设置图表标题
grid on; % 显示网格，方便观察特征差异
[~, bestIdx] = max(imp); % 找到最重要的 DCT 特征索引
fprintf('Most important feature index: %d\n', bestIdx); % 输出最关键特征编号，便于分析