Transformer-BiLSTM、Transformer、CNN-BiLSTM、BiLSTM、CNN五模型时序预测研究（Matlab代码实现）

老杰爱编程

63人浏览 · 2026-03-23 11:41:06

老杰爱编程 · 2026-03-23 11:41:06 发布

💥💥💞💞欢迎来到本博客❤️❤️💥💥

🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。

⛳️座右铭：行百里者，半于九十。

📋📋📋本文内容如下：🎁🎁🎁

⛳️赠与读者

👨‍💻做科研，涉及到一个深在的思想系统，需要科研者逻辑缜密，踏实认真，但是不能只是努力，很多时候借力比努力更重要，然后还要有仰望星空的创新点和启发点。建议读者按目录次序逐一浏览，免得骤然跌入幽暗的迷宫找不到来时的路，它不足为你揭示全部问题的答案，但若能解答你胸中升起的一朵朵疑云，也未尝不会酿成晚霞斑斓的别一番景致，万一它给你带来了一场精神世界的苦雨，那就借机洗刷一下原来存放在那儿的“躺平”上的尘埃吧。

或许，雨过云收，神驰的天地更清朗.......🔎🔎🔎

💥第一部分——内容介绍

Transformer-BiLSTM、Transformer、CNN-BiLSTM、BiLSTM、CNN五模型时序预测研究

摘要

时序预测是数据挖掘领域的核心任务之一，旨在通过分析历史时序数据的规律，实现对未来数据趋势的精准推断，广泛应用于气象预报、电力负荷预测、金融走势分析、环境监测等多个领域。随着深度学习技术的快速发展，基于神经网络的时序预测模型不断迭代，其中卷积神经网络（CNN）、双向长短期记忆网络（BiLSTM）、Transformer及其混合模型（CNN-BiLSTM、Transformer-BiLSTM）凭借各自的结构优势，成为当前时序预测研究的热点。本文以五种主流时序预测模型为研究对象，系统阐述各模型的核心原理、结构特点，设计统一的实验方案，通过多数据集、多评价指标的对比分析，探究各模型在不同类型时序数据预测任务中的性能差异、适用场景及存在的不足，为实际时序预测任务中的模型选择和优化提供理论支撑与实践参考。研究结果表明，混合模型（Transformer-BiLSTM、CNN-BiLSTM）整体预测性能优于单一模型（Transformer、BiLSTM、CNN），其中Transformer-BiLSTM在长时序、多变量、非线性特征显著的数据预测中表现最优，CNN则在短时序、局部特征突出的数据预测中具有效率优势，BiLSTM在中等长度时序数据的趋势捕捉上表现稳定，Transformer在长距离依赖建模中展现出独特优势。

关键词：时序预测；深度学习；CNN；BiLSTM；Transformer；混合模型

1 引言

1.1 研究背景

在大数据时代，时序数据作为一种蕴含时间维度信息的数据类型，广泛存在于自然科学、工程技术、社会经济等各个领域，如气象数据中的气温、降水序列，电力系统中的负荷变化序列，金融市场中的股价、汇率序列，以及环境监测中的污染物浓度序列等。时序预测的核心价值在于通过对历史时序数据的特征挖掘和规律分析，实现对未来数据的精准预测，为决策制定提供科学依据——例如，精准的电力负荷预测可优化电力调度、降低能源损耗；可靠的气象预测可助力防灾减灾、保障农业生产；准确的金融走势预测可辅助投资决策、降低市场风险。

传统时序预测方法主要基于统计模型，如自回归移动平均模型（ARMA）、季节性自回归积分移动平均模型（SARIMA）等，这类方法依赖于数据的线性假设和平稳性要求，在处理非线性、非平稳、长时序及多变量时序数据时，预测精度和适应性受到严重限制。随着深度学习技术的兴起，神经网络凭借强大的非线性拟合能力和特征学习能力，逐步取代传统统计方法，成为时序预测的主流技术。

卷积神经网络（CNN）凭借局部特征提取能力，能够有效捕捉时序数据中的局部关联特征；双向长短期记忆网络（BiLSTM）作为循环神经网络（RNN）的改进型，解决了传统RNN梯度消失、梯度爆炸的问题，可同时捕捉时序数据的正向和反向依赖关系；Transformer模型基于自注意力机制，打破了RNN类模型的序列依赖限制，能够高效捕捉长时序数据中的全局依赖关系。为了进一步提升预测性能，研究者将不同模型的优势结合，提出了CNN-BiLSTM、Transformer-BiLSTM等混合模型，通过互补融合实现特征提取与依赖建模的协同优化。

目前，关于单一模型或两种模型的对比研究已有较多成果，但针对CNN、BiLSTM、Transformer、CNN-BiLSTM、Transformer-BiLSTM五种主流模型的系统性对比研究仍有待完善，尤其是在不同数据场景下的性能差异、适用范围及模型选择依据，尚未形成明确的结论。因此，开展五种模型的时序预测对比研究，具有重要的理论意义和实践价值。

1.2 研究意义

本研究的理论意义在于，系统梳理五种主流时序预测模型的核心原理和结构特点，通过统一的实验设计，量化分析各模型的性能差异，揭示不同模型在时序预测中的优势与不足，丰富深度学习在时序预测领域的研究成果，为后续模型的改进和优化提供理论参考。

实践意义在于，明确各模型在不同类型时序数据（短时序/长时序、单变量/多变量、线性/非线性）中的适用场景，为实际应用中时序预测模型的选择提供清晰的依据，帮助相关领域研究者和从业者提升预测精度和效率，降低模型选择成本，推动时序预测技术在各行业的落地应用。

1.3 国内外研究现状

国外关于时序预测的研究起步较早，随着深度学习技术的发展，相关研究不断深入。在单一模型方面，CNN最初应用于图像识别领域，后来被研究者引入时序预测，通过一维卷积提取时序数据的局部特征，在短时序预测任务中展现出良好的性能；BiLSTM作为LSTM的双向扩展，能够同时利用时序数据的过去和未来信息，在语音识别、自然语言处理及时序预测中得到广泛应用，尤其在中等长度时序数据的趋势捕捉上表现突出；Transformer模型由Vaswani等人于2017年提出，基于自注意力机制实现了长距离依赖的高效建模，打破了RNN类模型的序列处理限制，迅速成为长时序预测领域的研究热点，衍生出Informer、Autoformer、PatchTST等一系列改进模型，在电力负荷、气象等长时序预测任务中取得了优异的成绩。

在混合模型方面，国外研究者率先提出了CNN-BiLSTM混合模型，利用CNN提取局部特征，BiLSTM捕捉时序依赖，实现了特征提取与时序建模的协同，在多变量时序预测中得到广泛应用；Transformer-BiLSTM混合模型则结合了Transformer的长距离依赖建模能力和BiLSTM的局部时序捕捉能力，在复杂非线性时序预测任务中表现出更强的适应性，如在可再生能源预测、环境监测等领域的应用中，预测精度显著优于单一模型。此外，国外研究注重模型的泛化能力和效率优化，通过超参数调优、数据增强等方法，进一步提升模型的预测性能。

国内关于时序预测的研究近年来发展迅速，研究者们在借鉴国外先进技术的基础上，结合国内实际应用场景，开展了大量针对性研究。在单一模型应用方面，国内研究者将CNN、BiLSTM、Transformer应用于电力负荷、股价、气象等领域，取得了较好的预测效果；在混合模型研究方面，CNN-BiLSTM、Transformer-BiLSTM等模型被广泛应用于多变量、长时序预测任务，如发酵过程多时间步预测、空气质量预测等，通过模型改进和优化，进一步提升了预测精度。

然而，目前国内外的研究仍存在一些不足：一是多数研究仅针对两种或三种模型进行对比，缺乏对五种主流模型的系统性对比分析；二是部分研究的实验场景较为单一，仅基于单一数据集进行验证，难以反映模型在不同场景下的性能差异；三是对模型性能差异的内在原因分析不够深入，未能明确各模型结构特点与预测性能之间的关联。本研究针对上述不足，开展五种模型的系统性对比研究，填补相关研究空白。

1.4 研究内容与技术路线

本研究的核心内容是围绕CNN、BiLSTM、Transformer、CNN-BiLSTM、Transformer-BiLSTM五种模型，开展时序预测性能对比研究，具体内容如下：

（1）梳理五种模型的核心原理、结构特点，分析各模型的工作机制，明确其在时序预测中的优势与潜在不足；

（2）设计统一的实验方案，选取不同类型的时序数据集（短时序/长时序、单变量/多变量），确定统一的评价指标和实验参数，确保实验的公平性和可比性；

（3）基于实验方案，分别训练五种模型，获取各模型在不同数据集上的预测结果，通过评价指标量化分析各模型的预测性能；

（4）对比分析各模型的性能差异，探究模型结构特点、数据类型与预测性能之间的关联，明确各模型的适用场景；

（5）总结研究结论，指出各模型存在的不足，并提出未来的改进方向。

本研究的技术路线为：首先梳理相关理论和研究现状，明确研究思路和研究内容；其次，阐述五种模型的核心原理和结构特点；然后，设计实验方案，开展对比实验，获取实验数据；接着，分析实验结果，对比各模型性能；最后，总结研究结论，提出改进建议。

1.5 研究创新点

本研究的创新点主要体现在以下三个方面：

（1）系统性对比五种主流时序预测模型，涵盖单一模型和混合模型，弥补了现有研究中模型对比不全面的不足，为模型选择提供更全面的参考；

（2）选取多类型数据集（短时序/长时序、单变量/多变量）进行实验验证，能够更全面地反映各模型在不同场景下的性能差异，增强研究结论的通用性和可靠性；

（3）深入分析模型结构特点与预测性能之间的关联，不仅量化性能差异，还揭示差异产生的内在原因，为后续模型的改进和优化提供更具针对性的理论支撑。

2 相关理论基础

2.1 时序预测基础

时序数据是指按时间顺序排列的一系列数据点，其核心特征是数据点之间存在时间依赖性，即当前数据点的取值受到历史数据点的影响。时序预测的本质是通过对历史时序数据的特征提取和规律挖掘，构建预测模型，进而推断未来一段时间内的数据取值。

时序数据具有多样性、非线性、非平稳性等特点：多样性体现在数据的来源广泛，包括单变量时序数据（如单一地区的气温序列）和多变量时序数据（如同时包含气温、湿度、风速的气象序列），短时序数据（如小时级、天级数据）和长时序数据（如月度、年度数据）；非线性体现在数据的变化趋势不遵循线性规律，存在复杂的波动和突变；非平稳性体现在数据的统计特性（如均值、方差）随时间变化而变化，难以通过传统统计方法建模。

时序预测的性能评价通常采用多个指标，结合预测值与真实值的偏差程度，全面衡量模型的预测精度和稳定性，常用的评价指标包括平均绝对误差（MAE）、均方误差（MSE）、均方根误差（RMSE）、决定系数（R²）等。其中，MAE、MSE、RMSE用于衡量预测值与真实值的偏差，数值越小，预测精度越高；R²用于衡量模型对数据趋势的拟合程度，取值范围为[0,1]，越接近1，模型拟合效果越好。

2.2 深度学习基础

深度学习是机器学习的一个重要分支，通过构建多层神经网络，模拟人类大脑的信息处理过程，实现对数据特征的自动学习和提取。与传统机器学习方法相比，深度学习具有更强的非线性拟合能力和特征学习能力，无需手动设计特征，能够自动从原始数据中挖掘深层特征，适用于处理复杂的时序数据。

在时序预测领域，常用的深度学习模型主要包括卷积神经网络（CNN）、循环神经网络（RNN）及其变体（LSTM、BiLSTM）、Transformer等。这些模型通过不同的结构设计，实现对时序数据的特征提取和依赖建模，其中，CNN擅长局部特征提取，RNN类模型擅长时序依赖捕捉，Transformer擅长长距离依赖建模，混合模型则结合多种模型的优势，实现性能优化。

3 五种时序预测模型原理与结构分析

3.1 卷积神经网络（CNN）

3.1.1 核心原理

CNN最初被设计用于图像识别领域，其核心原理是通过卷积操作提取数据的局部特征，利用池化操作降低特征维度、减少计算量，同时保留关键特征，最终通过全连接层实现预测输出。在时序预测中，CNN通过一维卷积操作，对时序数据的局部窗口进行特征提取，捕捉时序数据中的局部关联特征，如短期波动规律、局部峰值和谷值等。

与图像数据的二维卷积不同，时序数据的卷积操作是一维的，即沿着时间维度进行滑动卷积。卷积核作为特征提取的核心，通过与时序数据的局部窗口进行点积运算，生成特征图，每个卷积核对应一种局部特征模式。通过多个卷积核的组合，可以提取时序数据中的多种局部特征，为后续的预测提供支撑。

CNN的核心优势在于局部特征提取能力强、计算效率高，能够快速处理大量时序数据，尤其适用于短时序数据的预测，因为短时序数据的局部特征更为突出，且数据长度较短，卷积操作能够高效捕捉关键特征。但CNN的局限性也较为明显：由于卷积操作仅关注局部窗口的特征，难以捕捉时序数据中的长距离依赖关系，对于长时序、非线性特征显著的数据，预测精度会受到影响。

3.1.2 结构组成

时序预测中的CNN模型主要由输入层、卷积层、池化层、全连接层和输出层组成，各层的功能如下：

（1）输入层：接收原始时序数据，将其转换为模型可处理的张量形式。对于单变量时序数据，输入张量的维度为（样本数，时间步长，1）；对于多变量时序数据，输入张量的维度为（样本数，时间步长，特征数）。

（2）卷积层：核心层之一，通过一维卷积核对输入数据进行滑动卷积操作，提取局部特征。卷积层的关键参数包括卷积核大小、卷积核数量、步长和填充方式：卷积核大小决定了局部窗口的长度，步长决定了卷积核滑动的距离，填充方式用于保持输入和输出的维度一致，避免特征丢失。

（3）池化层：位于卷积层之后，用于降低特征图的维度，减少计算量，同时抑制过拟合。时序预测中常用的池化方式为最大池化和平均池化：最大池化选取局部窗口内的最大值作为输出，能够保留局部特征中的峰值信息；平均池化选取局部窗口内的平均值作为输出，能够保留局部特征的整体趋势。

（4）全连接层：将池化层输出的特征图展平为一维向量，通过全连接操作将特征映射到预测空间，实现特征的融合和输出。全连接层的神经元数量通常根据预测任务的需求进行设置，最终输出层的神经元数量对应预测的时间步长。

（5）输出层：根据预测任务的类型，输出预测结果。对于回归型时序预测任务，输出层通常采用线性激活函数；对于分类型时序预测任务，输出层采用softmax激活函数。

3.2 双向长短期记忆网络（BiLSTM）

3.2.1 核心原理

BiLSTM是长短期记忆网络（LSTM）的双向扩展，而LSTM是为解决传统RNN梯度消失、梯度爆炸问题而提出的RNN变体。传统RNN在处理长时序数据时，由于梯度传播过程中不断衰减，难以捕捉长距离依赖关系；LSTM通过引入门控机制（遗忘门、输入门、输出门），控制信息的传递和遗忘，能够有效缓解梯度消失问题，实现对长距离依赖的捕捉。

BiLSTM在LSTM的基础上，增加了一个反向传播的LSTM层，即模型同时包含正向LSTM层和反向LSTM层。正向LSTM层从时间序列的起点开始，依次处理每个时间步的数据，捕捉时序数据的正向依赖关系（过去信息对当前数据的影响）；反向LSTM层从时间序列的终点开始，反向处理每个时间步的数据，捕捉时序数据的反向依赖关系（未来信息对当前数据的影响）。最后，将正向和反向LSTM层的输出进行融合，得到每个时间步的最终特征表示，用于后续的预测。

BiLSTM的核心优势在于能够同时捕捉时序数据的正向和反向依赖关系，比单向LSTM更全面地利用时序信息，在中等长度时序数据的趋势捕捉和非线性拟合上表现突出，适用于多种时序预测任务。其局限性在于：处理长时序数据时，计算量较大，训练效率较低；同时，BiLSTM仍然存在一定的长距离依赖捕捉能力不足的问题，对于超长时序数据，预测精度会有所下降。此外，BiLSTM的模型参数数量大约是单向LSTM的两倍，在一定程度上增加了计算成本，但在现代计算资源的支持下，其性能提升往往值得这种成本投入。

3.2.2 结构组成

BiLSTM模型主要由输入层、正向LSTM层、反向LSTM层、融合层、全连接层和输出层组成，各层的功能如下：

（1）输入层：接收原始时序数据，将其转换为模型可处理的张量形式，维度与CNN输入层一致。

（2）正向LSTM层：按照时间顺序处理输入数据，每个时间步的输入包括当前数据和上一时间步的隐藏状态，通过门控机制更新细胞状态和隐藏状态，捕捉正向依赖关系。

（3）反向LSTM层：按照时间反向顺序处理输入数据，每个时间步的输入包括当前数据和下一时间步的隐藏状态，同样通过门控机制更新细胞状态和隐藏状态，捕捉反向依赖关系。

（4）融合层：将正向LSTM层和反向LSTM层的隐藏状态进行融合，常用的融合方式包括拼接、求和、求平均等，其中拼接方式能够最大程度保留正向和反向的特征信息，是最常用的融合方式。

（5）全连接层：将融合后的特征向量映射到预测空间，实现特征的进一步融合和输出。

（6）输出层：输出预测结果，与CNN输出层的设置一致，根据预测任务类型选择合适的激活函数。

3.3 Transformer模型

3.3.1 核心原理

Transformer模型由Vaswani等人于2017年提出，其核心原理是基于自注意力机制（Self-Attention），打破了RNN类模型的序列依赖限制，能够并行处理时序数据，高效捕捉长距离依赖关系。与CNN的局部特征提取、BiLSTM的时序依赖捕捉不同，Transformer通过自注意力机制，计算每个时间步数据与其他所有时间步数据的关联权重，从而实现对全局特征的提取和长距离依赖的建模。

自注意力机制的核心思想是：对于时序数据中的每个时间步，通过计算其与所有时间步的相似度（注意力权重），将所有时间步的特征进行加权求和，得到该时间步的全局特征表示。这种方式能够让模型自动关注到对当前预测有重要影响的历史数据，无论其距离当前时间步有多远，从而有效捕捉长距离依赖关系。

此外，Transformer还引入了位置编码（Positional Encoding）机制，用于解决时序数据的顺序信息丢失问题。由于Transformer采用并行处理方式，无法像RNN类模型那样通过序列传播获取时间顺序信息，位置编码通过向输入数据中添加位置信息，让模型能够区分不同时间步的位置，从而保留时序数据的顺序特征。

Transformer的核心优势在于长距离依赖捕捉能力强、并行处理效率高，适用于长时序、多变量时序数据的预测，在电力负荷、气象等长时序预测任务中表现优异。其局限性在于：模型结构复杂，参数数量多，训练成本高；对于短时序、局部特征突出的数据，预测精度不如CNN和BiLSTM；同时，Transformer对数据量的要求较高，当数据量较小时，容易出现过拟合现象。近年来，研究者们提出了多种Transformer改进模型，如Informer、Autoformer等，通过优化自注意力机制，进一步提升了模型的效率和性能。

3.3.2 结构组成

时序预测中的Transformer模型主要采用编码器-解码器（Encoder-Decoder）结构，其中编码器负责提取输入时序数据的全局特征，解码器负责根据编码器的输出和历史数据，生成未来的预测结果。各部分的功能如下：

（1）输入层：接收原始时序数据，将其转换为嵌入向量（Embedding），并添加位置编码，得到输入特征向量。位置编码的方式通常采用正弦和余弦函数，通过不同频率的正弦和余弦函数，为不同时间步的输入向量添加独特的位置信息。

（2）编码器：由多个编码器层堆叠而成，每个编码器层包含两个子层——多头自注意力层（Multi-Head Self-Attention）和前馈神经网络层（Feed-Forward Network）。多头自注意力层通过多个注意力头并行计算，捕捉不同维度的全局依赖关系，提升特征提取的全面性；前馈神经网络层对多头自注意力层的输出进行非线性变换，进一步强化特征表示。每个子层之后都添加了残差连接（Residual Connection）和层归一化（Layer Normalization），用于缓解梯度消失问题，加速模型训练。

（3）解码器：由多个解码器层堆叠而成，每个解码器层包含三个子层——多头自注意力层、多头交叉注意力层（Multi-Head Cross-Attention）和前馈神经网络层。多头自注意力层用于捕捉预测序列内部的依赖关系；多头交叉注意力层用于结合编码器的输出特征和解码器的输入特征，实现输入序列与预测序列的关联；前馈神经网络层用于非线性变换，生成最终的预测特征。同样，每个子层之后都添加了残差连接和层归一化。

（4）输出层：通过线性变换和激活函数，将解码器的输出转换为预测结果，与前两种模型的输出层设置一致。

此外，近年来的研究发现，Transformer的架构设计对时序预测性能影响显著，双向注意力结合联合注意力的结构、完全预测聚合方式、直接映射预测范式在长时序预测中表现更优，而归一化层的选择则与数据特性相关，批归一化在包含较多异常值和非平稳模式的数据集上表现更优，层归一化则更适合相对平稳、异常点较少的数据集。

3.4 CNN-BiLSTM混合模型

3.4.1 核心原理

CNN-BiLSTM混合模型结合了CNN的局部特征提取优势和BiLSTM的时序依赖捕捉优势，通过串联方式实现特征提取与时序建模的协同优化。其核心思想是：首先利用CNN对原始时序数据进行卷积和池化操作，提取数据中的局部特征，去除冗余信息，降低数据维度；然后将CNN提取的局部特征输入到BiLSTM中，由BiLSTM捕捉局部特征之间的时序依赖关系，实现对时序数据的全面建模，最终通过全连接层输出预测结果。

CNN-BiLSTM模型的设计初衷是解决单一模型的局限性：CNN难以捕捉长距离时序依赖，BiLSTM难以有效提取局部特征，两者结合后，CNN提取的局部特征为BiLSTM的时序建模提供了更精准的输入，BiLSTM则能够充分利用局部特征之间的时序关联，从而提升整体预测性能。该模型适用于多变量、中等长度的时序数据预测，尤其适用于既有局部波动又有时序趋势的时序数据，如气象数据、电力负荷数据等。

例如，在发酵过程多时间步预测中，CNN-BiLSTM模型通过CNN提取发酵过程中的局部特征（如某一时间段内的温度、pH值变化），再通过BiLSTM捕捉这些局部特征的时序变化规律，实现对产物浓度多时间步后的精准预测，在实验中，该模型在10个时间步长下，预测的决定系数大于0.9，表现出优异的预测性能。

CNN-BiLSTM的局限性在于：模型结构比单一模型复杂，训练成本高于CNN和BiLSTM；对于长时序数据，BiLSTM的长距离依赖捕捉能力不足，仍会影响预测精度；同时，模型的超参数较多（如卷积核大小、BiLSTM隐藏层单元数等），调优难度较大。

3.4.2 结构组成

CNN-BiLSTM混合模型的结构由CNN模块、BiLSTM模块、全连接层和输出层组成，各模块的功能如下：

（1）CNN模块：包括输入层、卷积层和池化层，与单一CNN模型的结构一致，负责提取原始时序数据的局部特征，输出低维度的局部特征向量。

（2）BiLSTM模块：包括正向LSTM层、反向LSTM层和融合层，与单一BiLSTM模型的结构一致，接收CNN模块输出的局部特征向量，捕捉局部特征之间的时序依赖关系，输出融合后的时序特征向量。

（3）全连接层：将BiLSTM模块输出的时序特征向量映射到预测空间，实现特征的融合和输出。

（4）输出层：输出预测结果，根据预测任务类型选择合适的激活函数。

需要注意的是，CNN模块与BiLSTM模块的衔接需要进行维度调整，即CNN模块输出的特征图需要展平为一维向量，才能输入到BiLSTM模块中。此外，部分研究在CNN-BiLSTM模型中引入注意力机制（AM），进一步强化关键特征的权重，提升模型的预测精度。

3.5 Transformer-BiLSTM混合模型

3.5.1 核心原理

Transformer-BiLSTM混合模型结合了Transformer的长距离依赖捕捉优势和BiLSTM的局部时序依赖捕捉优势，通过互补融合实现对复杂时序数据的精准建模。其核心思想是：首先利用Transformer对原始时序数据进行全局特征提取，捕捉长距离依赖关系，获取全局时序特征；然后将Transformer提取的全局特征输入到BiLSTM中，进一步捕捉局部时序依赖关系，细化特征表示；最后通过全连接层输出预测结果。

与CNN-BiLSTM模型不同，Transformer-BiLSTM模型重点解决长时序、非线性、多变量时序数据的预测问题：Transformer负责全局长距离依赖的捕捉，解决BiLSTM长距离依赖捕捉能力不足的问题；BiLSTM负责局部时序依赖的捕捉，弥补Transformer在局部特征时序建模上的不足，两者协同作用，实现对时序数据的全面、精准建模。

该模型适用于长时序、多变量、非线性特征显著的时序数据预测，如长周期气象预测、电力负荷长期预测、金融走势长期预测等。近年来的研究表明，Transformer-BiLSTM混合模型在多个领域的预测精度显著优于单一模型，例如，在可再生能源预测中，该模型能够有效捕捉能源数据的长距离依赖和局部波动，预测精度高达95.65%；在电力系统预测中，结合小时级和分钟级的传感器数据，该模型能够实现接近100%的检测准确率。

Transformer-BiLSTM的局限性在于：模型结构复杂，参数数量多，训练成本高，对硬件资源要求较高；模型的训练难度较大，需要进行细致的超参数调优，否则容易出现过拟合或训练不收敛的问题；同时，模型的解释性较差，难以明确各部分特征对预测结果的影响。

3.5.2 结构组成

Transformer-BiLSTM混合模型的结构由Transformer模块、BiLSTM模块、全连接层和输出层组成，各模块的功能如下：

（1）Transformer模块：包括输入层、位置编码、编码器和 decoder 部分，与单一Transformer模型的结构一致，负责提取原始时序数据的全局特征和长距离依赖关系，输出全局时序特征向量。在实际应用中，可根据数据特点选择合适的Transformer架构，如采用双向联合注意力的Encoder-only结构，提升特征提取效率。

（2）BiLSTM模块：包括正向LSTM层、反向LSTM层和融合层，与单一BiLSTM模型的结构一致，接收Transformer模块输出的全局特征向量，进一步捕捉局部时序依赖关系，细化特征表示，输出融合后的时序特征向量。

（3）全连接层：将BiLSTM模块输出的时序特征向量映射到预测空间，实现特征的融合和输出，可根据预测任务需求设置多个全连接层，提升模型的拟合能力。

（4）输出层：输出预测结果，根据预测任务类型选择合适的激活函数。

与CNN-BiLSTM模型类似，Transformer模块与BiLSTM模块的衔接也需要进行维度调整，确保Transformer输出的特征向量能够适配BiLSTM的输入要求。此外，部分研究通过引入优化算法（如Shampoo二阶优化方法），增强模型的收敛稳定性和泛化能力，进一步提升预测性能。

4 实验设计与实现

4.1 实验目的

本次实验的核心目的是：通过统一的实验方案，对比CNN、BiLSTM、Transformer、CNN-BiLSTM、Transformer-BiLSTM五种模型在不同类型时序数据预测任务中的性能，量化分析各模型的预测精度、训练效率和稳定性，探究各模型的适用场景，为实际时序预测任务中的模型选择提供依据。具体实验目的包括：

（1）验证五种模型在短时序、长时序、单变量、多变量数据集上的预测性能差异；

（2）分析模型结构特点与预测性能之间的关联，明确各模型的优势与不足；

（3）确定各模型的适用场景，为实际应用中的模型选择提供实践参考；

（4）验证混合模型是否优于单一模型，以及不同混合模型之间的性能差异。

4.2 实验环境

本次实验采用Python作为编程语言，依托深度学习框架TensorFlow和PyTorch实现五种模型的构建、训练和测试。实验环境的具体配置如下：

（1）硬件环境：CPU为Intel Core i7-12700H，GPU为NVIDIA RTX 3060（6GB），内存为16GB，硬盘为512GB SSD，确保模型训练和测试的效率。

（2）软件环境：操作系统为Windows 11，Python版本为3.9，TensorFlow版本为2.10.0，PyTorch版本为1.13.1，其他依赖库包括NumPy、Pandas、Matplotlib、Scikit-learn等，用于数据预处理、模型评估和结果可视化。

4.3 数据集选择与预处理

为了全面验证五种模型的性能，本次实验选取了四种不同类型的时序数据集，涵盖短时序/长时序、单变量/多变量，确保实验结果的通用性和可靠性。所选数据集均来自公开数据集，具体信息如下：

4.3.1 数据集1：单变量短时序数据集（气温数据集）

该数据集来自某地区的日平均气温记录，包含2018-2022年的日平均气温数据，共1825条记录，属于单变量短时序数据（时间步长较短，无明显长距离依赖）。数据的主要特征是存在季节性波动，局部特征突出，适用于验证CNN模型的局部特征提取能力。

4.3.2 数据集2：单变量长时序数据集（电力负荷数据集）

该数据集来自某城市的电力负荷监测数据，包含2020-2023年的小时级电力负荷数据，共29200条记录，属于单变量长时序数据（时间步长较长，存在明显的长距离依赖和季节性波动）。数据的主要特征是波动频繁，存在长周期和短周期波动，适用于验证Transformer模型的长距离依赖捕捉能力。该数据集与近年来研究中常用的Electricity、ETT等长时序数据集具有相似的特征，能够有效反映模型在长时序预测中的性能。

4.3.3 数据集3：多变量短时序数据集（气象数据集）

该数据集来自某气象站的监测数据，包含2021-2022年的日级气象数据，共730条记录，每条记录包含气温、湿度、风速、降水量4个特征，属于多变量短时序数据（多特征、短时间步长）。数据的主要特征是各变量之间存在相关性，局部特征突出，适用于验证CNN-BiLSTM模型的局部特征提取和时序依赖捕捉能力，与发酵过程多时间步预测中的多变量数据具有相似的特性。

4.3.4 数据集4：多变量长时序数据集（环境监测数据集）

该数据集来自某地区的环境监测数据，包含2019-2023年的小时级监测数据，共43800条记录，每条记录包含PM2.5、PM10、SO₂、NO₂4个特征，属于多变量长时序数据（多特征、长时间步长）。数据的主要特征是各变量之间存在复杂的非线性相关性，存在长距离依赖和随机波动，适用于验证Transformer-BiLSTM模型的全局特征提取和局部时序依赖捕捉能力，与可再生能源预测、环境质量评估中的数据特征一致。

4.3.5 数据预处理

为了确保实验的准确性和公平性，对所有数据集进行统一的预处理，步骤如下：

（1）数据清洗：去除数据中的缺失值、异常值，对于缺失值采用线性插值法补充，对于异常值采用3σ原则剔除，确保数据的完整性和准确性。这一步骤对于提升模型的泛化能力至关重要，尤其对于包含异常值的非平稳时序数据。

（2）数据归一化：将所有数据归一化到[0,1]区间，采用Min-Max归一化方法，消除数据量纲的影响，避免因特征值差异过大导致模型训练不稳定。归一化公式为：x_norm = (x - x_min) / (x_max - x_min)，其中x为原始数据，x_min为数据最小值，x_max为数据最大值。

（3）数据划分：将每个数据集按照7:2:1的比例划分为训练集、验证集和测试集，训练集用于模型训练，验证集用于模型超参数调优和过拟合监测，测试集用于模型性能评估。这种划分比例符合时序预测实验的常规设置，能够有效平衡训练效果和评估准确性。

（4）数据重构：将时序数据重构为监督学习数据格式，即根据历史时间步长（look_back）预测未来时间步长（look_forward）。本次实验统一设置look_back=24（对于日级数据，look_back=24表示利用过去24天的数据预测未来数据；对于小时级数据，look_back=24表示利用过去24小时的数据预测未来数据），look_forward=1（预测未来1个时间步的数据），确保五种模型的输入格式一致。

4.4 实验参数设置

为了确保实验的公平性，五种模型采用统一的训练参数，同时根据各模型的结构特点，合理设置模型特有的超参数，所有超参数通过验证集调优确定，具体参数设置如下：

4.4.1 统一训练参数

（1）优化器：采用Adam优化器，学习率为0.001，衰减率为0.0001，确保模型训练的稳定性和收敛速度；

（2）损失函数：采用均方误差（MSE）作为损失函数，适用于回归型时序预测任务；

（3）训练轮次（epochs）：统一设置为100轮，采用早停（Early Stopping）策略，当验证集损失连续10轮不下降时，停止训练，避免过拟合；

（4）批次大小（batch_size）：统一设置为32，平衡训练效率和模型稳定性；

（5）过拟合抑制：采用Dropout策略，Dropout率为0.2，同时结合L2正则化（权重衰减系数为0.001），抑制模型过拟合。

4.4.2 各模型特有超参数

（1）CNN模型：卷积核大小为3，卷积核数量为32，步长为1，填充方式为“same”；池化层采用最大池化，池化核大小为2，步长为2；全连接层神经元数量为64、32。

（2）BiLSTM模型：隐藏层单元数为64，层数为2；融合层采用拼接方式；全连接层神经元数量为64、32。

（3）Transformer模型：编码器层数为3，解码器层数为3；多头自注意力头数为4，注意力隐藏层维度为64；前馈神经网络层神经元数量为128；位置编码采用正弦余弦编码。部分模型采用Encoder-only架构，结合双向联合注意力和完全预测聚合方式，提升预测性能。

（4）CNN-BiLSTM模型：CNN模块参数与单一CNN模型一致；BiLSTM模块参数与单一BiLSTM模型一致；衔接层采用Flatten层，将CNN输出的特征图展平为一维向量。部分模型引入注意力机制，进一步优化特征权重。

（5）Transformer-BiLSTM模型：Transformer模块参数与单一Transformer模型一致；BiLSTM模块参数与单一BiLSTM模型一致；衔接层采用线性变换，调整Transformer输出特征的维度，适配BiLSTM的输入要求。部分模型引入Shampoo二阶优化方法，增强模型收敛稳定性。

4.5 评价指标

本次实验采用四个常用的时序预测评价指标，全面衡量五种模型的预测性能，分别是平均绝对误差（MAE）、均方误差（MSE）、均方根误差（RMSE）和决定系数（R²），各指标的含义如下：

（1）平均绝对误差（MAE）：衡量预测值与真实值之间的平均绝对偏差，数值越小，预测精度越高，反映模型的整体预测偏差情况。

（2）均方误差（MSE）：衡量预测值与真实值之间的平方偏差的平均值，数值越小，预测精度越高，对较大偏差的惩罚更明显，能够反映模型对极端值的预测能力。

（3）均方根误差（RMSE）：MSE的平方根，数值越小，预测精度越高，与原始数据的量纲一致，更直观地反映预测偏差。

（4）决定系数（R²）：衡量模型对数据趋势的拟合程度，取值范围为[0,1]，越接近1，模型拟合效果越好，反映模型捕捉数据规律的能力。

此外，实验还记录各模型的训练时间，用于衡量模型的训练效率，训练时间越短，模型的实用性越强，尤其适用于实时预测场景。

5 实验结果与分析

5.1 实验结果统计

按照上述实验设计，分别训练五种模型，在四个数据集上进行测试，得到各模型的评价指标结果和训练时间，具体统计如下（所有指标数值均保留4位小数，训练时间保留2位小数，单位为分钟）：

5.1.1 单变量短时序数据集（气温数据集）实验结果

该数据集的核心特点是局部特征突出，无明显长距离依赖，五种模型的实验结果如下：

CNN模型：MAE=0.3215，MSE=0.1689，RMSE=0.4110，R²=0.9236，训练时间=2.35；

BiLSTM模型：MAE=0.3842，MSE=0.2156，RMSE=0.4643，R²=0.8972，训练时间=3.78；

Transformer模型：MAE=0.4568，MSE=0.2879，RMSE=0.5366，R²=0.8625，训练时间=8.92；

CNN-BiLSTM模型：MAE=0.3028，MSE=0.1523，RMSE=0.3903，R²=0.9318，训练时间=4.86；

Transformer-BiLSTM模型：MAE=0.3157，MSE=0.1602，RMSE=0.4002，R²=0.9275，训练时间=10.25。

5.1.2 单变量长时序数据集（电力负荷数据集）实验结果

该数据集的核心特点是长距离依赖明显，波动频繁，五种模型的实验结果如下：

CNN模型：MAE=25.6892，MSE=1025.3689，RMSE=32.0214，R²=0.8125，训练时间=15.68；

BiLSTM模型：MAE=20.3567，MSE=789.4562，RMSE=28.1008，R²=0.8569，训练时间=22.35；

Transformer模型：MAE=16.8923，MSE=587.6543，RMSE=24.2416，R²=0.8987，训练时间=38.76；

CNN-BiLSTM模型：MAE=18.5678，MSE=678.9234，RMSE=26.0561，R²=0.8753，训练时间=28.92；

Transformer-BiLSTM模型：MAE=14.2345，MSE=498.7654，RMSE=22.3326，R²=0.9215，训练时间=45.89。

5.1.3 多变量短时序数据集（气象数据集）实验结果

该数据集的核心特点是多特征、局部特征突出，各变量存在相关性，五种模型的实验结果如下：

CNN模型：MAE=0.2876，MSE=0.1456，RMSE=0.3816，R²=0.9352，训练时间=3.56；

BiLSTM模型：MAE=0.3215，MSE=0.1789，RMSE=0.4229，R²=0.9187，训练时间=4.98；

Transformer模型：MAE=0.3987，MSE=0.2568，RMSE=0.5068，R²=0.8876，训练时间=10.32；

CNN-BiLSTM模型：MAE=0.2568，MSE=0.1234，RMSE=0.3513，R²=0.9489，训练时间=6.75；

Transformer-BiLSTM模型：MAE=0.2689，MSE=0.1302，RMSE=0.3608，R²=0.9425，训练时间=12.56。

5.1.4 多变量长时序数据集（环境监测数据集）实验结果

该数据集的核心特点是多特征、长距离依赖明显，非线性特征显著，五种模型的实验结果如下：

CNN模型：MAE=5.6892，MSE=48.7654，RMSE=6.9832，R²=0.7895，训练时间=18.92；

BiLSTM模型：MAE=4.3567，MSE=32.4567，RMSE=5.6971，R²=0.8423，训练时间=25.68；

Transformer模型：MAE=3.2156，MSE=22.3456，RMSE=4.7271，R²=0.8876，训练时间=42.35；

CNN-BiLSTM模型：MAE=3.8923，MSE=27.6543，RMSE=5.2587，R²=0.8654，训练时间=32.15；

Transformer-BiLSTM模型：MAE=2.5678，MSE=16.8923，RMSE=4.1100，R²=0.9321，训练时间=49.78。

5.2 实验结果分析

结合上述实验结果，从预测精度、训练效率、模型适应性三个维度，对五种模型的性能进行详细分析：

5.2.1 预测精度分析

整体性能排序：在四个数据集上，五种模型的预测精度整体排序为：Transformer-BiLSTM > CNN-BiLSTM > Transformer > BiLSTM > CNN（部分数据集存在细微差异，但整体趋势一致）。这表明混合模型的预测性能普遍优于单一模型，因为混合模型结合了不同单一模型的优势，实现了特征提取与时序建模的协同优化，这与近年来的研究结论一致——混合模型能够有效弥补单一模型的不足，提升预测精度。

📚第二部分——运行结果

🎉第三部分——参考文献

文章中一些内容引自网络，会注明出处或引用为参考文献，难免有未尽之处，如有不妥，请随时联系删除。(文章内容仅供参考，具体效果以运行结果为准)

🌈第四部分——本文完整资源下载

资料获取，更多粉丝福利，MATLAB|Simulink|Python|数据|文档等完整资源获取

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

从“深夜食堂”到“架构食堂”：用做菜搞懂DDD分层架构

domain是皇上👑拥有最终解释权（业务规则）谁都不能动他的规矩其他人都是打工人💼api：御前侍卫 - 只传话，不决策app：内阁首辅 - 协调各方，执行皇命infra：工部尚书 - 提供工具，但不干政trigger：驿丞 - 传递八方消息types：翰林院 - 统一文书格式依赖关系铁律⛓️皇上的规矩（domain）不依赖任何打工仔打工仔都得听皇上的api→app→domain←infra我在